Apple, Anthropic et Nvidia surpris en train d'utiliser des sous-titres YouTube pour la formation en IA

Une nouvelle enquête menée par Proof News et Wired a révélé que de grandes entreprises technologiques, notamment Apple, Anthropic, Nvidia et Salesforce, utilisent un ensemble massif de données de sous-titres YouTube pour entraîner leurs systèmes d'IA.

L'ensemble de données, connu sous le nom de « Sous-titres YouTube », contient des transcriptions de plus de 170 000 vidéos diffusées sur 48 000 chaînes, y compris du contenu de créateurs populaires comme MrBeast et Marques Brownlee (MKBHD), ainsi que de principaux médias tels que ABC News, la BBC et le New York Times. L'ensemble de données n'inclut pas le contenu vidéo réel mais se concentre uniquement sur les sous-titres extraits de ces vidéos.

Cette révélation a suscité une importante controverse, car les données auraient été collectées sans autorisation, en violation des conditions d’utilisation de YouTube. Marques Brownlee, un critique technologique bien connu, a souligné le problème sur les réseaux sociaux, exprimant ses inquiétudes concernant l'utilisation non autorisée de son contenu et de celui d'autres créateurs pour la formation en IA. Il a souligné que même si des entreprises comme Apple ne sont peut-être pas directement responsables de la récupération des données, elles sont néanmoins les bénéficiaires de cette pratique discutable.

Apple a obtenu des données pour son IA auprès de plusieurs sociétés

L’un d’eux a récupéré des tonnes de données/transcriptions de vidéos YouTube, dont la mienne

Apple évite techniquement la « faute » ici car ce n’est pas eux qui grattent

Mais cela va être un problème évolutif pendant longtempshttps://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD)16 juillet 2024

L'ensemble de données en question fait partie d'une collection plus vaste appelée The Pile, créée par l'association à but non lucratif EleutherAI. The Pile est un ensemble de données open source qui comprend divers éléments tels que des livres, des articles Wikipédia et désormais des sous-titres YouTube. Cette compilation a été utilisée par plusieurs géants de la technologie pour améliorer leurs modèles d'IA. Apple, par exemple, a utilisé The Pile pour former son modèle OpenELM, qui a été annoncé juste avant l'introduction d'Apple Intelligence, une suite de fonctionnalités basées sur l'IA qui devrait être lancée avec iOS 18.

L’utilisation de cet ensemble de données a soulevé des questions éthiques et juridiques. Le PDG de YouTube, Neal Mohan, et le PDG d'Alphabet, Sundar Pichai, ont tous deux déclaré que l'utilisation de contenu YouTube pour la formation à l'IA sans autorisation violait les conditions d'utilisation de la plateforme. Malgré ces affirmations, des sociétés comme Apple et Nvidia n’ont pas commenté publiquement leur implication dans l’ensemble de données The Pile.

De plus, cette situation met en évidence un problème plus large au sein de l’industrie de l’IA : le manque de transparence concernant les sources des données de formation. Les entreprises gardent souvent secrets les détails de leurs sources de données, ce qui suscite des inquiétudes quant à une éventuelle utilisation abusive du contenu et à ses implications pour les créateurs de contenu. Ce manque de transparence n’est pas nouveau. Plus tôt cette année, Mira Murati, directrice technique d’OpenAI, a évité de préciser directement si les vidéos YouTube étaient utilisées pour former leurs outils d’IA, citant plutôt l’utilisation de données accessibles au public ou sous licence.

L’enquête de Proof News a également souligné que l’ensemble de données Pile comprend des contenus potentiellement problématiques, tels que des préjugés contre certains genres et groupes religieux, ainsi que des grossièretés. Malgré ces problèmes, des entreprises comme Salesforce ont défendu leur utilisation de l'ensemble de données, affirmant qu'il était accessible au public et utilisé à des fins universitaires et de recherche.

EN RAPPORT:Anthropic dévoile Claude 3.7 : premier modèle d'IA de raisonnement hybride

(viaFilaire)