Wired et la société d'analyse Proof News ont récemment publié les résultats d'une enquête qui démontre l'ampleur de l'exploitation des vidéos YouTube par les entreprises d'IA. L'enquête révèle qu'un ensemble de données appelé The Pile, compilé par le groupe de recherche en IA EleutherAI, comprend des transcriptions de plus de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube. Tout cela a été fait à l'insu des créateurs de contenu. Cet ensemble de données a ensuite été exploité par les entreprises technologiques telles qu'Apple, Salesforce, Nvidia et Anthropic pour former leurs grands modèles de langage (LLM).
L'enquête met en lumière un aspect troublant de la technologie de l'IA : une grande partie de son développement repose sur des données collectées à partir du travail des créateurs de contenu sans leur consentement ni leur rémunération. La base de données se compose uniquement de transcriptions de vidéos, et non de vidéos ou d'images réelles, provenant de créateurs célèbres tels que Marques Brownlee et MrBeast, ainsi que d'organes d'information majeurs tels que le New York Times, la BBC et ABC News. Par exemple, Apple a utilisé The Pile pour ses modèles open source OpenELM qui sous-tendent Apple Intelligence.
Anthropic et Salesforce ont déjà confirmé avoir utilisé The Pile pour leurs systèmes d'IA. EleutherAI a déclaré avoir compilé The Pile pour offrir une base de données utiles aux personnes ou aux entreprises qui n'ont pas les ressources nécessaires pour rivaliser avec les Big Tech. Toutefois, The Pile a également été utilisé depuis par ces grandes entreprises. Les données d'EleutherAI ont déjà suscité la controverse par le passé. Et les nouvelles révélations de cette enquête ont contribué à déclencher une nouvelle vague de critiques acerbes. Sur X, Marquees Brownlee a dénoncé l'utilisation de cet ensemble de données par Apple.
Marques Brownlee a exprimé son inquiétude sur les médias sociaux, notant que ses données, parmi d'autres, avaient été extraites de vidéos YouTube sans autorisation appropriée. Il a toutefois reconnu qu'il est difficile d'attribuer les responsabilités lorsque Apple n'a pas collecté les données lui-même. Il a écrit :
Envoyé par Marquees Brownlee
Ce n'est pas la première fois que les entreprises d'IA sont accusées d'avoir transcrit des vidéos YouTube pour former leurs modèles. The Pile est très souvent utilisé et référencé dans les cercles de l'IA et a été utilisé par des entreprises technologiques pour la formation dans le passé. Il a été cité dans de nombreuses actions en justice intentées par des détenteurs de droits de propriété intellectuelle contre des entreprises d'IA et de technologie. Les défendeurs dans ces procès, y compris OpenAI, font valoir que ce type d'extraction de données est une "utilisation équitable". Les procès sont toujours en attente devant les tribunaux.
Mais cette fois-ci, Proof News a fait des recherches approfondies pour identifier les spécificités de l'utilisation des sous-titres de YouTube et est allé jusqu'à créer un outil que vous pouvez utiliser pour rechercher dans la pile des vidéos individuelles ou des chaînes. Ce travail révèle l'ampleur de la collecte de données et attire l'attention sur le peu de contrôle qu'exercent les détenteurs de droits de propriété intellectuelle sur l'utilisation de leurs œuvres lorsqu'elles se trouvent sur le Web ouvert. Comme souligné ci-dessus, la situation juridique concernant l'extraction de données pour la formation des modèles n'est toujours pas claire.
Envoyé par Critique
Proof News a contacté plusieurs de ces créateurs pour obtenir des déclarations, ainsi que les entreprises qui ont utilisé l'ensemble de données. La plupart des créateurs ont été surpris que leur contenu ait été utilisé de cette manière, et ceux qui ont fait des déclarations ont critiqué EleutherAI et les entreprises qui ont utilisé The Pile. « Personne n'est venu me voir en me disant : "nous aimerions utiliser ceci". C'est mon gagne-pain, et je consacre du temps, des ressources, de l'argent et du temps de travail à la création de ce contenu. Le travail ne manque pas », a déclaré David Pakman, du talk-show David Pakman Show.
Julia Walsh, PDG de la société de production Complexly, responsable de la chaîne YouTube de vidéos scientifiques SciShow et d'autres contenus éducatifs de Hank et John Green, a déclaré : « nous sommes frustrés d'apprendre que notre contenu éducatif, produit avec soin, a été utilisé de cette manière sans notre consentement ». Cependant, pour sa part, Anthropic affirme qu'il n'y a pas de violation ici. C'est ce qu'a déclaré Jennifer Martinez, porte-parole de l'entreprise :
Envoyé par Jennifer Martinez, porte-parole d'Anthropic
Au début de l'année, Mira Murati, directrice de la technologie d'OpenAI, a évité d'indiquer si des vidéos YouTube avaient été utilisées pour entraîner Sora lorsqu'elle a été interrogée par le Wall Street Journal. Sora est l'outil de génération de vidéos par l'IA d'OpenAI. Mira Murati a indiqué que les données utilisées étaient accessibles au public ou sous licence. Microsoft, Meta et plusieurs autres entreprises spécialisées dans l'IA éludent également la question ou refusent d'y répondre.
YouTube, réputé pour être le plus grand dépôt de vidéos au monde, propose non seulement des transcriptions, mais aussi des sons, des vidéos et des images, ce qui en fait un ensemble de données très intéressant pour l'entraînement de modèles d'IA. Un porte-parole de Google a déclaré à Proof News que Google avait pris des mesures au fil des ans pour empêcher l'extraction abusive et non autorisée de données sur la plateforme, mais n'a pas fourni de réponse plus précise.
Source : Proof News (1,2)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'utilisation des vidéos YouTube par les entreprises d'IA sans le consentement des créateurs ?
Selon vous, ce type d'extraction de données relève-t-il de l'utilisation équitable ? Si oui, quels seraient les impacts sur les créateurs ?
La loi sur le droit d'auteur doit-elle être mise à jour afin d'interdire l'extraction de données pour former l'IA ou pour l'autoriser ?
Voir aussi
Adobe achètera vos vidéos jusqu'à 7,25 dollars la minute pour former son générateur de texte en vidéo par IA afin de rattraper ses concurrents après la démonstration d'OpenAI
Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4, violant ainsi les droits d'auteur des créateurs de la plateforme
Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA