Salesforce, Apple, Anthropic et d'autres géants de la Tech ont formé leurs modèles d'IA sur des vidéos YouTube sans le consentement des créateurs. Ils se sont appuyés sur l'ensemble de données The Pile, compilé à partir de plus de 170 000 vidéos, dont des vidéos de vidéastes populaires tels que Marquees Brownlee (MKBHD), MrBeast, Stephen Colbert et Jimmy Kimmel. Les experts affirment que ce comportement viole les droits des créateurs et les conditions d'utilisation de YouTube, mais les entreprises d'IA semblent prêtes à tout pour glaner des données indispensables à la formation de leurs modèles d'IA, à un moment où les sources de données se tarissent.Wired et la société d'analyse Proof News ont récemment publié les résultats d'une enquête qui démontre l'ampleur de l'exploitation des vidéos YouTube par les entreprises d'IA. L'enquête révèle qu'un ensemble de données appelé The Pile, compilé par le groupe de recherche en IA EleutherAI, comprend des transcriptions de plus de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube. Tout cela a été fait à l'insu des créateurs de contenu. Cet ensemble de données a ensuite été exploité par les entreprises technologiques telles qu'Apple, Salesforce, Nvidia et Anthropic pour former leurs grands modèles de langage (LLM).
L'enquête met en lumière un aspect troublant de la technologie de l'IA : une grande partie de son développement repose sur des données collectées à partir du travail des créateurs de contenu sans leur consentement ni leur rémunération. La base de données se compose uniquement de transcriptions de vidéos, et non de vidéos ou d'images réelles, provenant de créateurs célèbres tels que Marques Brownlee et MrBeast, ainsi que d'organes d'information majeurs tels que le New York Times, la BBC et ABC News. Par exemple, Apple a utilisé The Pile pour ses modèles open source OpenELM qui sous-tendent Apple Intelligence.
Anthropic et Salesforce ont déjà confirmé avoir utilisé The Pile pour leurs systèmes d'IA. EleutherAI a déclaré avoir compilé The Pile pour offrir une base de données utiles aux personnes ou aux entreprises qui n'ont pas les ressources nécessaires pour rivaliser avec les Big Tech. Toutefois, The Pile a également été utilisé depuis par ces grandes entreprises. Les données d'EleutherAI ont déjà suscité la controverse par le passé. Et les nouvelles révélations de cette enquête ont contribué à déclencher une nouvelle vague de critiques acerbes. Sur X, Marquees Brownlee a dénoncé l'utilisation de cet ensemble de données par Apple.
Marques Brownlee a exprimé son inquiétude sur les médias sociaux, notant que ses données, parmi d'autres, avaient été extraites de vidéos YouTube sans autorisation appropriée. Il a toutefois reconnu qu'il est difficile d'attribuer les responsabilités lorsque Apple n'a pas collecté les données lui-même. Il a écrit :
Ce n'est pas la première fois que les entreprises d'IA sont accusées d'avoir transcrit des vidéos YouTube pour former leurs modèles. The Pile est très souvent utilisé et référencé dans les cercles de l'IA et a été utilisé par des entreprises technologiques pour la formation dans le passé. Il a été cité dans de nombreuses actions en justice intentées par des détenteurs de droits de propriété intellectuelle contre des entreprises d'IA et de technologie. Les défendeurs dans ces procès, y compris OpenAI, font valoir que ce type d'extraction de données est une "utilisation équitable". Les procès sont toujours en attente devant les tribunaux.
Mais cette fois-ci, Proof News a fait des recherches approfondies pour identifier les spécificités de l'utilisation des sous-titres de YouTube et est allé jusqu'à créer un outil que vous pouvez utiliser pour rechercher dans la pile des vidéos individuelles ou des chaînes. Ce travail révèle l'ampleur de la collecte de données et attire l'attention sur le peu de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
Quel est votre avis sur le sujet ?
