IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Apple et d'autres ont formé leurs modèles d'IA sur un ensemble de données compilé à partir des transcriptions de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube,
Sans le consentement des créateurs

Le , par Mathis Lucas

238PARTAGES

7  0 
Salesforce, Apple, Anthropic et d'autres géants de la Tech ont formé leurs modèles d'IA sur des vidéos YouTube sans le consentement des créateurs. Ils se sont appuyés sur l'ensemble de données The Pile, compilé à partir de plus de 170 000 vidéos, dont des vidéos de vidéastes populaires tels que Marquees Brownlee (MKBHD), MrBeast, Stephen Colbert et Jimmy Kimmel. Les experts affirment que ce comportement viole les droits des créateurs et les conditions d'utilisation de YouTube, mais les entreprises d'IA semblent prêtes à tout pour glaner des données indispensables à la formation de leurs modèles d'IA, à un moment où les sources de données se tarissent.

Wired et la société d'analyse Proof News ont récemment publié les résultats d'une enquête qui démontre l'ampleur de l'exploitation des vidéos YouTube par les entreprises d'IA. L'enquête révèle qu'un ensemble de données appelé The Pile, compilé par le groupe de recherche en IA EleutherAI, comprend des transcriptions de plus de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube. Tout cela a été fait à l'insu des créateurs de contenu. Cet ensemble de données a ensuite été exploité par les entreprises technologiques telles qu'Apple, Salesforce, Nvidia et Anthropic pour former leurs grands modèles de langage (LLM).


L'enquête met en lumière un aspect troublant de la technologie de l'IA : une grande partie de son développement repose sur des données collectées à partir du travail des créateurs de contenu sans leur consentement ni leur rémunération. La base de données se compose uniquement de transcriptions de vidéos, et non de vidéos ou d'images réelles, provenant de créateurs célèbres tels que Marques Brownlee et MrBeast, ainsi que d'organes d'information majeurs tels que le New York Times, la BBC et ABC News. Par exemple, Apple a utilisé The Pile pour ses modèles open source OpenELM qui sous-tendent Apple Intelligence.

Anthropic et Salesforce ont déjà confirmé avoir utilisé The Pile pour leurs systèmes d'IA. EleutherAI a déclaré avoir compilé The Pile pour offrir une base de données utiles aux personnes ou aux entreprises qui n'ont pas les ressources nécessaires pour rivaliser avec les Big Tech. Toutefois, The Pile a également été utilisé depuis par ces grandes entreprises. Les données d'EleutherAI ont déjà suscité la controverse par le passé. Et les nouvelles révélations de cette enquête ont contribué à déclencher une nouvelle vague de critiques acerbes. Sur X, Marquees Brownlee a dénoncé l'utilisation de cet ensemble de données par Apple.

Marques Brownlee a exprimé son inquiétude sur les médias sociaux, notant que ses données, parmi d'autres, avaient été extraites de vidéos YouTube sans autorisation appropriée. Il a toutefois reconnu qu'il est difficile d'attribuer les responsabilités lorsque Apple n'a pas collecté les données lui-même. Il a écrit :

Citation Envoyé par Marquees Brownlee


Apple s'est procuré des données pour son IA auprès de plusieurs entreprises. L'une d'entre elles a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris les miennes. Apple évite techniquement la "faute" dans ce cas, car ce n'est pas lui qui récupère les données. Mais il s'agit d'un problème qui va évoluer pendant longtemps.

Sundar Pichai, PDG d'Alphabet, la société mère de Google et de YouTube, a déclaré que l'extraction de données sur YouTube pour former des modèles d'IA violait les conditions d'utilisation de la plateforme. En avril dernier, le directeur de YouTube, Neal Mohan, a souligné que ce type d'utilisation des données était expressément interdit par les conditions d'utilisation de YouTube. Il reste à voir si cela modifie le principe de "fair use" sur lequel s'appuient habituellement les entreprises d'IA collectant des données, y compris Google dans ses propres litiges. Il sera aussi intéressant de voir la réaction aura Google dans cette affaire.

Ce n'est pas la première fois que les entreprises d'IA sont accusées d'avoir transcrit des vidéos YouTube pour former leurs modèles. The Pile est très souvent utilisé et référencé dans les cercles de l'IA et a été utilisé par des entreprises technologiques pour la formation dans le passé. Il a été cité dans de nombreuses actions en justice intentées par des détenteurs de droits de propriété intellectuelle contre des entreprises d'IA et de technologie. Les défendeurs dans ces procès, y compris OpenAI, font valoir que ce type d'extraction de données est une "utilisation équitable". Les procès sont toujours en attente devant les tribunaux.

Mais cette fois-ci, Proof News a fait des recherches approfondies pour identifier les spécificités de l'utilisation des sous-titres de YouTube et est allé jusqu'à créer un outil que vous pouvez utiliser pour rechercher dans la pile des vidéos individuelles ou des chaînes. Ce travail révèle l'ampleur de la collecte de données et attire l'attention sur le peu de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Daïmanu
Membre émérite https://www.developpez.com
Le 17/07/2024 à 17:20
Quel est votre avis sur le sujet ?
Ce qui m'inquiète, c'est que ces retranscriptions proviennent déjà d'une IA avec ses limitations et ses fautes.

Comme le dit si bien Comment Ça Marche :
Certes, comme elle générée par des algorithmes de reconnaissance vocale et de l'intelligence artificielle, la transcription textuelle est "brute de fonderie", sans ponctuation, et souvent truffée de fautes. Mais elle dégrossit bien le travail, et le mieux est encore de l'essayer pour en percevoir toutes les possibilités.
Donc la qualité des sources est au moins discutable, pour l'anglais, et plus encore pour d'autres langues.

Sans compter qu'on apprend dans la première source que, dans les chaînes concernées se trouve celle d'un perroquet
0  0 
Avatar de dragonofmercy
Membre habitué https://www.developpez.com
Le 18/07/2024 à 8:42
Les vidéos publiées sur Youtube sont publiques, je vois pas en quoi c'est une problème de les utiliser pour former les IA !
0  0 
Avatar de Beginner.
Membre expert https://www.developpez.com
Le 27/08/2024 à 22:03
Salut,

Il me semble que lorsqu'on soumet un contenu à certains services Google (Youtube ou autres) eh bien on accorde une licence d'exploitation très large à Google...

Du coup la question qui me vient c'est est-ce que Google lui-même n'utiliserait pas tout ce contenu pour former ses propres services à base d'IA ?

Citation Envoyé par Daïmanu Voir le message
Quel est votre avis sur le sujet ?
Ce qui m'inquiète, c'est que ces retranscriptions proviennent déjà d'une IA avec ses limitations et ses fautes.
Il y a retranscription (speech-to-text) et on peut aussi traduire ces retranscriptions...

Qui fait cela ? Est-ce les services de Google (speech-to-text et Google Traduction) ?
0  0