Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4,

Violant ainsi les droits d'auteur des créateurs de la plateforme

Le 8 avril 2024 à 10:29, par Mathis Lucas

166PARTAGES

Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4
violant ainsi les droits d'auteur des créateurs de la plateforme

Le New York Times apporte de nouveaux éléments à charge dans le cadre de sa lutte contre les pratiques d'OpenAI en matière de collecte de données pour entraîner ses modèles d'IA. L'organe de presse a publié un nouveau rapport dans lequel il affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son grand modèle de langage GPT-4. Google, qui appartient au même groupe que YouTube, Alphabet, était au courant des actions d'OpenAI, mais n'a pas agi, car il utiliserait également des vidéos YouTube pour entraîner ses propres modèles. Ces actions violent les règles de YouTube et potentiellement les droits d'auteur des créateurs.

L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

Des analystes ont récemment alerté sur le fait que les entreprises d'IA pourraient faire face à une potentielle pénurie de données dans un avenir proche. Samedi, le New York Times a publié un rapport détaillant quelques-unes des méthodes utilisées par les entreprises pour résoudre ce problème. Sans surprise, il s'agit de faire des choses qui tombent dans la zone grise de la loi sur les droits d'auteur. Ces différents moyens, non conventionnels et potentiellement condamnables, permettent aux entreprises d'IA d'élargir leur accès aux données, sans avoir à payer une redevance aux créateurs, aux artistes, et bien d'autres encore.

Par exemple, le rapport indique que lorsqu'OpenAI a épuisé toutes les sources de textes en anglais dignes de confiance sur Internet pour développer son dernier système d'IA, GPT-4, il a décidé de se tourner vers les vidéos YouTube. Les chercheurs de l'entreprise ont alors créé un outil de reconnaissance vocale appelé Whisper. Cet outil peut transcrire l'audio des vidéos YouTube, ce qui permet à l'entreprise d'obtenir un nouveau texte conversationnel qui rendrait le système d'IA plus intelligent. OpenAI était conscient du fait que ce projet pourrait aller à l'encontre des règles de YouTube, mais n'a pas hésité à aller jusqu'au bout.

YouTube interdit l'utilisation de ses vidéos pour des applications indépendantes" de la plateforme vidéo. Le rapport allègue qu'OpenAI savait que cette démarche était juridiquement contestable, mais qu'elle estimait qu'il s'agissait d'une utilisation équitable. Le président d'OpenAI, Greg Brockman, se serait personnellement impliqué dans la collecte des vidéos utilisées. Enfin de compte, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour transcrire plus d'un million d'heures de vidéos YouTube, qui ont ensuite été utilisées pour entraîner GPT-4. OpenAI n'a pas obtenu le consentement des créateurs de contenus.

Ce n'est pas la première fois qu'OpenAI fait l'objet de telles allégations. Précédemment, le média The Information avait rapporté qu'OpenAI avait utilisé des vidéos YouTube et des podcasts pour entraîner ses systèmes d'IA. Ce faisant, le laboratoire d'IA de San Francisco viole potentiellement les droits d'auteurs des créateurs de contenu et ne leur propose aucune contrepartie. Lindsay Held, porte-parole d'OpenAI, a déclaré que l'entreprise utilise de nombreuses sources, y compris des données accessibles au public et des partenariats pour des données non publiques, et qu'elle envisage de générer ses propres données synthétiques.

Matt Bryant, porte-parole de Google, a déclaré que l'entreprise interdit "le grattage ou le téléchargement non autorisé du contenu de YouTube". Il a ajouté que l'entreprise n'était pas au courant d'une telle utilisation de la part d'OpenAI. Mais le rapport affirme que certaines personnes chez Google étaient au courant, mais n'ont pas agi contre OpenAI parce que Google utilisait également des vidéos YouTube pour entraîner ses propres modèles d'IA. Google a déclaré qu'il ne le faisait qu'avec des vidéos de créateurs ayant donné leur accord. De son côté, OpenAI n'a jamais précisé les sources des données d'entraînement de GPT-4.

En outre, le rapport allègue que le service juridique de Google a demandé à l'équipe chargée de la protection de la vie privée de l'entreprise de modifier le libellé de sa politique afin d'étendre ce qu'elle pouvait faire avec les données des utilisateurs, comme ses outils de bureautique tels que Google Docs et Google Sheets. La nouvelle politique aurait été intentionnellement publiée le 1er juillet pour profiter de la distraction du week-end de la fête de l'Indépendance des États-Unis. Cependant, Google rejette les allégations selon lesquelles l'entreprise a fait exprès de pousser un changement important lors d'un week-end de fête.

Bryant a déclaré que ce type de données (vidéos) n'est utilisé qu'avec l'autorisation des utilisateurs qui participent aux tests de fonctionnalités expérimentales de Google, et que "l'entreprise n'a pas commencé à s'entraîner sur d'autres types de données à la suite de ce changement de langage". Il convient de rappeler que la mise à jour a ajouté Bard comme exemple d'utilisation de ces données. La semaine dernière, Neal Mohan, directeur de YouTube, a évoqué la possibilité qu'OpenAI ait utilisé YouTube pour entraîner son modèle de génération de vidéos Sora. (Ce dernier peut générer une vidéo à partir d'instructions textuelles.)

Meta se serait également heurté aux limites de la disponibilité des données d'entraînement. D'après le rapport, après avoir parcouru presque tous les livres, essais, poèmes et articles de presse en langue anglaise disponibles sur Internet, Meta aurait envisagé de prendre des mesures telles que le paiement de licences d'exploitation de livres ou même l'achat pur et simple d'un grand éditeur. L'entreprise était aussi apparemment limitée dans la façon dont elle pouvait utiliser les données des consommateurs par les changements axés sur la protection de la vie privée qu'elle a apportés à la suite du scandale Cambridge Analytica.

Google, OpenAI et leurs rivaux sont confrontés à l'évaporation rapide des données de formation pour leurs modèles, qui s'améliorent au fur et à mesure qu'ils absorbent des données. Selon une récente analyse sur le sujet, Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données d'entraînement. Cela signifie qu'une pénurie de données se profile à l'horizon, ce qui pourrait avoir de graves conséquences pour les entreprises d'IA et un ralentissement l'innovation. Bien que cette inquiétude n'est pas partagée par tous, les entreprises recherchent déjà de nouvelles sources de données.

Selon les entreprises d'IA, les solutions possibles à ce problème comprennent l'entraînement des modèles sur des données synthétiques créées par leurs propres modèles. Mais les experts en IA mettent en garde contre cette pratique et affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même.

L'autre option des entreprises consiste à utiliser tout ce qu'elles peuvent trouver, qu'elles en aient l'autorisation ou non, et si l'on en croit les nombreux procès dont elles font l'objet, cette voie semble plus qu'incertaine. Le New York Times exige qu'OpenAI supprime de ses données d'entraînement tous les articles de presse et les autres contenus de l'organe de presse.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des allégations portées contre OpenAI par le New York Times ?

Que risque OpenAI s'il s'avère qu'il a utilisé sans autorisation des vidéos YouTube pour entraîner ses modèles ?

Comment les entreprises d'IA peuvent-elles faire face à leurs besoins sans cesse croissants en données d'entraînement ?

Voir aussi

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI et demande de rejeter des éléments clés du procès intenté pour violation du copyright

Vous avez lu gratuitement 248 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :