[
Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.Microsoft AI CEO Mustafa Suleyman: the social contract for content that is on the open web is that it's "freeware" for training AI models pic.twitter.com/FN1xrqnJC0
— Tsarathustra (@tsarnick) June 26, 2024
Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias
Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.
La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.
Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.
La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.
"Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données", a déclaré OpenAI dans un communiqué mardi. "Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022."
C’est la raison pour laquelle les entreprises de la filière intelligence artificielle s’ouvrent de plus en plus à la conclusion d’accords de licence de contenu avec des éditeurs de presse
Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.
Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.
Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.
« Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI », indique OpenAI.
Source : Mustafa Suleyman
Et vous ?
Que pensez-vous du positionnement de Mustafa Suleyman selon lequel dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement ?
Voir aussi :
Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord
Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub
Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA