OpenAI justifie pourquoi les données collectées pour la formation des modèles d'IA constituent selon elle un usage loyal

Et non une infraction

Le 6 octobre 2023 à 19:55, par Bruno

291PARTAGES

OpenAI justifie pourquoi les données collectées pour la formation des modèles d’IA constituent selon elle un usage loyal
et non une infraction

OpenAI a soumis une réponse à l’Office américain des brevets et des marques (USPTO) en réponse à leur demande de commentaires sur la protection de la propriété intellectuelle pour l’innovation en intelligence artificielle. La soumission explique pourquoi les données collectées pour l’entraînement de ses outils d’IA constituent un usage loyal et non une infraction.

Dans sa production, OpenAI répond principalement à la question suivante : « Comment le langage statutaire existant et la jurisprudence connexe traitent-ils de manière adéquate la légalité de l’utilisation d’un algorithme ou d’un processus d’IA qui apprend sa ou ses fonctions en ingérant de grands volumes de données protégées par le droit d’auteur ? ».

En vertu de la loi actuelle, l'entraînement des systèmes d'IA constitue un usage loyal. II. Les considérations politiques qui sous-tendent la doctrine de l'usage loyal soutiennent la conclusion selon laquelle l'entraînement des systèmes d'IA constitue un usage loyal. L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

OpenAI, LP est une société de recherche en intelligence artificielle (IA) basée à San Francisco dont la mission est de veiller à ce que l'intelligence artificielle générale ("AGI") profite à l'ensemble de l'humanité, et qui tente de construire une AGI sûre et bénéfique.

Nous ne prétendons pas que les systèmes d'IA sont invariablement bénéfiques ou qu'ils ne portent pas atteinte au droit d'auteur. Nous abordons plutôt la question étroite de savoir si l'entraînement des systèmes d'IA sur des données protégées par le droit d'auteur constitue une violation du droit d'auteur. En conséquence, nous pensons que les systèmes d'IA suscitent des inquiétudes valables, mais qu'il est préférable d'utiliser d'autres outils juridiques et politiques pour y répondre.

Le travail d'OpenAI s'articule principalement autour de trois domaines : la recherche et le développement de capacités techniques, la recherche et le développement de la sécurité de l'IA et le travail politique. Dans sa réponse, Open s’appuie sur son expérience de l'utilisation de vastes ensembles de données accessibles au public, y compris des œuvres protégées par le droit d'auteur.

Des milliers d’auteurs demandent aux entreprises d’IA de respecter leurs droits d’auteur et de les payer pour l’utilisation de leurs œuvres dans l’entraînement des modèles de langage. Ils dénoncent l’injustice et le piratage dont ils sont victimes, alors que leurs revenus sont en baisse. Les entreprises d’IA se défendent en affirmant qu’elles utilisent des contenus sous licence ou publics. La collecte de textes sur le web est une source de conflit entre les créateurs, les plateformes et les acteurs de l’IA.

Plus de 8 000 auteurs, dont des sommités telles que James Patterson, Margaret Atwood et Jonathan Franzen, ont signé une lettre ouverte demandant aux dirigeants des six principales entreprises spécialisées dans l'IA de ne pas utiliser leurs œuvres pour des modèles d'entraînement sans avoir obtenu au préalable leur consentement et offert une compensation.

La lettre, publiée par l'organisation d'écrivains professionnels The Authors Guild, est adressée aux patrons d'OpenAI, d'Alphabet, de Meta, de Stability AI, d'IBM et de Microsoft. Elle interpelle les PDG sur « l'injustice inhérente » à l'utilisation des œuvres des auteurs pour entraîner leurs grands modèles de langage sans consentement, crédit ou compensation. « Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d'articles, d'essais et de poèmes protégés par le droit d'auteur constituent la "nourriture" des systèmes d'IA, des repas sans fin pour lesquels il n'y a pas de facture », peut-on lire dans la lettre.

« Vous dépensez des milliards de dollars pour développer la technologie de l'IA. Il n'est que juste que vous nous indemnisiez pour l'utilisation de nos écrits, sans lesquels l'IA serait banale et extrêmement limitée. »

En octobre de l’année dernière, le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot, un assistant de programmation basé sur l'IA, « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

Pas du tout, selon Alex Graveley, ingénieur principal chez GitHub et inventeur de Copilot, qui a répondu que « le code en question est différent de l'exemple donné. Semblable, mais différent ». Cela dit, a-t-il ajouté, « c'est vraiment un problème difficile. Les solutions évolutives sont les bienvenues. »

Pour OpenAI, les plaintes pour violation du droit d'auteur sont irrecevables

OpenAI a demandé en aout à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu. Plusieurs auteurs poursuivent également la OpenAI pour avoir utilisé des copies pirates de leurs livres afin d'entraîner ses modèles de langage, dont le plus célèbre est ChatGPT. Les auteurs affirment que cette utilisation non autorisée est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI conteste ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

OpenAI, qui bénéficie du soutien de Microsoft, s'est attaqué à ce qu'il a appelé des « revendications accessoires » dans les poursuites, déclarant au tribunal fédéral de Californie que le texte généré par ChatGPT ne violait pas les droits des auteurs sur les livres. En effet, le laboratoire d'IA de San Francisco fait face à un nombre très important de plaintes intentées par des milliers d'auteurs pour violation du droit d'auteur et pour d'autres formes de violations. Les personnalités les plus connues parmi les plaignants sont la comédienne Sarah Silverman, l'écrivain et éditeur Paul Tremblay, la romancière Mona Awad et l'écrivain de science-fiction Richard Kadrey.

« Les autres plaintes des auteurs - qui portent sur la violation du droit d'auteur par personne interposée, la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI. Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

En vertu de la loi actuelle, l'entraînement des systèmes d'intelligence artificielle constitue un usage loyal

OpenAI affirme que l’utilisation loyale des données collectées pour l’entraînement de ses outils d’IA exige une application correcte des facteurs d’usage loyal, en particulier compte tenu de la nature hautement transformatrice des systèmes d’apprentissage de l’IA. Selon l’entreprise, cette conclusion est renforcée par la jurisprudence existante qui considère que la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données constitue une utilisation loyale de ces œuvres.

Les systèmes d'IA peuvent s'entraîner sur de nombreux supports différents. L'application de ce critère variera donc au cas par cas. Selon OpenAI, il ne devrait pas jouer « un rôle important » dans la détermination de l'usage loyal. « La quantité et le caractère substantiel de la partie utilisée par rapport à l'ensemble de l'œuvre protégée par le droit d'auteur ». Ce facteur demande si « la quantité et la valeur des matériaux utilisés » sont raisonnables par rapport au but de la copie.

Les considérations politiques soutiennent la détermination de l'usage loyal

Selon OpenAI, les systèmes d'IA présentent d'énormes avantages potentiels pour la société. Il s’attend à ce que des modèles de langage contribuent à terme à l'exécution d'un grand nombre de tâches utiles telles que :

l'analyse de la littérature publiée ;
la production de rapports médicaux
l'autocomplétion de codes logiciels ;
l'assistance générale à la rédaction et l'autocomplétion ;
la traduction de langues ;
la génération d'œuvres d'art ;
l'amélioration des jeux vidéo ;
les assistants numériques ;
réponses à des questions médicales.

La doctrine de l'usage loyal « 'permet aux tribunaux d'éviter une application rigide de la loi sur le droit d'auteur lorsque, à l'occasion, elle étoufferait la créativité même que cette loi est censée encourager' ». Les systèmes d'IA sont extrêmement prometteurs pour l'expression créative et l'innovation économique générale.

Les obstacles au droit d'auteur pour la formation des systèmes d'IA auraient des « ramifications désastreuses » et « pourraient mettre en péril la valeur sociale de la technologie, ou pousser l'innovation vers une juridiction étrangère où les contraintes en matière de droit d'auteur sont moins strictes ». Nous soutenons donc que de telles barrières « étoufferaient la créativité même que la loi [sur le droit d'auteur] est conçue pour encourager » et retarderaient « le progrès de la science et des arts utiles ».

L'incertitude quant aux implications en matière de droit d'auteur impose des coûts aux développeurs d'IA

Pour les raisons susmentionnées, OpenAI estime que que les tribunaux jugeraient et devraient juger que l'entraînement des systèmes d'IA sur des œuvres protégées par le droit d'auteur constitue un usage loyal. Toutefois, étant donné l'absence de jurisprudence en la matière, OpenAI se dit confronté avec d'autres développeurs d'IA à une incertitude juridique et à des coûts de mise en conformité considérables.

« Résoudre cette question en considérant l'entraînement des systèmes d'IA comme un usage loyal éliminerait l'incertitude dans ce domaine et supprimerait des obstacles substantiels au développement de systèmes d'IA innovants », déclare OpenAI.

Source : OpenAI

Et vous ?

Les systèmes d’apprentissage automatique d’OpenAI sont-ils vraiment « hautement transformatifs » ? Qu’est-ce qui selon vous pourrait justifier cette affirmation ?

à votre avis, les données collectées pour la formation des outils d’IA d’OpenAI sont-elles vraiment utilisées de manière loyale ?

La jurisprudence existante sur la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données est-elle vraiment applicable aux systèmes d’apprentissage automatique ?

Quels sont les risques pour les artistes et les créateurs de contenu si les systèmes d’apprentissage automatique sont autorisés à utiliser des données protégées par le droit d’auteur sans autorisation ?

Voir aussi :

GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

GitHub, Microsoft, OpenAI ne parviennent pas à se sortir du procès Copilot, le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

Vous avez lu gratuitement 28 806 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :