IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI justifie pourquoi les données collectées pour la formation des modèles d'IA constituent selon elle un usage loyal
Et non une infraction

Le , par Bruno

5PARTAGES

5  0 
OpenAI a soumis une réponse à l’Office américain des brevets et des marques (USPTO) en réponse à leur demande de commentaires sur la protection de la propriété intellectuelle pour l’innovation en intelligence artificielle. La soumission explique pourquoi les données collectées pour l’entraînement de ses outils d’IA constituent un usage loyal et non une infraction.

Dans sa production, OpenAI répond principalement à la question suivante : « Comment le langage statutaire existant et la jurisprudence connexe traitent-ils de manière adéquate la légalité de l’utilisation d’un algorithme ou d’un processus d’IA qui apprend sa ou ses fonctions en ingérant de grands volumes de données protégées par le droit d’auteur ? ».

En vertu de la loi actuelle, l'entraînement des systèmes d'IA constitue un usage loyal. II. Les considérations politiques qui sous-tendent la doctrine de l'usage loyal soutiennent la conclusion selon laquelle l'entraînement des systèmes d'IA constitue un usage loyal. L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

OpenAI, LP est une société de recherche en intelligence artificielle (IA) basée à San Francisco dont la mission est de veiller à ce que l'intelligence artificielle générale ("AGI") profite à l'ensemble de l'humanité, et qui tente de construire une AGI sûre et bénéfique.

Nous ne prétendons pas que les systèmes d'IA sont invariablement bénéfiques ou qu'ils ne portent pas atteinte au droit d'auteur. Nous abordons plutôt la question étroite de savoir si l'entraînement des systèmes d'IA sur des données protégées par le droit d'auteur constitue une violation du droit d'auteur. En conséquence, nous pensons que les systèmes d'IA suscitent des inquiétudes valables, mais qu'il est préférable d'utiliser d'autres outils juridiques et politiques pour y répondre.
Le travail d'OpenAI s'articule principalement autour de trois domaines : la recherche et le développement de capacités techniques, la recherche et le développement de la sécurité de l'IA et le travail politique. Dans sa réponse, Open s’appuie sur son expérience de l'utilisation de vastes ensembles de données accessibles au public, y compris des œuvres protégées par le droit d'auteur.

Des milliers d’auteurs demandent aux entreprises d’IA de respecter leurs droits d’auteur et de les payer pour l’utilisation de leurs œuvres dans l’entraînement des modèles de langage. Ils dénoncent l’injustice et le piratage dont ils sont victimes, alors que leurs revenus sont en baisse. Les entreprises d’IA se défendent en affirmant qu’elles utilisent des contenus sous licence ou publics. La collecte de textes sur le web est une source de conflit entre les créateurs, les plateformes et les acteurs de l’IA.

Plus de 8 000 auteurs, dont des sommités telles que James Patterson, Margaret Atwood et Jonathan Franzen, ont signé une lettre ouverte demandant aux dirigeants des six principales entreprises spécialisées dans l'IA de ne pas utiliser leurs œuvres pour des modèles d'entraînement sans avoir obtenu au préalable leur consentement et offert une compensation.

La lettre, publiée par l'organisation d'écrivains professionnels The Authors Guild, est adressée aux patrons d'OpenAI, d'Alphabet, de Meta, de Stability AI, d'IBM et de Microsoft. Elle interpelle les PDG sur « l'injustice inhérente » à l'utilisation des œuvres des auteurs pour entraîner leurs grands modèles de langage sans consentement, crédit ou compensation. « Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d'articles, d'essais et de poèmes protégés par le droit d'auteur constituent la "nourriture" des systèmes d'IA, des repas sans fin pour lesquels il n'y a pas de facture », peut-on lire dans la lettre.

« Vous dépensez des milliards de dollars pour développer la technologie de l'IA. Il n'est que juste que vous nous indemnisiez pour l'utilisation de nos écrits, sans lesquels l'IA serait banale et extrêmement limitée. »

En octobre de l’année dernière, le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot, un assistant de programmation basé sur l'IA, « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

Pas du tout, selon Alex Graveley, ingénieur principal chez GitHub et inventeur de Copilot, qui a répondu que « le code en question est différent de l'exemple donné. Semblable, mais différent ». Cela dit, a-t-il ajouté, « c'est vraiment un problème difficile. Les solutions évolutives sont les bienvenues. »

Pour OpenAI, les plaintes pour violation du droit d'auteur sont irrecevables

OpenAI a demandé en aout à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu. Plusieurs auteurs poursuivent également la OpenAI pour avoir utilisé des copies pirates de leurs livres afin d'entraîner ses modèles de langage, dont le plus célèbre est ChatGPT. Les auteurs affirment que cette utilisation non autorisée est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI conteste ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

OpenAI, qui bénéficie du soutien de Microsoft, s'est attaqué à ce qu'il a appelé des « revendications accessoires » dans les poursuites, déclarant au tribunal fédéral de Californie que le texte généré par ChatGPT ne violait pas les droits des auteurs sur les livres. En effet, le laboratoire d'IA de San Francisco fait face à un nombre très important de plaintes intentées par des milliers d'auteurs pour violation du droit d'auteur et pour d'autres formes de violations. Les personnalités les plus connues parmi les plaignants sont la comédienne Sarah Silverman, l'écrivain et éditeur Paul Tremblay, la romancière Mona Awad et l'écrivain de science-fiction Richard Kadrey.

« Les autres plaintes des auteurs - qui portent sur la violation du droit d'auteur par personne interposée, la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI. Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

En vertu de la loi actuelle, l'entraînement des systèmes d'intelligence artificielle constitue un usage loyal

OpenAI affirme que l’utilisation loyale des données collectées pour l’entraînement de ses outils d’IA exige une application correcte des facteurs d’usage loyal, en particulier compte tenu de la nature hautement transformatrice des systèmes d’apprentissage de l’IA. Selon l’entreprise, cette conclusion est renforcée par la jurisprudence existante qui considère que la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données constitue une utilisation loyale de ces œuvres.

Les systèmes d'IA peuvent s'entraîner sur de nombreux supports différents. L'application de ce critère variera donc au cas par cas. Selon OpenAI, il ne devrait pas jouer « un rôle important » dans la détermination de l'usage loyal. « La quantité et le caractère substantiel de la partie utilisée par rapport à l'ensemble de l'œuvre protégée par le droit d'auteur ». Ce facteur demande si « la quantité et la valeur des matériaux utilisés » sont raisonnables par rapport au but de la copie.

Les considérations politiques soutiennent la détermination de l'usage loyal

Selon OpenAI, les systèmes d'IA présentent d'énormes avantages potentiels pour la société. Il s’attend à ce que des modèles de langage contribuent à terme à l'exécution d'un grand nombre de tâches utiles telles que :

  • l'analyse de la littérature publiée ;
  • la production de rapports médicaux
  • l'autocomplétion de codes logiciels ;
  • l'assistance générale à la rédaction et l'autocomplétion ;
  • la traduction de langues ;
  • la génération d'œuvres d'art ;
  • l'amélioration des jeux vidéo ;
  • les assistants numériques ;
  • réponses à des questions médicales.

La doctrine de l'usage loyal « 'permet aux tribunaux d'éviter une application rigide de la loi sur le droit d'auteur lorsque, à l'occasion, elle étoufferait la créativité même que cette loi est censée encourager' ». Les systèmes d'IA sont extrêmement prometteurs pour l'expression créative et l'innovation économique générale.

Les obstacles au droit d'auteur pour la formation des systèmes d'IA auraient des « ramifications désastreuses » et « pourraient mettre en péril la valeur sociale de la technologie, ou pousser l'innovation vers une juridiction étrangère où les contraintes en matière de droit d'auteur sont moins strictes ». Nous soutenons donc que de telles barrières « étoufferaient la créativité même que la loi [sur le droit d'auteur] est conçue pour encourager » et retarderaient « le progrès de la science et des arts utiles ».

L'incertitude quant aux implications en matière de droit d'auteur impose des coûts aux développeurs d'IA

Pour les raisons susmentionnées, OpenAI estime que que les tribunaux jugeraient et devraient juger que l'entraînement des systèmes d'IA sur des œuvres protégées par le droit d'auteur constitue un usage loyal. Toutefois, étant donné l'absence de jurisprudence en la matière, OpenAI se dit confronté avec d'autres développeurs d'IA à une incertitude juridique et à des coûts de mise en conformité considérables.

« Résoudre cette question en considérant l'entraînement des systèmes d'IA comme un usage loyal éliminerait l'incertitude dans ce domaine et supprimerait des obstacles substantiels au développement de systèmes d'IA innovants », déclare OpenAI.

Source : OpenAI

Et vous ?

Les systèmes d’apprentissage automatique d’OpenAI sont-ils vraiment « hautement transformatifs » ? Qu’est-ce qui selon vous pourrait justifier cette affirmation ?

à votre avis, les données collectées pour la formation des outils d’IA d’OpenAI sont-elles vraiment utilisées de manière loyale ?

La jurisprudence existante sur la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données est-elle vraiment applicable aux systèmes d’apprentissage automatique ?

Quels sont les risques pour les artistes et les créateurs de contenu si les systèmes d’apprentissage automatique sont autorisés à utiliser des données protégées par le droit d’auteur sans autorisation ?

Voir aussi :

GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

GitHub, Microsoft, OpenAI ne parviennent pas à se sortir du procès Copilot, le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 07/10/2023 à 20:08
Citation Envoyé par archqt Voir le message
Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"
Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.
9  1 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 08/10/2023 à 18:28
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :
L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.
Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
4  1 
Avatar de JRM73
Membre à l'essai https://www.developpez.com
Le 10/10/2023 à 14:35
@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

2  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 10/10/2023 à 22:27
Citation Envoyé par _toma_ Voir le message
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.
2  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 02/01/2024 à 7:54
Citation Envoyé par Stéphane le calme Voir le message
Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?
Non, si la demande réclame une chose qui n'est flaggée que sur une œuvre, elle risque fort de ressortir telle quelle ou presque.
Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?
Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?
Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?
Je suis loin d'être un spécialiste du droit d'auteur donc il est compliqué de se prononcer mais j'ai retenu une chose de mes cours de droits : (en France) concernant les marques et logos, la "copie" n'est pas évaluée sur les différences mais sur la ressemblance.
Zack parle du processus de copie, ce qui me semble hors de propos, si tu retranscrits un texte numérisé en le même texte numérisé ça me semble être simplement du viol de propriété intellectuelle.
Je verrais plus une question sur l'exploitation commerciale, j'ai le droit d'imprimer mon propre Tshirt avec la couverture de Nevermind de Nirvana mais je n'ai pas le droit de le vendre.
1  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
1  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2