Les entreprises d'IA seraient tenues de divulguer les données de formation protégées par le droit d'auteur dont elles se sont servies

En vertu d'un nouveau projet de loi

Le 24 décembre 2023 à 08:32, par Stéphane le calme

31PARTAGES

Les entreprises d'IA seraient tenues de divulguer les données de formation protégées par le droit d'auteur dont elles se sont servies,
en vertu d'un nouveau projet de loi

Deux législateurs ont déposé un projet de loi obligeant les créateurs de modèles de fondation à divulguer les sources des données de formation afin que les détenteurs de droits d'auteur sachent que leurs informations ont été prises. L'AI Foundation Model Transparency Act, déposé par les représentants Anna Eshoo (D-CA) et Don Beyer (D-VA), ordonnerait à la Federal Trade Commission (FTC) de travailler avec le National Institute of Standards and Technology (NIST) pour établir des règles de reporting sur la transparence des données de formation.

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT3 et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo,et Florence, qui intègrent image et texte, ont fait leur apparition.

Les plaintes contre les sociétés d'IA en vertu du droit d'auteur se multiplient

Plusieurs plaintes en recours collectif contre OpenAI et Meta

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Gina Maccoby, agent littéraire à New York, a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.

Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

GitHub Copilot est attaqué en justice, l'outil est décrit par une développeur comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent»

GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Puis, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête, ils ont déposé une plainte contre GitHub Copilot.

Les élus américains décident d'agir

Les entreprises qui créent des modèles de base devront signaler les sources de données de formation et la manière dont les données sont conservées pendant le processus d'inférence, décrire les limites ou les risques du modèle, comment le modèle s'aligne sur le framework de gestion des risques d'IA prévu par le NIST ainsi que toute autre norme fédérale qui pourraient être établis et fournir des informations sur la puissance de calcul utilisée pour former et exécuter le modèle. Pour mémoire, le NIST est une agence du département du Commerce des États-Unis. Son but est de promouvoir l'économie en développant des technologies, la métrologie et des normes de concert avec l'industrie.

Le projet de loi stipule également que les développeurs d'IA doivent signaler leurs efforts à « l'équipe rouge » du modèle pour l'empêcher de fournir des « informations inexactes ou nuisibles » sur des questions médicales ou liées à la santé, la synthèse biologique, la cybersécurité, les élections, le maintien de l'ordre, les décisions de prêt financier, l'éducation, les décisions en matière d’emploi, les services publics et les populations vulnérables telles que les enfants.

Le projet de loi souligne l'importance de la formation à la transparence des données autour du droit d'auteur, car plusieurs poursuites ont été intentées contre des sociétés d'IA alléguant une violation du droit d'auteur. Il mentionne spécifiquement le cas des artistes contre Stability AI, Midjourney et Deviant Art (qui a été largement rejeté en octobre), ainsi que la plainte de Getty Images contre Stability AI.

« Avec l’augmentation de l’accès du public à l’intelligence artificielle, il y a eu une augmentation des poursuites judiciaires et des inquiétudes du public concernant la violation du droit d’auteur », indique le projet de loi. «*L’utilisation publique des modèles de fondation a conduit à d’innombrables cas où le public s’est vu présenter des informations inexactes, imprécises ou biaisées.*»

Le projet de loi doit encore être confié à une commission et discuté, et il n’est pas clair si cela aura lieu avant le début de la campagne électorale chargée.

Un complément au décret de l'administration Biden sur l'IA

Le décret s'appuie en partie sur un accord non contraignant conclu en juillet par sept des principales entreprises technologiques américaines qui développent l'IA, comme l'embauche d'experts extérieurs pour rechercher les faiblesses de leurs systèmes et le partage de leurs conclusions critiques. Le décret ordonne les actions suivantes :

De nouvelles normes pour la sûreté et la sécurité de l'IA

Exiger que les développeurs des systèmes d'IA les plus puissants partagent les résultats de leurs tests de sécurité et d'autres informations critiques avec le gouvernement américain. Conformément à la loi sur la production de défense (Defense Production Act), le décret exigera que les entreprises qui développent un modèle de fondation présentant un risque sérieux pour la sécurité nationale, la sécurité économique nationale ou la santé et la sécurité publiques nationales informent le gouvernement fédéral lorsqu'elles forment le modèle, et qu'elles partagent les résultats de tous les tests de sécurité effectués par l'équipe d'intervention. Ces mesures garantiront que les systèmes d'IA sont sûrs, sécurisés et dignes de confiance avant que les entreprises ne les rendent publics.
Élaborer des normes, des outils et des tests pour garantir que les systèmes d'IA sont sûrs, sécurisés et fiables. L'Institut national des normes et de la technologie établira des normes rigoureuses pour les tests approfondis de l'équipe rouge afin de garantir la sécurité avant la diffusion publique. Le ministère de la sécurité intérieure appliquera ces normes aux secteurs d'infrastructures critiques et mettra en place le Conseil de sécurité et de sûreté de l'IA. Les ministères de l'énergie et de la sécurité intérieure se pencheront également sur les menaces que les systèmes d'IA font peser sur les infrastructures essentielles, ainsi que sur les risques chimiques, biologiques, radiologiques, nucléaires et de cybersécurité. Ensemble, ces mesures sont les plus importantes jamais prises par un gouvernement pour faire progresser le domaine de la sécurité de l'IA.
Protéger contre les risques liés à l'utilisation de l'IA pour créer des matériaux biologiques dangereux en élaborant de nouvelles normes strictes pour le contrôle des synthèses biologiques. Les agences qui financent des projets dans le domaine des sciences de la vie établiront ces normes comme condition du financement fédéral, créant ainsi de puissantes incitations à garantir un contrôle approprié et à gérer les risques potentiellement aggravés par l'IA.
Protéger les Américains contre la fraude et la tromperie par l'IA en établissant des normes et des bonnes pratiques pour détecter les contenus générés par l'IA et authentifier les contenus officiels. Le ministère du commerce élaborera des orientations pour l'authentification des contenus et l'utilisation de filigranes afin d'étiqueter clairement les contenus générés par l'IA. Les agences fédérales utiliseront ces outils pour permettre aux Américains de savoir facilement que les communications qu'ils reçoivent de leur gouvernement sont authentiques et pour donner l'exemple au secteur privé et aux gouvernements du monde entier.
Mettre en place un programme de cybersécurité avancée afin de développer des outils d'IA permettant de trouver et de corriger les vulnérabilités des logiciels critiques, en s'appuyant sur le défi cybernétique de l'IA lancé par l'administration Biden-Harris. Ensemble, ces efforts permettront d'exploiter les capacités cybernétiques de l'IA, qui pourraient changer la donne, afin de rendre les logiciels et les réseaux plus sûrs.
Ordonner l'élaboration d'un mémorandum sur la sécurité nationale qui oriente les actions futures en matière d'IA et de sécurité, qui sera élaboré par le Conseil de sécurité nationale et le chef de cabinet de la Maison Blanche. Ce document garantira que l'armée américaine et la communauté du renseignement utilisent l'IA de manière sûre, éthique et efficace dans le cadre de leurs missions, et dirigera les actions visant à contrer l'utilisation militaire de l'IA par les adversaires.

Soutenir les travailleurs

Élaborer des principes et des bonnes pratiques pour atténuer les inconvénients et maximiser les avantages de l'IA pour les travailleurs en abordant le déplacement d'emplois, les normes du travail, l'équité, la santé et la sécurité sur le lieu de travail, et la collecte de données. Ces principes et ces meilleures pratiques profiteront aux travailleurs en fournissant des orientations pour empêcher les employeurs de sous-compenser les travailleurs, d'évaluer les demandes d'emploi de manière inéquitable ou d'entraver la capacité des travailleurs à s'organiser.
Produire un rapport sur les impacts potentiels de l'IA sur le marché du travail, et étudier et identifier des options pour renforcer le soutien fédéral aux travailleurs confrontés à des perturbations du marché du travail, y compris à cause de l'IA.

Le projet de loi d’Eshoo et Beyer complète donc le décret de l’administration Biden sur l’IA, qui aide à établir des normes de reporting pour les modèles d’IA. Le décret, cependant, n’est pas une loi, donc si l’AI Foundation Model Transparency Act est adopté, il fera des exigences de transparence pour les données de formation une règle fédérale.

Source : AI Foundation Model Transparency Act

Et vous ?

Quels sont les avantages et les inconvénients des modèles de base pour la société ?

Quels sont les critères les plus importants pour évaluer la transparence des modèles de base ?

Quelles sont les différences et les similitudes entre le projet de loi américain et le règlement européen sur l’IA ? Lequel vous semble plus efficace ? Pourquoi ?

Comment les utilisateurs peuvent-ils s’assurer de la fiabilité et de la qualité du contenu généré par les modèles de base ?

Quelles sont les responsabilités des développeurs, des fournisseurs et des utilisateurs de modèles de base ?

Vous avez lu gratuitement 100 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :