IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les entreprises d'IA seraient tenues de divulguer les données de formation protégées par le droit d'auteur dont elles se sont servies
En vertu d'un nouveau projet de loi

Le , par Stéphane le calme

0PARTAGES

12  0 
Deux législateurs ont déposé un projet de loi obligeant les créateurs de modèles de fondation à divulguer les sources des données de formation afin que les détenteurs de droits d'auteur sachent que leurs informations ont été prises. L'AI Foundation Model Transparency Act, déposé par les représentants Anna Eshoo (D-CA) et Don Beyer (D-VA), ordonnerait à la Federal Trade Commission (FTC) de travailler avec le National Institute of Standards and Technology (NIST) pour établir des règles de reporting sur la transparence des données de formation.

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT3 et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo,et Florence, qui intègrent image et texte, ont fait leur apparition.

Les plaintes contre les sociétés d'IA en vertu du droit d'auteur se multiplient

Plusieurs plaintes en recours collectif contre OpenAI et Meta

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Gina Maccoby, agent littéraire à New York, a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.


Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.


GitHub Copilot est attaqué en justice, l'outil est décrit par une développeur comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent»

GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Puis, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête, ils ont déposé une plainte contre GitHub Copilot.

Les élus américains décident d'agir

Les entreprises qui créent des modèles de base devront signaler les sources de données de formation et la manière dont les données sont conservées pendant le processus d'inférence, décrire les limites ou les risques du modèle, comment le modèle s'aligne sur le framework de gestion des risques d'IA prévu par le NIST ainsi que toute autre norme fédérale qui pourraient être établis et fournir des informations sur la puissance de calcul utilisée pour former et exécuter le modèle. Pour mémoire, le NIST est une agence du département du Commerce des États-Unis. Son but est de promouvoir l'économie en développant des technologies, la métrologie et des normes de concert avec l'industrie.

Le projet de loi stipule également que les développeurs d'IA doivent signaler leurs efforts à « l'équipe rouge » du modèle pour l'empêcher de fournir des « informations inexactes ou nuisibles » sur des questions médicales ou liées à la santé, la synthèse biologique, la cybersécurité, les élections, le maintien de l'ordre, les décisions de prêt financier, l'éducation, les décisions en matière d’emploi, les services publics et les populations vulnérables telles que les enfants.

Le projet de loi souligne l'importance de la formation à la transparence des données autour du droit d'auteur, car plusieurs poursuites ont été intentées contre des sociétés d'IA alléguant une violation du droit d'auteur. Il mentionne spécifiquement le cas des artistes contre Stability AI, Midjourney et Deviant Art (qui a été largement rejeté en octobre), ainsi que la plainte de Getty Images contre Stability AI.

« Avec l’augmentation de l’accès du public à l’intelligence artificielle, il y a eu une augmentation des poursuites judiciaires et des inquiétudes du public concernant la violation du droit d’auteur », indique le projet de loi. «*L’utilisation publique des modèles de fondation a conduit à d’innombrables cas où le public s’est vu présenter des informations inexactes, imprécises ou biaisées.*»

Le projet de loi doit encore être confié à une commission et discuté, et il n’est pas clair si cela aura lieu avant le début de la campagne électorale chargée.

Un complément au décret de l'administration Biden sur l'IA

Le décret s'appuie en partie sur un accord non contraignant conclu en juillet par sept des principales entreprises technologiques américaines qui développent l'IA, comme l'embauche d'experts extérieurs pour rechercher les faiblesses de leurs systèmes et le partage de leurs conclusions critiques. Le décret ordonne les actions suivantes :

De nouvelles normes pour la sûreté et la sécurité de l'IA

  • Exiger que les développeurs des systèmes d'IA les plus puissants partagent les résultats de leurs tests de sécurité et d'autres informations critiques avec le gouvernement américain. Conformément à la loi sur la production de défense (Defense Production Act), le décret exigera que les entreprises qui développent un modèle de fondation présentant un risque sérieux pour la sécurité nationale, la sécurité économique nationale ou la santé et la sécurité publiques nationales informent le gouvernement fédéral lorsqu'elles forment le modèle, et qu'elles partagent les résultats de tous les tests de sécurité effectués par l'équipe d'intervention. Ces mesures garantiront que les systèmes d'IA sont sûrs, sécurisés et dignes de confiance avant que les entreprises ne les rendent publics.
  • Élaborer des normes, des outils et des tests pour garantir que les systèmes d'IA sont sûrs, sécurisés et fiables. L'Institut national des normes et de la technologie établira des normes rigoureuses pour les tests approfondis de l'équipe rouge afin de garantir la sécurité avant la diffusion publique. Le ministère de la sécurité intérieure appliquera ces normes aux secteurs d'infrastructures critiques et mettra en place le Conseil de sécurité et de sûreté de l'IA. Les ministères de l'énergie et de la sécurité intérieure se pencheront également sur les menaces que les systèmes d'IA font peser sur les infrastructures essentielles, ainsi que sur les risques chimiques, biologiques, radiologiques, nucléaires et de cybersécurité. Ensemble, ces mesures sont les plus importantes jamais prises par un gouvernement pour faire progresser le domaine de la sécurité de l'IA.
  • Protéger contre les risques liés à l'utilisation de l'IA pour créer des matériaux biologiques dangereux en élaborant de nouvelles normes strictes pour le contrôle des synthèses biologiques. Les agences qui financent des projets dans le domaine des sciences de la vie établiront ces normes comme condition du financement fédéral, créant ainsi de puissantes incitations à garantir un contrôle approprié et à gérer les risques potentiellement aggravés par l'IA.
  • Protéger les Américains contre la fraude et la tromperie par l'IA en établissant des normes et des bonnes pratiques pour détecter les contenus générés par l'IA et authentifier les contenus officiels. Le ministère du commerce élaborera des orientations pour l'authentification des contenus et l'utilisation de filigranes afin d'étiqueter clairement les contenus générés par l'IA. Les agences fédérales utiliseront ces outils pour permettre aux Américains de savoir facilement que les communications qu'ils reçoivent de leur gouvernement sont authentiques et pour donner l'exemple au secteur privé et aux gouvernements du monde entier.
  • Mettre en place un programme de cybersécurité avancée afin de développer des outils d'IA permettant de trouver et de corriger les vulnérabilités des logiciels critiques, en s'appuyant sur le défi cybernétique de l'IA lancé par l'administration Biden-Harris. Ensemble, ces efforts permettront d'exploiter les capacités cybernétiques de l'IA, qui pourraient changer la donne, afin de rendre les logiciels et les réseaux plus sûrs.
  • Ordonner l'élaboration d'un mémorandum sur la sécurité nationale qui oriente les actions futures en matière d'IA et de sécurité, qui sera élaboré par le Conseil de sécurité nationale et le chef de cabinet de la Maison Blanche. Ce document garantira que l'armée américaine et la communauté du renseignement utilisent l'IA de manière sûre, éthique et efficace dans le cadre de leurs missions, et dirigera les actions visant à contrer l'utilisation militaire de l'IA par les adversaires.

Soutenir les travailleurs
  • Élaborer des principes et des bonnes pratiques pour atténuer les inconvénients et maximiser les avantages de l'IA pour les travailleurs en abordant le déplacement d'emplois, les normes du travail, l'équité, la santé et la sécurité sur le lieu de travail, et la collecte de données. Ces principes et ces meilleures pratiques profiteront aux travailleurs en fournissant des orientations pour empêcher les employeurs de sous-compenser les travailleurs, d'évaluer les demandes d'emploi de manière inéquitable ou d'entraver la capacité des travailleurs à s'organiser.
  • Produire un rapport sur les impacts potentiels de l'IA sur le marché du travail, et étudier et identifier des options pour renforcer le soutien fédéral aux travailleurs confrontés à des perturbations du marché du travail, y compris à cause de l'IA.

Le projet de loi d’Eshoo et Beyer complète donc le décret de l’administration Biden sur l’IA, qui aide à établir des normes de reporting pour les modèles d’IA. Le décret, cependant, n’est pas une loi, donc si l’AI Foundation Model Transparency Act est adopté, il fera des exigences de transparence pour les données de formation une règle fédérale.

Source : AI Foundation Model Transparency Act

Et vous ?

Quels sont les avantages et les inconvénients des modèles de base pour la société ?
Quels sont les critères les plus importants pour évaluer la transparence des modèles de base ?
Quelles sont les différences et les similitudes entre le projet de loi américain et le règlement européen sur l’IA ? Lequel vous semble plus efficace ? Pourquoi ?
Comment les utilisateurs peuvent-ils s’assurer de la fiabilité et de la qualité du contenu généré par les modèles de base ?
Quelles sont les responsabilités des développeurs, des fournisseurs et des utilisateurs de modèles de base ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre émérite https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

8  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
3  0 
Avatar de totozor
Membre expert https://www.developpez.com
Le 02/01/2024 à 7:54
Citation Envoyé par Stéphane le calme Voir le message
Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?
Non, si la demande réclame une chose qui n'est flaggée que sur une œuvre, elle risque fort de ressortir telle quelle ou presque.
Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?
Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?
Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?
Je suis loin d'être un spécialiste du droit d'auteur donc il est compliqué de se prononcer mais j'ai retenu une chose de mes cours de droits : (en France) concernant les marques et logos, la "copie" n'est pas évaluée sur les différences mais sur la ressemblance.
Zack parle du processus de copie, ce qui me semble hors de propos, si tu retranscrits un texte numérisé en le même texte numérisé ça me semble être simplement du viol de propriété intellectuelle.
Je verrais plus une question sur l'exploitation commerciale, j'ai le droit d'imprimer mon propre Tshirt avec la couverture de Nevermind de Nirvana mais je n'ai pas le droit de le vendre.
1  0 
Avatar de Jules34
Membre expérimenté https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de ManPaq
Membre averti https://www.developpez.com
Le 23/01/2024 à 5:25
C'est le même problème qui a conduit Google à payer une amende de 500M$ en 21:
La directive européenne de 2019 impose aux plates-formes et aux GAFA (tel YouTube) de conclure avec les ayants droit des accords pour les rémunérer lorsqu’un utilisateur ou les algorithmes du système postent une œuvre (un texte, une chanson, un film…) sur lesquels ces ayants-droit ont des droits. Si la plate-forme ou le géant du net ne concluent pas un accord juste, ils encourent des poursuites pour non-respect de ces droits voisins du fait de la publication d’œuvres protégées sur leur réseau. Les plates-formes en ligne doivent en outre rémunérer les éditeurs de presse dont elles republient les contenus.Contenu soumis à la licence CC-BY-SA 4.0. Source : Article Droits voisins du droit d'auteur en France de Wikipédia en français :auteurs.
0  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
0  0 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
0  1