IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats
Selon une nouvelle plainte des auteurs

Le , par Jade Emy

11PARTAGES

11  0 
Les avocats de Meta Platforms l'avaient prévenue des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner ses modèles d'IA, mais l'entreprise l'a quand même fait, selon un nouveau dépôt dans un procès pour violation du droit d'auteur initialement intenté cet été.

Le nouveau dossier déposé consolide deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, qui allèguent que Meta a utilisé leurs œuvres sans autorisation pour entraîner son modèle de langage d'intelligence artificielle, Llama.

Le mois dernier, un juge californien a rejeté une partie de l'action intentée par M. Silverman et a indiqué qu'il autoriserait les auteurs à modifier leurs revendications. La nouvelle plainte comprend des registres de conversation d'un chercheur affilié à Meta discutant de l'acquisition de l'ensemble de données dans un serveur Discord, un élément de preuve potentiellement important indiquant que Meta était conscient que son utilisation des livres n'était peut-être pas protégée par la loi américaine sur le droit d'auteur.

Dans les journaux de discussion cités dans la plainte, le chercheur Tim Dettmers décrit ses allers-retours avec le service juridique de Meta pour savoir si l'utilisation des fichiers de livres comme données d'entraînement serait "légalement acceptable". "Chez Facebook, de nombreuses personnes, dont moi-même, souhaitent travailler avec le fichier, mais dans sa forme actuelle, nous ne pouvons pas l'utiliser pour des raisons juridiques", a écrit Tim Dettmers en 2021, faisant référence à un ensemble de données que Meta a reconnu avoir utilisé pour entraîner sa première version de Llama, selon la plainte.


Le mois précédent, Dettmers a écrit que les avocats de Meta lui avaient dit que "les données ne peuvent pas être utilisées ou que les modèles ne peuvent pas être publiés s'ils sont entraînés sur ces données", selon la plainte. Bien que M. Dettmers ne décrive pas les préoccupations des avocats, ses homologues dans le chat identifient les "livres avec des droits d'auteur actifs" comme la plus grande source probable d'inquiétude. Ils affirment que la formation sur les données devrait "relever de l'usage loyal", une doctrine juridique américaine qui protège certaines utilisations sans licence d'œuvres protégées par le droit d'auteur.

M. Dettmers, doctorant à l'université de Washington, a déclaré qu'il n'était pas en mesure de commenter ces allégations dans l'immédiat.

Cette année, les entreprises technologiques ont fait l'objet d'une série de poursuites de la part de créateurs de contenu qui les accusent d'avoir détourné des œuvres protégées par le droit d'auteur pour créer des modèles d'IA générative qui ont fait sensation dans le monde entier et suscité une frénésie d'investissements. Si elles aboutissent, ces affaires pourraient freiner l'engouement pour l'IA générative, car elles pourraient augmenter le coût de construction des modèles gourmands en données en obligeant les entreprises d'IA à indemniser les artistes, les auteurs et les autres créateurs de contenu pour l'utilisation de leurs œuvres. Dans le même temps, les nouvelles règles provisoires européennes régissant l'intelligence artificielle pourraient obliger les entreprises à divulguer les données qu'elles utilisent pour former leurs modèles, ce qui les exposerait à un risque juridique accru.

Meta a publié une première version de son modèle linguistique Llama en février, ainsi qu'une liste d'ensembles de données utilisés pour l'entraînement, dont "la section Books3 de ThePile". La personne qui a assemblé cet ensemble de données a déclaré ailleurs qu'il contenait 196 640 livres, selon la plainte. L'entreprise n'a pas divulgué les données d'entraînement pour sa dernière version du modèle, Llama 2, qu'elle a mis à disposition pour un usage commercial cet été. Llama 2 est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs actifs mensuels. Son lancement a été perçu dans le secteur technologique comme pouvant changer la donne sur le marché des logiciels d'IA générative, menaçant de remettre en cause la domination d'acteurs tels qu'OpenAI et Google qui font payer l'utilisation de leurs modèles.

Source : Tim Dettmers, Université de Washington

Et vous ?

Pensez-vous que cette nouvelle plainte est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Meta a entraîné son IA à l'aide de vos publications publiques sur Facebook et Instagram

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative. Certains ont déjà intenté des actions en justice contre OpenAI

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 02/01/2024 à 7:54
Citation Envoyé par Stéphane le calme Voir le message
Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?
Non, si la demande réclame une chose qui n'est flaggée que sur une œuvre, elle risque fort de ressortir telle quelle ou presque.
Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?
Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?
Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?
Je suis loin d'être un spécialiste du droit d'auteur donc il est compliqué de se prononcer mais j'ai retenu une chose de mes cours de droits : (en France) concernant les marques et logos, la "copie" n'est pas évaluée sur les différences mais sur la ressemblance.
Zack parle du processus de copie, ce qui me semble hors de propos, si tu retranscrits un texte numérisé en le même texte numérisé ça me semble être simplement du viol de propriété intellectuelle.
Je verrais plus une question sur l'exploitation commerciale, j'ai le droit d'imprimer mon propre Tshirt avec la couverture de Nevermind de Nirvana mais je n'ai pas le droit de le vendre.
1  0 
Avatar de irrmichael
Membre du Club https://www.developpez.com
Le 28/02/2024 à 22:54
c'est un peu gros non?
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 29/02/2024 à 2:24
Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}
1  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 08/04/2024 à 11:44
Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.
3  2 
Avatar de maxtal
Membre actif https://www.developpez.com
Le 10/04/2024 à 15:11
si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin
1  0 
Avatar de ManPaq
Membre averti https://www.developpez.com
Le 23/01/2024 à 5:25
C'est le même problème qui a conduit Google à payer une amende de 500M$ en 21:
La directive européenne de 2019 impose aux plates-formes et aux GAFA (tel YouTube) de conclure avec les ayants droit des accords pour les rémunérer lorsqu’un utilisateur ou les algorithmes du système postent une œuvre (un texte, une chanson, un film…) sur lesquels ces ayants-droit ont des droits. Si la plate-forme ou le géant du net ne concluent pas un accord juste, ils encourent des poursuites pour non-respect de ces droits voisins du fait de la publication d’œuvres protégées sur leur réseau. Les plates-formes en ligne doivent en outre rémunérer les éditeurs de presse dont elles republient les contenus.Contenu soumis à la licence CC-BY-SA 4.0. Source : Article Droits voisins du droit d'auteur en France de Wikipédia en français :auteurs.
0  0 
Avatar de impopia
Membre régulier https://www.developpez.com
Le 13/04/2024 à 8:19
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...
1  1 
Avatar de TJ1985
Membre chevronné https://www.developpez.com
Le 13/04/2024 à 8:38
Citation Envoyé par impopia Voir le message
Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...
0  0