IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT,
Le média dit non à l'usage de son contenu sans son accord

Le , par Patrick Ruiz

0PARTAGES

6  0 
Le New York Times envisage de lancer une action en justice contre OpenAI afin de l’obliger à effacer les données d’entraînement de ChatGPT. Le département juridique du média étudie la possibilité de poursuivre OpenAI pour protéger les droits de propriété intellectuelle associés à ses reportages. En effet, le journal américain est contre l’utilisation de son contenu comme données d’entraînement pour une intelligence artificielle. La situation soulève diverses questions comme celle de savoir comment les médias peuvent bénéficier des innovations de l’IA tout en protégeant leur propriété intellectuelle.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

C’est pour toutes ces raisons que le NYT a procédé à la modification de ses conditions d’utilisation pour interdire l’usage de son contenu qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.


Le NYT anticipe-t-il sur les décisions d’entreprises comme Google qui a annoncé qu’il fera usage de tout ce qui sera publié en ligne comme données d’entraînement de son IA Bard ?

Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.

Dans la mise à jour de sa politique de confidentialité, il est écrit : « Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud. »

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.


Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.

C’est pour autant de raisons que le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu pour entraîner l’IA

Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.

L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.

Source : NPR

Et vous ?

Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?
Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?
Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?

Voir aussi :

Les éditeurs scientifiques face à l'impasse des faux documents générés par l'IA. Les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés

Le PDG d'OpenAI, Sam Altman, se dit effrayé par sa propre invention. L'IA pourrait être utilisée pour diffuser largement de fausses informations, ou encore lancer une nouvelle course à l'armement

Un avocat a cité 6 fausses affaires inventées par ChatGPT, l'outil d'IA conversationnelle développé par Open AI, le juge qualifie cette affaire de « sans précédent »

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Membre émérite https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de Fagus
Membre émérite https://www.developpez.com
Le 23/08/2023 à 13:11
Citation Envoyé par totozor
autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/09/2023 à 13:24
Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 23/08/2023 à 13:55
Je ne vois pas pourquoi il faudrait créer une exception.

Si j’apprends par cœur un livre Harry Potter et que je le re écris sur internet, j’enfreins le droit d'auteur.
Pourquoi cela devrait être différent venant d'une IA?

Si empêcher l'utilisation de texte soumis au droit d'auteur diminuerait la qualité des modèles ça montre d'autant plus l'importance:
- de continuer de protéger ces textes, je ne vois pas pourquoi on ferait des exceptions pour ces modèles que seules des multinationales peuvent se payer et entraîner et qui en plus ne sont pas ouverts. Cela montre d'autant plus la valeur de ces textes puisqu'ils ne peuvent pas s'en passer
- qu'il faudrait changer de paradigme et arrêter de faire des modèles qui ingurgitent et apprennent par cœur les données d’entraînement

C'est un aveux que ces modèles sont des machines à pomper les données malgré ce qu'ils essayent de nous vendre.
Avec les fameuses analogies de la façon dont l'humain apprends... alors que cela n'a rien, mais alors rien à voir.

Forcer les modèles d'arrêter à régurgiter les données d’entraînement serait sûrement le moyen légal le plus efficace pour régler pas mal de problèmes éthiques causés par l'IA, comme:
- le plagia des modèles génératifs, que ce soit du style ou carrément des images de certaines artistes, ou comme ici de livres ou autres textes protégés
- l'apprentissage par cœur de données privées, car contrairement a ce que l'on nous vend les données d’entraînement ne sont pas obtenues que par des sources publiques. Cela crée des problèmes de sécurité assez gros comme on peut l'imaginer
- le fait qu'on ne sait pas si une sortie peut être utilisée légalement (ex: la licence d'un code source généré qui aurait pompé des bouts soumis à la GNU GPL )

Science4All a fait pas mal de vidéos très intéressantes sur le sujet, qui est évidemment bien plus complexe que ce qu'il laisse paraitre au premier abord.

Bonus: https://thenib.com/im-a-luddite/
1  0 
Avatar de AaâÂäÄàAaâÂäÄàAaâÂäÄ
Membre éprouvé https://www.developpez.com
Le 23/08/2023 à 14:33
Citation Envoyé par Wanto Voir le message
Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.
Comprend qui peut !
1  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 23/08/2023 à 16:22
Citation Envoyé par Wanto Voir le message
Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.
Justement, un modèle d'IA ne lit pas un livre, ça ne fonctionne en rien comme un humain.
Sinon il n'y aurait pas de problème et de débat. Mais la on parle de modèles qui régurgitent des pavés entiers mémorisés par cœur.
C'est exactement le même soucis avec les IA génératives du style stable diffusion.
1  0 
Avatar de totozor
Membre émérite https://www.developpez.com
Le 24/08/2023 à 8:14
Citation Envoyé par Fagus Voir le message
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
Oui c'est un peu ce que je voulais souligné mais il existe pourtant des contrexemples apparents (je n'ai pas le détail de ce qui se passe en fond), les annales de BAC français sont vendues avec des résumés et des analyses approfondies de certaines oeuvres littéraires.
Ce que je veux dire est qu'il ne me parait pas choquant que je puisse avoir un débat avec ChatGPT (même si le concept de débat avec une machine me choque) sur tel bouquin de Harry Potter par contre il ne devrait pas pouvoir me restituer son contenu (même si ce n'est pas fait de façon exacte).

On se retrouve à un moment où on (utilisateurs de chatGPT) veut une interface culturellement moderne mais qui ne se nourrirait pas des oeuvres culturelle moderne, ca qui est un paradoxe amusant à constater.
Mais ce n'est pas le seul paradoxe de notre rapport à cette IA, donc soit.
1  0 
Avatar de totozor
Membre émérite https://www.developpez.com
Le 01/09/2023 à 8:06
Citation Envoyé par Mathis Lucas Voir le message
« Les autres plaintes des auteurs [...], la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI.
J'ai l'impression de ne pas tout comprendre mais pourquoi doit on supprimer une poursuite sous prtéexte de risque d'aller jusqu'à "la découverte de responsabilité"?
N'est ce pas justement le rôle d'un tribunal de découvrir cette théorie de responsabilité et dévaluer si elle est "juridiquement infirme"
Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.
Oui mais certaines expériences plus que douteuses réalisée dans des systèmes totallitaires ont grandement fait avancé la science, elles sont malgré tout plus que condamnables.
Pardon pour la comparaison douteuse mais leur défense est horrible.
OpenAI va plus loin en expliquant que l'objectif de la loi sur le droit d'auteur est de promouvoir le progrès de la science et des arts utiles en protégeant la manière dont les auteurs expriment leurs idées.
Est ce seulement vrai?
Je penses que pour commencer le droit d'auteur ne promeut rien, il (essaye de) protège.
Le droit d'auteur ne promeut/proège pas le progrès de la science, ne confondent ils pas brevets et droit d'auteur?
Qu'est ce que l'art utile? Une partie de la valeur ajoutée de l'art n'est il pas qu'il n'est pas forcément intrinsèquement utile

Je trouve assez choquant que OpenAI essaye de redéfinir le droit d'auteur et son objectif.
Je penses que la course au développement à tout prix est une tendance qu'il ne fait pas de mal de freiner. Et au passage rappeler aux Start-up qui émergent qu'elles ne sont pas au delà du système dans lequel elles évoluent et qu'elles exploitent (pas forcément dans un sens péjoratif)
1  0 
Avatar de Wanto
Membre à l'essai https://www.developpez.com
Le 23/08/2023 à 14:02
Citation Envoyé par Fagus Voir le message
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.
0  0 
Avatar de Madmac
Membre extrêmement actif https://www.developpez.com
Le 27/08/2023 à 19:24
Citation Envoyé par Wanto Voir le message
Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
.
Mauvais point de comparaison: Refait ta réflexion avec un extrait de film (spécialement Disney) ou de chanson.
0  0