Le contexte de la controverse
La formation des modèles d’IA, tels que ceux développés par OpenAI, nécessite une quantité massive de données. Selon OpenAI, les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise affirme que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes.
Cette position a provoqué une vague de réactions négatives, notamment de la part de grandes institutions comme le New York Times et la Authors Guild. Ces entités accusent OpenAI de violer massivement les droits d’auteur et de profiter commercialement des œuvres protégées sans compensation adéquate. Les auteurs célèbres, tels que John Grisham et George R.R. Martin, ont également rejoint les rangs des plaignants, soulignant que l’utilisation non autorisée de leurs œuvres menace leur subsistance.
Les arguments d'OpenAI
OpenAI supplie le Parlement britannique de l'autoriser à utiliser des œuvres protégées par le droit d'auteur, car il lui serait « impossible » d'entraîner ses modèles d'intelligence artificielle - et de poursuivre la croissance de son entreprise, qui pèse plusieurs milliards de dollars - sans ces œuvres.
La société d'intelligence artificielle a déclaré dans un document soumis à une sous-commission de la Chambre des Lords que l'utilisation exclusive de contenus du domaine public serait insuffisante pour entraîner le type de grands modèles de langage (LLM) qu'elle construit, suggérant que l'entreprise doit donc être autorisée à utiliser du matériel protégé par le droit d'auteur.
« Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur », a écrit l'entreprise dans son dossier de preuves. « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui ».
OpenAI poursuit en insistant dans le document, soumis au comité des communications et du numérique de la Chambre des Lords, sur le fait qu'elle se conforme aux lois sur le droit d'auteur et qu'elle estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement ».
Des auteurs, dont George RR Martin, ont également intenté un procès à l'OpenAI.
Rang et dossier
De plus en plus de parties intéressées s'opposent fermement à l'affirmation d'OpenAI selon laquelle l'utilisation d'œuvres protégées par le droit d'auteur pour entraîner l'IA est légale et sans danger.
Le New York Times a intenté un procès à OpenAI et à Microsoft, son principal investisseur, pour avoir profité d'une prétendue « violation massive des droits d'auteur, d'une exploitation commerciale et d'une appropriation illicite » de la propriété intellectuelle du quotidien.
Le journal en question est loin d'être le seul à s'attaquer à OpenAI. Quelques mois auparavant, l'Authors Guild a poursuivi l'entreprise au nom de certains des plus grands noms de la fiction - dont John Grisham, Jodi Picoult, Jonathan Franzen, David Baldacci et George R.R. Martin - parce qu'elle s'opposait à ce que les œuvres de ces écrivains soient utilisées pour former ChatGPT.
Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent », a déclaré Rachel Geman, l'un des avocats de la guilde dans le cadre de l'action collective, dans un communiqué de presse relatif au dépôt de la plainte. En tant que telle, la décision de l'entreprise de copier les œuvres des auteurs, sans offrir de choix ni de compensation, menace le rôle et les moyens de subsistance des écrivains dans leur ensemble.
Du côté d'OpenAI, la société affirme qu'elle cherche à établir de nouveaux partenariats avec des éditeurs. Quoi qu'il en soit, il est difficile d'imaginer que chaque journal, site web ou maison d'édition accepte de telles conditions en bloc, et encore moins les écrivains indépendants qui dépendent de leurs droits d'auteur pour gagner leur vie.
OpenAI a toutefois admis qu'il y avait « encore du travail à faire pour soutenir les créateurs et leur donner les moyens d'agir ». L'entreprise a évoqué les moyens mis en œuvre pour permettre aux éditeurs d'empêcher le robot GPTBot d'accéder à leurs sites web. Elle a également indiqué qu'elle mettait au point des mécanismes supplémentaires permettant aux titulaires de droits de se retirer de la formation et qu'elle s'engageait avec eux à trouver des accords mutuellement bénéfiques.
Dans certaines des actions en justice intentées contre OpenAI et Microsoft, les plaignants accusent les sociétés de refuser de payer les auteurs pour leur travail tout en construisant une industrie d'un milliard de dollars et en profitant d'un énorme gain financier à partir de matériel protégé par le droit d'auteur. Dans un cas, déposé par un couple d'auteurs de non-fiction, il est soutenu que les entreprises auraient pu explorer d'autres options de financement, telles que la participation aux bénéfices, mais qu'elles ont « décidé de voler » à la place.
OpenAI n'a pas abordé ces poursuites particulières, mais elle a répondu directement à la plainte du New York Times qui l'accuse d'utiliser sans autorisation les articles de presse qu'il a publiés. Le quotidien ne dit pas toute l'histoire, a déclaré OpenAI. L'entreprise était déjà en train de négocier avec le Times un « partenariat de grande valeur » qui lui donnerait accès aux articles de la publication. Les deux parties sont apparemment restées en contact jusqu'au 19 décembre, et OpenAI n'a appris l'existence du procès que le mois suivant, en lisant un article sur le Times.
Dans la plainte qu'il a déposée, le journal a cité des cas où le ChatGPT a fourni aux utilisateurs des « extraits quasi verbatim » d'articles payants. OpenAI a accusé la publication de manipuler intentionnellement les messages-guides, notamment en incluant de longs extraits d'articles dans son interaction avec le chatbot afin de l'inciter à régurgiter le contenu. Elle accuse également le Times d'avoir choisi des exemples parmi de nombreuses tentatives. OpenAI a déclaré que la plainte déposée par le Times n'était pas fondée, mais qu'elle espérait toujours un « partenariat constructif » avec la publication.
Conclusion
La controverse autour de l’utilisation des matériaux protégés par le droit d’auteur par OpenAI soulève des questions cruciales sur l’équilibre entre l’innovation technologique et la protection des droits des créateurs. Alors que l’IA continue de progresser, il est essentiel de trouver des solutions qui respectent à la fois les besoins des développeurs d’IA et les droits des auteurs.
Source : OpenAI (1, 2)
Et vous ?
Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
Pensez-vous que les entreprises technologiques devraient payer une redevance pour utiliser des contenus protégés par le droit d’auteur ? Si oui, comment cette redevance devrait-elle être calculée ?
Comment les créateurs de contenu peuvent-ils collaborer avec les entreprises d’IA pour garantir une utilisation éthique de leurs œuvres ?
L’utilisation de matériaux protégés par le droit d’auteur sans autorisation pourrait-elle nuire à la diversité et à la qualité des contenus disponibles en ligne ?
Quelles mesures législatives pourraient être mises en place pour équilibrer les besoins des développeurs d’IA et les droits des créateurs ?
Pensez-vous que l’accès libre aux informations et aux œuvres culturelles est essentiel pour le progrès technologique, ou cela devrait-il être strictement réglementé ?
Comment les utilisateurs finaux des technologies d’IA peuvent-ils influencer les pratiques des entreprises en matière de respect des droits d’auteur ?