Microsoft et OpenAI sont à nouveau poursuivis pour avoir prétendument récupéré et reproduit des articles de presse. The Intercept et Raw Story et AlterNet ont déposé des plaintes distinctes dans le district sud de New York. Ils allèguent une violation de leurs droits d'auteur, notamment la suppression de l'auteur, du titre et d'autres informations relatives aux droits d'auteur lors de l'entraînement des modèles d'IA. Ils demandent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA. Les plaintes de The Intercept et de Raw Story et AlterNet font suite à l'action en justice intentée contre OpenAI par le New York Times à la fin de l'année dernière.
ChatGPT, comme tous les modèles d'IA concurrents, a été entraîné à partir d'énormes quantités de textes récupérés sur Internet, y compris de nombreux articles journalistiques. Les éditeurs de presse ne sont toutefois pas satisfaits qu'OpenAI ait utilisé leurs articles pour entraîner ses modèles sans autorisation ni compensation. Une étude publiée par les chercheurs en IA de ByteDance l'année dernière a révélé qu'OpenAI tente de mettre en place un mécanisme pour éviter que ChatGPT révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur. Mais OpenAI peine à y arriver et doit faire à de nombreux procès.
Mercredi, The Intercept, Raw Story et AlterNet ont déposé des plaintes distinctes devant le tribunal fédéral de Manhattan. Les plaintes allèguent que les produits d'IA générative développés par OpenAI violent les lois sur les droits d'auteur. Ils affirment que Microsoft et OpenAI ont en fait plagié des articles protégés par le droit d'auteur pour développer et exploiter ChatGPT. Selon ces trois médias numériques, ChatGPT a été formé pour ne pas respecter les droits d'auteur, ignore les attributions appropriées et n'avertit pas les utilisateurs lorsque ses réponses sont générées à partir de travaux protégés de journalistes.
Dans un communiqué, Raw Story et John Byrne, PDG d'AlterNet, ont déclaré : « Raw Story estime que les organisations d'information doivent s'opposer à OpenAI, qui viole le Digital Millennium Copyright Act et profite du travail acharné des journalistes dont les emplois sont menacés. Il est important pour la démocratie qu'un large éventail de sites d'information continue de prospérer. Les violations d'OpenAI, si elles ne sont pas contrôlées, décimeront encore plus l'industrie de l'information, et avec elle, les journalistes critiques qui influencent les changements positifs ». Ces deux médias ne s'attaquent qu'à OpenAI.
En effet, la plainte déposée par The Intercept cite à la fois OpenAI et son principal investisseur, Microsoft, comme défendeurs, tandis que la plainte conjointe déposée par Raw Story et AlterNet ne cite qu'OpenAI. Les plaintes sont par ailleurs presque identiques, et le cabinet d'avocats Loevy & Loevy représente les trois médias dans les procès. Selon les déclarations de Byrne, le procès intenté par Raw Story et AlterNet n'inclut pas Microsoft en raison d'un partenariat avec le portail Web MSN qui contribue à financer leurs reportages d'investigation. OpenAI et Microsoft n'ont pas répondu aux demandes de commentaires.
« Les défendeurs avaient le choix : ils pouvaient former ChatGPT en utilisant des œuvres journalistiques avec les informations de gestion du droit d'auteur protégées par le DMCA intactes, ou ils pouvaient les supprimer. Les défendeurs ont choisi cette dernière solution et, ce faisant, ont formé ChatGPT à ne pas reconnaître ou respecter le droit d'auteur, à ne pas avertir les utilisateurs lorsque les réponses qu'ils recevaient étaient protégées par les droits d'auteur des journalistes, et à ne pas fournir d'attribution lorsqu'ils utilisaient les œuvres de journalistes humains », indique la plainte déposée par Raw Story et AlterNet.
Les avocats représentant The Intercept, Raw Story et AlterNet ont déclaré qu'ils ignorent précisément quel texte OpenAI et Microsoft utilisent pour entraîner leurs modèles d'IA. Mais ils ont indiqué trois ensembles de données (WebText, WebText2 et Common Crawl) qui, selon eux, comprennent le contenu des plaignants. Ils estiment que des articles des trois éditeurs ont été grattés et soutiennent que ChatGPT génère un contenu qui imite d'énormes quantités de documents journalistiques protégés par le droit d'auteur au moins une partie du temps. D'autres médias ont également avancé les mêmes arguments.
« Sur la base des informations publiques décrites ci-dessus, des milliers d'œuvres protégées par le droit d'auteur des plaignants ont été incluses dans les jeux de formation des défendeurs sans les informations relatives à l'auteur, au titre et au droit d'auteur que les plaignants ont communiquées en les publiant », peut-on lire dans les documents judiciaires de l'équipe juridique de The Intercept. Les deux plaignants demandent des dommages-intérêts et une injonction obligeant les développeurs de chatbots à supprimer toutes les copies de leurs œuvres protégées par le droit d'auteur. Ils réclament un procès avec jury.
Les plaintes déposées mercredi sont les dernières d'une série d'actions en justice contre OpenAI pour violation présumée des droits d'auteur. La liste comprend notamment une plainte déposée en décembre par New York Times qui exige qu'OpenAI détruise tous les chatbots ou les données de formation qui utilisaient le matériel protégé de l'organe de presse. Cette semaine, les avocats d'OpenAI ont déposé une requête visant à rejeter certaines parties de cette action en justice et ont fait valoir que ses services ne constituaient pas une véritable concurrence pour le journal. Le média n'est toutefois pas du même avis.
Cette vague d'actions en justice reflète l'inquiétude de l'ensemble du secteur des médias, qui craint que l'IA générative ne concurrence les éditeurs établis en tant que source d'information pour les internautes, tout en réduisant les recettes publicitaires et en compromettant la qualité de l'information en ligne. L'IA générative a déjà inondé Internet d'informations peu fiables et des sites de piètre qualité qui imitent les organes d'information, et des publications telles que Sports Illustrated ont utilisé de faux auteurs générés par l'IA à la place de journalistes humains. Le paysage de l'information est confronté à de gros risques.
Par ailleurs, d'autres secteurs comme le cinéma sont aussi concernés. Dans une affaire californienne, la comédienne Sarah Silverman et plusieurs auteurs ont allégué de la même manière qu'OpenAI avait intentionnellement supprimé les informations relatives au droit d'auteur de leurs œuvres écrites lors de l'entraînement de ses modèles. Un juge a finalement rejeté ce chef d'accusation, déclarant que les plaignants n'avaient pas intentionnellement supprimé les données. (Toutefois, le cœur du procès, à savoir l'allégation selon laquelle OpenAI a violé les droits d'auteur des plaignants, est toujours d'actualité).
OpenAI et Microsoft ne sont pas les seuls à faire l'objet de litiges en matière de droits d'auteur dans ce domaine. Getty Images poursuit Stability AI pour avoir prétendument entraîné des modèles en utilisant ses images protégées, et Universal Music Group poursuit Anthropic, affirmant qu'il distribue et recrée des paroles de chansons sans attribution.
Sources : plainte de Raw Story et AlterNet (PDF), plainte de The Intercept (PDF)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des allégations portées contre OpenAI par The Intercept, Raw Story et AlterNet ?
Ces actions en justice ont-elles une chance d'aboutir ? Que pensez-vous des revendications des plaignants ?
Voir aussi
OpenAI affirme que le New York Times a « piraté » ChatGPT pour générer des preuves trompeuses et intenter un procès sur les droits d'auteur, une activité qui équivaut à des « attaques fabriquées »
OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient
OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur, comme la série Harry Poter de J.K Rowling, selon une étude
The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur,
Ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA
The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur,
Ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA
Le , par Mathis Lucas
Une erreur dans cette actualité ? Signalez-nous-la !