La société Anthropic, spécialisée dans l'intelligence artificielle générative (GenAI), a fait valoir devant un tribunal américain que l'utilisation de contenus protégés par le droit d'auteur dans les données d'apprentissage des grands modèles de langage (LLM) relevait d'un « usage loyal » et que « les outils d'IA à usage général d'aujourd'hui ne pourraient tout simplement pas exister » si les sociétés d'IA devaient payer des licences pour ces contenus.
En vertu de la législation américaine, le « fair use » permet l'utilisation limitée de matériel protégé par des droits d'auteur sans autorisation, à des fins telles que la critique, le reportage, l'enseignement et la recherche.
Les outils de génération automatique de contenu, basés sur l’intelligence artificielle, sont de plus en plus utilisés dans divers domaines, tels que le journalisme, le marketing, le design ou la musique. Ces outils, appelés GenAI tools, permettent de créer des textes, des images, des vidéos, des sons ou des modèles 3D à partir de données existantes ou de requêtes en langage naturel. Ils reposent sur des algorithmes complexes et des réseaux neuronaux capables d’apprendre des patterns et de produire des outputs qui imitent la créativité humaine.
Toutefois, ces outils soulèvent des questions juridiques et éthiques, notamment en matière de droit d’auteur. En effet, les GenAI tools utilisent souvent des œuvres protégées par le droit d’auteur comme source d’inspiration ou de formation, sans rémunérer ni demander l’autorisation des auteurs originaux. Certains estiment que cela constitue une violation du droit d’auteur et que les GenAI tools devraient payer des royalties ou des licences pour utiliser les œuvres existantes. D’autres, au contraire, considèrent que les GenAI tools ne font que réutiliser les œuvres existantes de manière transformative et originale, et qu’ils devraient bénéficier d’une exception au droit d’auteur, au nom de la liberté d’expression ou de l’innovation.
Anthropic poursuivit pour violation du copyright...
En octobre 2023, une série d'éditeurs de musique, dont Concord, Universal Music Group et ABKCO, ont intenté une action en justice contre la société d'IA générative Anthropic, soutenue par Amazon et Google, réclamant des millions de dollars de dommages et intérêts pour la prétendue « violation systématique et généralisée de leurs paroles de chansons protégées par le droit d'auteur ».
La plainte, déposée auprès d'un tribunal de district du Tennessee, allègue qu'Anthropic, en construisant et en exploitant ses modèles d'IA, « copie et diffuse illégalement de vastes quantités d'œuvres protégées par le droit d'auteur, y compris les paroles d'une myriade de compositions musicales appartenant à des éditeurs ou contrôlées par eux ». Elle ajoute que si la technologie de l'IA peut être complexe et à la pointe du progrès, les questions juridiques liées à l'utilisation d'œuvres protégées par le droit d'auteur sont « simples et connues de longue date ».
« Le défendeur ne peut pas reproduire, distribuer et afficher les œuvres protégées par le droit d'auteur de quelqu'un d'autre pour créer sa propre entreprise, à moins d'obtenir l'autorisation du titulaire des droits », est-il indiqué dans la plainte. Ce principe ne disparaît pas simplement parce qu'une société orne sa contrefaçon des mots "AI".
La plainte affirme en outre que l'incapacité d'Anthropic à obtenir des autorisations de droits d'auteur « prive les éditeurs et leurs auteurs-compositeurs du contrôle de leurs œuvres protégées par le droit d'auteur et des bénéfices durement gagnés de leurs efforts créatifs ».
...estime qu'il n'est pas viable d'obtenir des accords de licence
Pour remédier à ce problème, les éditeurs de musique demandent au tribunal d'obliger Anthropic à verser des dommages et intérêts, de rendre compte de ses données et méthodes de formation et de détruire toutes les « copies contrefaites » des œuvres en possession de la société.
Cependant, dans une soumission au Bureau américain des droits d'auteur le 30 octobre (qui était complètement séparée de l'affaire), Anthropic a déclaré que l'entraînement de son modèle d'IA Claude « se qualifie comme une utilisation essentiellement licite des matériaux », arguant que, « dans la mesure où des œuvres protégées par le droit d'auteur sont utilisées dans les données d'entraînement, c'est pour l'analyse (des relations statistiques entre les mots et les concepts) qui n'est pas liée à un quelconque objectif expressif de l'œuvre ».
Elle a ajouté : « L'utilisation d'œuvres pour former Claude est équitable car elle n'empêche pas la vente des œuvres originales et, même si elle est commerciale, elle est suffisamment transformatrice ».
En ce qui concerne l'éventualité d'un régime de licence pour l'ingestion par LLM de contenus protégés par le droit d'auteur, Anthropic a fait valoir qu'il serait inapproprié de toujours exiger des licences, car cela bloquerait l'accès à la grande majorité des œuvres et ne profiterait qu'aux « entités disposant des ressources les plus importantes » qui sont en mesure de payer pour se conformer à la loi.
« Exiger une licence pour l'utilisation non expressive d'œuvres protégées par le droit d'auteur dans le cadre de la formation à la gestion du droit d'auteur revient à empêcher l'utilisation d'idées, de faits et d'autres éléments non protégés par le droit d'auteur », a déclaré l'entreprise. « Même en supposant que certains aspects de l'ensemble de données puissent donner plus de poids à un résultat particulier qu'à d'autres, le modèle est plus que la somme de ses parties ». « Ainsi, il sera difficile de fixer un taux de redevance significatif pour les créateurs individuels sans rendre non rentable le développement de modèles d'IA génératifs en premier lieu ».
Dans un document de 40 pages soumis au tribunal le 16 janvier 2024 (répondant spécifiquement à une "demande d'injonction préliminaire" déposée par les éditeurs de musique en novembre), Anthropic a poussé le même argument plus loin, affirmant « qu'il ne serait pas possible d'amasser suffisamment de contenu pour former un LLM comme Claude dans des transactions de licence sans lien de dépendance, à n'importe quel prix ».
« Nous ne sommes pas les seuls à le faire »
Elle a ajouté qu'Anthropic n'était pas la seule à utiliser des données « largement assemblées à partir de l'internet accessible au public » et que « dans la pratique, il n'y a pas d'autre moyen d'amasser un corpus de formation avec l'ampleur et la diversité nécessaires pour former un LLM complexe avec une large compréhension du langage humain et du monde en général ».
« Toute inclusion des paroles de chansons des plaignants - ou d'autres contenus reflétés dans ces ensembles de données - ne serait qu'un sous-produit de la seule approche viable pour résoudre ce défi technique », a déclaré l'entreprise.
Elle a également affirmé que l'ampleur des ensembles de données nécessaires à la formation des LLM est tout simplement trop importante pour qu'un régime de licence efficace puisse fonctionner : « On ne pourrait pas conclure de transactions de licence avec suffisamment de détenteurs de droits pour couvrir les milliards de textes nécessaires pour produire les dizaines de milliards de jetons dont les LLM à usage général ont besoin pour une formation adéquate. Si des licences étaient nécessaires pour former les LLM sur des contenus protégés par le droit d'auteur, les outils d'IA à usage général d'aujourd'hui ne pourraient tout simplement pas exister ».
Alors que les éditeurs de musique ont affirmé dans leur plainte qu'Anthropic pourrait facilement exclure leur matériel protégé par le droit d'auteur de son corpus de formation, la société a déclaré qu'elle avait déjà mis en œuvre un « large éventail de mesures de protection pour empêcher ce type de reproduction », y compris en plaçant des limites non spécifiées sur ce que le modèle peut reproduire et en formant le modèle à reconnaître le matériel protégé par le droit d'auteur, parmi « d'autres approches ».
Et d'ajouter que bien que ces mesures soient généralement efficaces, elles ne sont pas parfaites : "Il est vrai que, en particulier pour un utilisateur qui a délibérément abusé de Claude pour lui faire produire des parties importantes d'œuvres protégées par le droit d'auteur, certains textes plus courts peuvent échapper aux défenses multiples mises en place par Anthropic.
Des actions similaires intentées contre d'autres entreprises pour leur utilisation de l'IA générative
Il s'agit notamment d'OpenAI et Stability AI, ainsi que d'autres entreprises comme Microsoft, Google et Meta. Aucune décision n'a été prise par les tribunaux au moment de la publication, mais les résultats éventuels commenceront à créer des précédents pour l'avenir de la technologie.
En septembre 2023, un mois avant que les éditeurs de musique ne déposent leur plainte, Anthropic a annoncé que le géant du commerce électronique Amazon investirait jusqu'à 4 milliards de dollars dans l'entreprise et prendrait une participation minoritaire. En février 2023, Google a investi environ 300 millions de livres sterling dans l'entreprise et pris une participation de 10 %. Sam Bankman-Fried, fondateur de FTX en disgrâce, a également investi 500 millions de dollars dans Anthropic en avril 2022, avant de déposer le bilan en novembre de la même année.
Une harmonisation du droit d'auteur avec une catégorie spéciale pour les œuvres générées par l'IA, la solution ?
Il n’existe pas de cadre juridique harmonisé au niveau international pour réguler les outils GenAI. Chaque pays a ses propres lois et jurisprudences sur le droit d’auteur, qui peuvent varier selon les types d’œuvres, les critères d’originalité, la durée de protection, les droits moraux et patrimoniaux ou les exceptions et limitations. Par exemple, en France, le droit d’auteur protège les œuvres originales qui portent la marque de la personnalité de l’auteur, et il est composé d’un droit moral perpétuel et inaliénable, et d’un droit patrimonial qui dure jusqu’à 70 ans après la mort de l’auteur. Aux États-Unis, le droit d’auteur protège les œuvres originales et créatives, et il est composé d’un droit moral limité et d’un droit patrimonial qui dure jusqu’à 70 ans après la publication de l’œuvre.
Face à cette diversité de situations, certains experts appellent à une harmonisation du droit d’auteur au niveau international, afin de garantir une protection équitable et efficace des auteurs humains et des GenAI tools. Ils proposent notamment de créer une catégorie spéciale pour les œuvres générées par l’IA, qui reconnaîtrait leur originalité sans leur accorder les mêmes droits que les œuvres humaines. Ils suggèrent également de mettre en place des mécanismes de partage équitable des bénéfices entre les auteurs humains et les outils GenAI, ainsi que des mesures de transparence et de responsabilité pour les utilisateurs des outils GenAI.
Sources : plainte, soumission Anthropic, INPI (Institut National de la Propriété Intellectuelle)
Et vous ?
Pensez-vous que les GenAI tools sont des outils créatifs ou des outils de plagiat ?
Quels sont les critères pour déterminer si une œuvre générée par l’IA est originale ou non ?
Qui devrait être considéré comme l’auteur d’une œuvre générée par l’IA : le créateur de l’outil, l’utilisateur de l’outil, ou l’outil lui-même ?
Comment protéger les droits moraux et patrimoniaux des auteurs humains face aux GenAI tools ?
Quels sont les risques et les opportunités des GenAI tools pour la diversité culturelle et la démocratie ?
Quel est le rôle des institutions internationales, comme l’UNESCO ou l’OMPI (Organisation mondiale de la propriété intellectuelle), dans la régulation des GenAI tools et du droit d’auteur ?
Les outils de GenAI « ne pourraient pas exister » si les entreprises devaient payer des droits d'auteur
L'entreprise IA Anthropic estime que tout régime de licence serait trop complexe et coûteux
Les outils de GenAI « ne pourraient pas exister » si les entreprises devaient payer des droits d'auteur
L'entreprise IA Anthropic estime que tout régime de licence serait trop complexe et coûteux
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !