L'intelligence artificielle (IA), dans son sens large, est l'intelligence dont font preuve les systèmes informatiques. Son utilisation croissante entraîne une évolution sociétale et économique vers une automatisation accrue, une prise de décision fondée sur les données et l'intégration de systèmes d'IA dans divers secteurs économiques et domaines de la vie. Cela soulève des questions sur les effets à long terme, les implications éthiques et les risques de l'IA, suscitant des discussions sur les politiques réglementaires visant à garantir la sécurité et les avantages de la technologie.
Depuis le début du boom de l'IA générative, les créateurs de contenu affirment que leurs œuvres ont été intégrées dans des modèles d'IA sans leur consentement. Mais jusqu'à présent, il était difficile de savoir si un texte spécifique avait réellement été utilisé dans un ensemble de données d'entraînement.
Les créateurs de contenu disposent désormais d'un nouveau moyen de le prouver : Les "pièges à droits d'auteur" mis au point par une équipe de l'Imperial College de Londres sont des morceaux de texte cachés qui permettent aux écrivains et aux éditeurs de marquer subtilement leur travail afin de détecter ultérieurement s'il a été utilisé ou non dans des modèles d'IA. L'idée est similaire aux pièges utilisés par les détenteurs de droits d'auteur tout au long de l'histoire - des stratégies telles que l'inclusion de faux lieux sur une carte ou de faux mots dans un dictionnaire.
Ces pièges à droit d'auteur en matière d'IA s'inscrivent dans l'un des plus grands combats de l'IA. Un certain nombre d'éditeurs et d'écrivains sont en procès contre des entreprises technologiques, affirmant que leur propriété intellectuelle a été intégrée sans leur permission dans des ensembles de données d'entraînement à l'IA. L'affaire en cours entre le New York Times et OpenAI est probablement la plus médiatisée.
« Il y a un manque total de transparence en ce qui concerne le contenu utilisé pour former les modèles, et nous pensons que cela empêche de trouver le bon équilibre [entre les entreprises d'IA et les créateurs de contenu] », déclare Yves-Alexandre de Montjoye, professeur agrégé de mathématiques appliquées et d'informatique à l'Imperial College de Londres, qui a dirigé la recherche. Le code permettant de générer et de détecter les pièges est actuellement disponible sur GitHub, mais l'équipe a également l'intention de créer un outil permettant aux utilisateurs de générer et d'insérer eux-mêmes des pièges à droits d'auteur.
Les pièges à droit d'auteur pour les grands modèles de langage
La question de l'utilisation équitable de contenus protégés par des droits d'auteur pour former de grands modèles de langage (LLM) fait l'objet d'un débat animé. Dans cette optique, les méthodes actuelles proposent de déduire à partir d'un accès en boîte noire au modèle formé si un élément de contenu a été vu pendant la formation. Les modèles SOTA s'appuient toutefois sur la mémorisation naturelle (d'une partie) du contenu.
Bien que ces méthodes soient très efficaces contre les modèles qui mémorisent de manière significative, elles ne fonctionneront forcément pas contre les modèles qui ne mémorisent pas naturellement, par exemple les modèles 1B (avec 1 milliard de paramètres) de taille moyenne.
Avec les problèmes de droits d'auteur concernant la formation LLM, les développeurs LLM sont réticents à divulguer des détails sur leurs données de formation. Des travaux antérieurs ont exploré la question de l'inférence d'appartenance au niveau du document pour détecter si un élément de contenu a été utilisé pour former un LLM. Nous montrons tout d'abord que la mémorisation dépend fortement de la configuration de l'entraînement, car les méthodes existantes d'inférence d'appartenance au niveau du document échouent pour notre LLM de 1,3B.
Mémorisation au cours de la formation
Dans l'étude, les chercheurs proposent d'utiliser des pièges à droits d'auteur, l'inclusion d'entrées fictives dans le contenu original, pour détecter l'utilisation de matériel protégé par droits d'auteur dans les LLM, en mettant l'accent sur les modèles où la mémorisation ne se produit pas naturellement.
Pour se faire, ils ont conçu un dispositif expérimental contrôlé et randomisé, en insérant des pièges dans le contenu original (livres) et en entraînant un LLM de 1,3 milliard de dollars à partir de zéro. Ils ont validé au préalable que l'utilisation du contenu dans le modèle cible serait indétectable à l'aide des méthodes existantes. Puis ils ont démontré, contrairement à l'intuition, que même les phrases pièges de longueur moyenne répétées un nombre important de fois (100) ne sont pas détectables à l'aide des méthodes existantes.
Nous proposons donc l'utilisation de pièges à droits d'auteur pour les LLM - des séquences de texte conçues à dessein et injectées dans un document, destinées à maximiser la détectabilité dans les données d'entraînement LLM. Nous entraînons un LLM réel de 1,3 milliard de paramètres à partir de zéro sur 3 milliards de jetons, contenant un petit ensemble de séquences pièges injectées, ce qui nous permet d'étudier leur efficacité. Nous constatons que l'induction d'une mémorisation fiable dans un LLM est une tâche non triviale.
Pour les modèles présentant un niveau de mémorisation relativement faible, comme celui que nous entraînons ici, l'injection de phrases courtes à moyennes (≤ 50 tokens) jusqu'à 100 fois n'améliore pas la détectabilité des documents. En utilisant des séquences plus longues, cependant, et jusqu'à 1 000 répétitions, nous voyons un effet significatif - montrant comment les pièges à droit d'auteur peuvent permettre la détectabilité même pour les LLMs moins enclins à mémoriser.
Pour les modèles présentant un niveau de mémorisation relativement faible, comme celui que nous entraînons ici, l'injection de phrases courtes à moyennes (≤ 50 tokens) jusqu'à 100 fois n'améliore pas la détectabilité des documents. En utilisant des séquences plus longues, cependant, et jusqu'à 1 000 répétitions, nous voyons un effet significatif - montrant comment les pièges à droit d'auteur peuvent permettre la détectabilité même pour les LLMs moins enclins à mémoriser.
Relation entre la perplexité et la détection
En revanche, les résultats montrent que des séquences plus longues répétées un grand nombre de fois peuvent être détectées de manière fiable (AUC=0,75) et utilisées comme pièges à droits d'auteur. Au-delà des applications de droits d'auteur, les résultats contribuent à l'étude de la mémorisation LLM : la configuration contrôlée randomisée permet d'établir des relations de cause à effet entre la mémorisation et certaines propriétés de séquences telles que la répétition dans les données d'entraînement du modèle et la perplexité.
Nous constatons en outre que la mémorisation augmente avec la perplexité de la séquence et que l'exploitation d'informations au niveau du document, telles que le contexte, pourrait renforcer la détectabilité. Bien qu'efficace, le mécanisme proposé pourrait perturber le contenu et la lisibilité du document. Des recherches futures sont donc nécessaires, notamment en ce qui concerne la conception de séquences pièges maximisant la détectabilité. Nous nous engageons donc à publier notre modèle et nos données pour faire avancer la recherche dans ce domaine.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI, d'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee
Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données
Un nouveau projet de loi veut obliger les entreprises d'IA à divulguer toutes les œuvres protégées par le droit d'auteur utilisées dans la formation des modèles, sous peine d'amendes