Une transparence devenue essentielle
Les systèmes d'IA, tels que les modèles de langage, les générateurs d'images ou encore les algorithmes de décision automatisée, occupent désormais une place centrale dans de nombreux secteurs, de la santé à l'éducation en passant par la justice. Cependant, le fonctionnement interne de ces technologies reste souvent opaque. Cela alimente les inquiétudes sur des sujets tels que les biais algorithmiques, la désinformation ou l'utilisation abusive de données personnelles.
Pour répondre à ces préoccupations, le sénateur souhaite obliger les développeurs à divulguer des informations clés sur la conception, l'entraînement et les limites de leurs systèmes. Ce projet de loi prévoit également une supervision renforcée par des organismes de régulation afin de garantir que les pratiques des entreprises respectent des normes éthiques et légales.
Pour le sénateur Peter Welch, si votre travail a été utilisé pour former une IA, vous devriez être indemnisé
Un nouveau projet de loi du Sénat vise à permettre aux créateurs humains de savoir plus facilement si leur travail a été utilisé sans autorisation pour former l'intelligence artificielle, marquant ainsi le dernier effort pour remédier au manque de transparence dans le développement de l'IA générative. La loi TRAIN (Transparency and Responsibility for Artificial Intelligence Networks) permettrait aux détenteurs de droits d'auteur d'exiger la communication des dossiers de formation des modèles d'intelligence artificielle générative, si le détenteur peut déclarer qu'il croit de bonne foi que son travail a été utilisé pour former le modèle.
Les développeurs n'auraient à révéler que le matériel d'entraînement « suffisant pour déterminer avec certitude » si les œuvres du détenteur des droits d'auteur ont été utilisées. En cas de non-respect de cette obligation, la loi présumerait - jusqu'à preuve du contraire - que le développeur de l'IA a effectivement utilisé l'œuvre protégée par le droit d'auteur.
Le sénateur Peter Welch (D-Vt), qui a présenté le projet de loi jeudi, a déclaré que le pays devait « établir une norme plus élevée en matière de transparence » alors que l'IA continue de s'intégrer dans la vie des Américains.
« C'est simple : si votre travail est utilisé pour former l'intelligence artificielle, vous, en tant que détenteur des droits d'auteur, devriez pouvoir déterminer s'il a été utilisé par un modèle de formation, et vous devriez être indemnisé si c'est le cas », a déclaré Welch dans un communiqué. « Nous devons donner aux musiciens, artistes et créateurs américains un outil pour savoir quand les entreprises d'IA utilisent leur travail pour former des modèles sans l'autorisation des artistes. »
L'explosion des technologies d'IA générative accessibles a entraîné une série de questions juridiquesCopyright owners don't have a reliable way to determine if their work is being used without permission by artificial intelligence companies.
— Senator Peter Welch (@SenPeterWelch) November 25, 2024
That’s why I’ve introduced a bill that helps creators obtain information to determine if their works were used to train AI models. pic.twitter.com/D5fivzjW14
L'explosion des technologies d'IA générative accessibles a déclenché une série de questions juridiques et éthiques pour les artistes, qui craignent que ces outils permettent à d'autres de recréer leurs œuvres sans consentement, crédit ou compensation.
Bien que de nombreux grands développeurs d'IA ne révèlent pas publiquement les données d'entraînement de leurs modèles, une feuille de calcul virale de Midjourney a donné du crédit aux préoccupations des artistes au début de l'année en énumérant des milliers de personnes dont le travail a été utilisé pour entraîner son populaire générateur d'art d'IA.
Les entreprises qui s'appuient sur le travail créatif humain ont également tenté de s'attaquer aux développeurs d'IA.
Ces dernières années, des organes de presse comme le New York Times et le Wall Street Journal ont poursuivi en justice des sociétés d'IA telles qu'OpenAI et Perplexity AI pour violation des droits d'auteur. En juin, les plus grandes maisons de disques du monde se sont associées pour poursuivre en justice deux grandes sociétés d'IA spécialisées dans la création musicale, au motif qu'elles avaient entraîné leurs modèles sur des dizaines d'années d'enregistrements sonores protégés par le droit d'auteur, sans leur consentement.
Alors que les tensions juridiques s'intensifient, plus de 36 000 professionnels de la création, dont l'actrice oscarisée Julianne Moore, l'auteur James Patterson et Thom Yorke de Radiohead, ont signé une lettre ouverte demandant instamment l'interdiction d'utiliser l'art humain pour entraîner l'IA sans autorisation.
Il n'existe pas encore de législation fédérale globale pour réglementer le développement de l'IA, bien que plusieurs États aient tenté de faire adopter des réglementations spécifiques liées à l'IA, notamment en ce qui concerne les « deepfakes » (contrefaçons profondes). En septembre, la Californie a adopté deux projets de loi visant à protéger les acteurs et autres interprètes contre l'utilisation non autorisée de leur image numérique.
Des projets de loi similaires ont été présentés au Congrès, notamment la loi bipartisane « NO FAKES », qui vise à protéger les ressemblances humaines contre les reproductions numériques non consensuelles, et la loi « AI CONSENT », qui obligerait les plateformes en ligne à obtenir un consentement éclairé avant d'utiliser les données personnelles des consommateurs pour entraîner l'IA. Aucune de ces deux lois n'a été votée jusqu'à présent.
Dans un communiqué de presse, Welch a déclaré que la loi TRAIN avait été approuvée par plusieurs organisations, dont la Screen Actors Guild-American Federation of Television and Radio Artists (SAG-AFTRA), l'American Federation of Musicians et la Recording Academy, ainsi que par les principales maisons de disques, dont Universal Music Group, Warner Music Group et Sony Music Group.
Il ne reste cependant que quelques semaines au Congrès et les membres se concentrent sur des priorités incontournables, comme éviter la fermeture du gouvernement le 20 décembre. Le bureau de Welch a déclaré qu'il prévoyait de réintroduire le projet de loi l'année prochaine, car toute loi non adoptée devra être réintroduite dans le nouveau Congrès lorsqu'il se réunira au début du mois de janvier.
OpenAI assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur
OpenAI supplie le Parlement britannique de l'autoriser à utiliser des œuvres protégées par le droit d'auteur, car il lui serait « impossible » d'entraîner ses modèles d'intelligence artificielle - et de poursuivre la croissance de son entreprise, qui pèse plusieurs milliards de dollars - sans ces œuvres.
La société d'intelligence artificielle a déclaré dans un document soumis à une sous-commission de la Chambre des Lords que l'utilisation exclusive de contenus du domaine public serait insuffisante pour entraîner le type de grands modèles de langage (LLM) qu'elle construit, suggérant que l'entreprise doit donc être autorisée à utiliser du matériel protégé par le droit d'auteur.
« Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur », a écrit l'entreprise dans son dossier de preuves. « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui ».
OpenAI poursuit en insistant dans le document, soumis au comité des communications et du numérique de la Chambre des Lords, sur le fait qu'elle se conforme aux lois sur le droit d'auteur et qu'elle estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement ».
OpenAI a toutefois admis qu'il y avait « encore du travail à faire pour soutenir les créateurs et leur donner les moyens d'agir ». L'entreprise a évoqué les moyens mis en œuvre pour permettre aux éditeurs d'empêcher le robot GPTBot d'accéder à leurs sites web. Elle a également indiqué qu'elle mettait au point des mécanismes supplémentaires permettant aux titulaires de droits de se retirer de la formation et qu'elle s'engageait avec eux à trouver des accords mutuellement bénéfiques.
Dans certaines des actions en justice intentées contre OpenAI et Microsoft, les plaignants accusent les sociétés de refuser de payer les auteurs pour leur travail tout en construisant une industrie d'un milliard de dollars et en profitant d'un énorme gain financier à partir de matériel protégé par le droit d'auteur. Dans un cas, déposé par un couple d'auteurs de non-fiction, il est soutenu que les entreprises auraient pu explorer d'autres options de financement, telles que la participation aux bénéfices, mais qu'elles ont « décidé de voler » à la place.
OpenAI n'a pas abordé ces poursuites particulières, mais elle a répondu directement à la plainte du New York Times qui l'accuse d'utiliser sans autorisation les articles de presse qu'il a publiés. Le quotidien ne dit pas toute l'histoire, a déclaré OpenAI. L'entreprise était déjà en train de négocier avec le Times un « partenariat de grande valeur » qui lui donnerait accès aux articles de la publication. Les deux parties sont apparemment restées en contact jusqu'au 19 décembre, et OpenAI n'a appris l'existence du procès que le mois suivant, en lisant un article sur le Times.
En attendant, selon des documents judiciaires récents, OpenAI aurait supprimé des informations importantes qui auraient pu être utilisées comme preuve dans l'affaire. Bien que l’entreprise affirme que cette suppression n’était pas intentionnelle, elle pourrait avoir des répercussions importantes sur le déroulement du procès.
Un enjeu de taille pour les entreprises technologiques
En clair, si cette législation est adoptée, elle pourrait représenter un défi pour les grandes entreprises de la tech, telles que OpenAI, Google ou Microsoft. Ces acteurs, qui investissent des milliards dans le développement de technologies avancées, pourraient voir leurs pratiques exposées au public, un scénario qu’ils cherchent généralement à éviter pour des raisons de concurrence.
Cela n'empêchent pas certains experts de saluer cette proposition, estimant qu’elle pourrait instaurer un climat de confiance entre les entreprises technologiques et le grand public. « Une transparence accrue permettra de limiter les abus et de s’assurer que l’IA est développée dans l’intérêt commun », a déclaré un analyste spécialisé en régulation technologique.
Un débat qui ne fait que commencer
Ce projet de loi s’inscrit dans un contexte international où les législateurs tentent de rattraper leur retard sur l’évolution rapide des technologies d’IA. L’Union européenne, par exemple, finalise son propre cadre législatif, connu sous le nom d'AI Act, qui impose des normes strictes en matière de transparence et de responsabilité.
Reste à savoir si le Congrès américain soutiendra cette initiative. Avec les enjeux économiques colossaux liés à l'IA et les pressions des lobbys, l’adoption d’une telle loi pourrait se heurter à de nombreux obstacles. Cependant, l’initiative marque un pas important vers une meilleure régulation de technologies qui redéfinissent profondément nos sociétés.
De plus, son projet de loi ne fait pas l'unanimité. Voici certaines réactions d'internautes :
« Cela ne fonctionnera pas, les LLM ont été utilisés pour reformuler des textes protégés par le droit d'auteur, les comparer, les analyser et les transformer avant l'entraînement. Techniquement, le modèle ne s'entraîne donc pas sur des textes protégés par le droit d'auteur, mais l'effet est le même ! »
« Ou ils peuvent le trouver eux-mêmes, comme le reste d'entre nous... Votre ami a-t-il lancé un programme qui avait besoin d'argent ? »Won't work, LLMs have been used to reword copyrighted texts, compare, analyze and transform them prior to training. So technically the model doesn't train on copyrighted texts, but the effect is all the same!
— visarga (@visarga) November 26, 2024
ConclusionOr they could find it themselves just like the rest of us…
— James Wicks (@wicksss) November 25, 2024
Did your friend start a program that needed money?
Face à l'essor rapide de l'IA, ce projet de loi représente une tentative ambitieuse de préserver l’équilibre entre innovation technologique et protection des droits fondamentaux. Si la transparence devient une obligation, elle pourrait contribuer à restaurer la confiance du public tout en garantissant un usage responsable des technologies de demain.
Source : TRAIN Act
Et vous ?
Que pensez-vous de ce projet de loi ? Que pensez-vous des déclarations d'OpenAI qui assure ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur ?
Ce projet de loi vous semble-t-il réalisable ?
Quels seraient les bénéfices concrets pour le grand public et les détenteurs de droit si cette loi était adoptée ?
Les petites entreprises technologiques auront-elles les moyens de se conformer à ces exigences, ou cela profitera-t-il uniquement aux grands groupes disposant de ressources importantes ?
Quelles sanctions pourraient être imposées en cas de non-respect des obligations de transparence ?