IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Un développeur enquête sur les problèmes juridiques liés au fonctionnement de GitHub Copilot, l'assistant de programmation basé sur l'IA,
Prévoyant des poursuites judiciaires

Le , par Stéphane le calme

0PARTAGES

7  0 
GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Récemment, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils enquêtent sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux.

GitHub Copilot, qu'est-ce que c'est ?

Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.


Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

Citation Envoyé par Matthieu Butterick
GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plugin pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».
Quel est le problème avec Copilot ?

Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Ce qui suit est extrait de son billet à ce sujet.

Sur la formation du système

La grande majorité des progiciels open source sont publiés sous des licences qui accordent aux utilisateurs certains droits et imposent certaines obligations (par exemple, en préservant l'attribution précise du code source). Ces licences sont rendues possibles légalement par les auteurs de logiciels faisant valoir leur droit d'auteur sur leur code.

Ainsi, ceux qui souhaitent utiliser des logiciels open source ont le choix. Ils doivent soit :
  • respecter les obligations imposées par la licence, ou
  • utiliser le code sous réserve d'une exception de licence, par exemple, l'utilisation équitable en vertu de la loi sur le droit d'auteur.

Microsoft et OpenAI ont reconnu que Copilot & Codex sont formés sur des logiciels open source dans des dépôts publics sur GitHub. Alors quel choix ont-ils fait ?

Si Microsoft et OpenAI avaient choisi d'utiliser ces référentiels sous réserve de leurs licences open source respectives, Microsoft et OpenAI auraient dû publier de nombreuses attributions, car il s'agit d'une exigence minimale de presque toutes les licences open source. Pourtant, aucune attribution n'est apparente.

Par conséquent, Microsoft et OpenAI doivent s'appuyer sur un argument d'utilisation équitable. En fait, nous savons que c'est le cas, car l'ancien PDG de GitHub, Nat Friedman, a affirmé lors de la Preview technique de Copilot que « la formation des systèmes [d'apprentissage automatique] sur les données publiques est une utilisation équitable ».

Eh bien, n'est-ce pas ? La réponse n'est pas une question d'opinion; c'est une question de droit. Naturellement, Microsoft, OpenAI et d'autres chercheurs ont promu l'argument de l'utilisation équitable. Nat Friedman a en outre affirmé qu'il existe une « jurisprudence » sur l'utilisation équitable qui est « largement invoquée par la communauté de l'apprentissage automatique ». Mais la Software Freedom Conservancy n'était pas d'accord et a pressé Microsoft d'obtenir des preuves pour étayer sa position. Selon le directeur de la SFC, Bradley Kuhn :

« Nous nous sommes renseignés en privé auprès de Friedman et d'autres représentants de Microsoft et de GitHub en juin 2021, demandant de solides références juridiques pour les positions juridiques publiques de GitHub… Ils n'en ont fourni aucune ».

Pourquoi Microsoft n'a-t-elle pu produire aucune autorité légale pour sa position ? Parce que ma SFC a raison : il n'y en a pas. Bien que certains tribunaux aient examiné des questions connexes, il n'existe aucune affaire américaine résolvant carrément les ramifications de l'utilisation équitable de la formation à l'IA.

De plus, les cas qui tournent autour de l'utilisation équitable équilibrent plusieurs facteurs. Même si un tribunal décide finalement que certains types de formation à l'IA sont une utilisation équitable (ce qui semble possible) il peut également en exclure d'autres. À ce jour, nous n'avons aucune idée de la position de Copilot ou de Codex sur ce spectre. Ni celle de Microsoft, encore moins de l'OpenAI.


Sur l'utilisation du système

Nous ne pouvons pas encore dire comment l'utilisation équitable finira par être appliquée à la formation à l'IA. Mais nous savons que la recherche n'affectera pas du tout les utilisateurs de Copilot. Pourquoi ? Parce qu'ils utilisent simplement Copilot pour émettre du code. Alors, quel est le statut du droit d'auteur et de la licence de ce code émis ?

Ici encore, nous constatons que Microsoft devient indulgente. En 2021, Nat Friedman a affirmé que « la sortie de Copilot appartient à l'opérateur, tout comme avec un compilateur ». Mais c'est une analogie malicieuse, car Copilot tend de nouveaux pièges aux imprudents.

Microsoft caractérise la sortie de Copilot comme une série de « suggestions » de code. Microsoft « ne revendique aucun droit » sur ces suggestions. Mais Microsoft ne garantit pas non plus l'exactitude, la sécurité ou l'atténuation des enchevêtrements de propriété intellectuelle du code ainsi produit. Une fois que vous avez accepté une suggestion Copilot, tout cela devient votre problème :

« Vous êtes responsable d'assurer la sécurité et la qualité de votre code. Nous vous recommandons de prendre les mêmes précautions lors de l'utilisation du code généré par GitHub Copilot que lorsque vous utilisez un code que vous n'avez pas écrit vous-même. Ces précautions comprennent des tests rigoureux, une analyse IP [(= propriété intellectuelle)] et un suivi des vulnérabilités de sécurité ».

Quels enchevêtrements pourraient survenir ? Les utilisateurs de Copilot ont montré que Copilot peut être amené à émettre du code verbatim à partir de référentiels identifiables. Pas plus tard que cette semaine, le professeur Texas A&M, Tim Davis, a donné de nombreux exemples de gros morceaux de son code copiés textuellement par Copilot, y compris lorsqu'il a invité Copilot avec le commentaire /* sparse matrix transpose in the style of Tim Davis */L'utilisation de ce code crée clairement une obligation de se conformer à sa licence. Mais comme effet secondaire de la conception de Copilot, les informations sur l'origine du code (auteur, licence, etc.) sont supprimées. Comment les utilisateurs de Copilot peuvent-ils se conformer à la licence s'ils ne savent même pas qu'elle existe ?

Les méthodes de récupération de code astucieuses de Copilot sont un écran de fumée destiné à dissimuler une vérité crasseuse : Copilot n'est qu'une interface alternative pratique à un vaste corpus de code open source. Par conséquent, les utilisateurs de Copilot peuvent encourir des obligations de licence envers les auteurs du code sous-jacent. Dans ce contexte, l'affirmation de Nat Friedman selon laquelle Copilot fonctionne « comme... un compilateur » est plutôt douteuse - les compilateurs changent la forme du code, mais ils n'injectent pas de nouveaux enchevêtrements de propriété intellectuelle. Pour être juste, Microsoft ne conteste pas vraiment cela. L'entreprise le cache juste en l'écrivant en petits caractères.

Que signifie Copilot pour les communautés open source ?

Citation Envoyé par Matthieu Butterick
Quand j'ai écrit pour la première fois sur Copilot, j'ai dit « Je ne suis pas inquiet de ses effets sur l'open source ». À court terme, je ne suis toujours pas inquiet. Mais alors que je réfléchissais à mon propre parcours à travers l'open source - près de 25 ans - j'ai réalisé qu'il me manquait une vue d'ensemble. Après tout, l'open source n'est pas un groupe fixe de personnes. C'est une intelligence collective en constante évolution, continuellement renouvelée par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux défis les uns pour les autres, et augmentons ainsi nos attentes quant à ce que nous pouvons accomplir.

Au milieu de cette grande alchimie, Copilot s'interpose. Son but est de s'arroger l'énergie de l'open source. Nous n'avons pas besoin de plonger dans l'histoire très mouvementée de Microsoft avec l'open source pour voir Copilot pour ce qu'il est : un parasite.

La légalité de Copilot doit être testée avant que les dommages causés à l'open source ne deviennent irréparables. C'est pourquoi j'envisage de l'attaquer en justice.
D'autres développeurs avaient déjà manifesté leur mécontentement

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.


L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Source : Matthew Butterick

Et vous ?

Que pensez-vous de Copilot ?
Partagez-vous les appréhensions de Matthew Butterick concernant l'utilisation du code open source de Copilot qui ne prend pas en considération les licences ?
Comprenez-vous sa démarche visant à porter plainte ? A-t-elle, selon vous, des chances d'aboutir ?

Voir aussi :

GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur
Un enseignant pointe GitHub Copilot comme l'outil parfait pour les tricheurs lors des évaluations de programmation et ravive les craintes sur la disparition du métier de développeur à cause de l'IA
Copilot, l'outil d'IA commercial de GitHub, est critiqué par la communauté du logiciel open source, pour sa reproduction aveugle des blocs de code

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Shalien
Membre du Club https://www.developpez.com
Le 04/11/2022 à 9:25
Citation Envoyé par yahiko Voir le message
En même temps, ceux qui développent en Open Source ne devraient pas s'étonner de voir leur code "pillé". C'est très naïf sinon.
Je ne comprends pas trop cette remarque, open source ne veux pas forcément dire libre. Par exemple, certains de mes codes sur GitHub sont soumis à une licence interdisant leur usage dans un produit commercial sans mon accord écrit.

Oui le pillage est existant et se fait aussi bien au niveau des grands groupes que des petits développeurs mais de là à dire que c'est "normal" et "naïf" de croire que les gens vont respecter les licences je trouve ça aberrant.

En appliquant cette logique aux logiciels commerciaux, ça revient à dire que le piratage est ok ou alors peut être que ça ne s'applique qu'aux produits opensource parce que ils sont open source ?
15  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 07/10/2023 à 20:08
Citation Envoyé par archqt Voir le message
Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"
Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.
9  1 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 23/10/2022 à 16:10
La génération de code existe depuis longtemps. On n'a pas attendu d'avoir des IA pour en faire. Rappelez-vous les éditeurs de code WYSIWYG : on place des blocs dans une fenêtre (champs, boutons, etc.) et il génère le code qui permet de créer ces objets avec ce layout. Un code imbuvable mais qui fait le job.

La génération de code a toujours eu ce soucis de maintenabilité : du code écrit pour la machine doit être maintenu par la machine. Pour que ce soit maintenu par un humain, ce doit être écrit pour un humain. Ce n'est pas juste le résultat qui doit être pour l'humain, mais le code aussi. Les solutions d'IA permettent de faire un pas de plus dans ce sens, car elles permettent de reproduire des pratiques humaines, mais sans régler le problème : elles n'ont pas la logique humaine qui permet de composer tous ces bouts de code pris à droite à gauche. Elles peuvent reproduire un résultat (syntaxe) mais sans en reproduire le raisonnement (sémantique). Il s'agit donc de juger de la pertinence d'une suggestion sur la forme et non sur le fond. On se contente de reproduire ce qu'on a vu, y compris ses erreurs, sans pouvoir faire le tri. C'est là toute la limite des outils d'IA.

Bref, rien de nouveau sous le soleil : la génération de code a toujours les même problèmes, on vient juste combler quelques trous pour que ça se voit moins.
7  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 04/11/2022 à 9:30
Citation Envoyé par yahiko Voir le message
En même temps, ceux qui développent en Open Source ne devraient pas s'étonner de voir leur code "pillé". C'est très naïf sinon.
Tu as quand même une licence autour.

C'est comme pour les peintures ou les photos: tout le monde peut les voir, les prendre en photo, mais les modifier pour faire des thunes dessus dans un contexte autre que le "fair-use", c'est un illégal.

Mais dans le fond, tu as raison: c'est naïf de croire que tout le monde respecte les licences, en commençant par les GAFAM.
5  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 04/11/2022 à 13:48
Un truc qui m’énerve beaucoup avec le machine learning, c'est que si tu n'es pas d'accord pour être inclus dans leurs bases de données, tu n'as aucun recours, ou juste aucun moyen de le faire savoir.
Ça serait bien d'avoir des licences qui interdisent explicitement du contenu d'être utilisées en tant que données d’entraînement. Ou un équivalent des robots.txt pour spécifier certaines contraintes.

Puis comme toujours, qui c'est que ça avantage? Qui est capable d’entraîner des modèles titanesques? Certainement pas de petites entreprises avec un budget limité.
Les petits se font toujours piller par les gros, et ce n'est pas près de s'arrêter avec l'IA, bien au contraire...
4  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de Zefling
Expert confirmé https://www.developpez.com
Le 04/11/2022 à 10:03
Open Source ne veut pas dire libre non plus. Par exemple, le code de l'Unreal Engine est open source, mais il est tout sauf libre. Et je pense pas que Epic soit d'accord pour qu'on y récupère quoi que soit.

Quoi qu'il en soit, s'il y a des licences c'est pas pour rien. Sinon autant rentre tout code libre et sans licences. Mais je suis pas sur que les logiciels en sources fermés sur Github soit ok pour que leurs repos privés ne le soit plus.
3  0 
Avatar de _toma_
Membre confirmé https://www.developpez.com
Le 08/10/2023 à 18:28
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :
L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.
Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
4  1