La plainte accusant l'outil IA Copilot d'avoir « piraté » du code open-source est contestée par GitHub, Microsoft et OpenAI

Qui demandent au tribunal de rejeter la proposition de recours collectif

Le 30 janvier 2023 à 00:17, par Stéphane le calme

176PARTAGES

Microsoft, GitHub et OpenAI veulent que le tribunal rejette une proposition de recours collectif qui accuse les entreprises de se servir du code sous licence pour créer l'outil Copilot alimenté par l'IA de GitHub. Selon des documents soumis à un tribunal fédéral de San Francisco, GitHub et OpenAI, propriété de Microsoft, assurent que les affirmations décrites dans la poursuite ne tiennent pas.

Lancé en Preview en 2021, Copilot exploite la technologie d'OpenAI pour générer et suggérer des lignes de code directement dans l'éditeur de code d'un développeur. L'outil, qui est formé sur le code accessible au public de GitHub, a suscité des inquiétudes quant à savoir s'il enfreint les lois sur le droit d'auteur peu après sa sortie.

Les choses ont atteint leur paroxysme lorsque le développeur et avocat, Matthew Butterick, s'est associé à l'équipe juridique du cabinet d'avocats Joseph Saveri pour déposer une proposition de recours collectif en novembre dernier, alléguant que l'outil repose sur « le piratage de logiciels à une échelle sans précédent ». Butterick et son équipe juridique ont ensuite déposé un deuxième recours collectif proposé au nom de deux développeurs de logiciels anonymes pour des motifs similaires, ce que Microsoft, GitHub et OpenAI veulent rejeter.

GitHub Copilot, qu'est-ce que c'est ?

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

Envoyé par Matthieu Butterick

GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plug-in pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».

Des développeurs ont manifesté leur mécontentement

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

Envoyé par Matthieu Butterick

Quand j'ai écrit pour la première fois sur Copilot, j'ai dit « Je ne suis pas inquiet de ses effets sur l'open source ». À court terme, je ne suis toujours pas inquiet. Mais alors que je réfléchissais à mon propre parcours à travers l'open source - près de 25 ans - j'ai réalisé qu'il me manquait une vue d'ensemble. Après tout, l'open source n'est pas un groupe fixe de personnes. C'est une intelligence collective en constante évolution, continuellement renouvelée par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux défis les uns pour les autres, et augmentons ainsi nos attentes quant à ce que nous pouvons accomplir.

Au milieu de cette grande alchimie, Copilot s'interpose. Son but est de s'arroger l'énergie de l'open source. Nous n'avons pas besoin de plonger dans l'histoire très mouvementée de Microsoft avec l'open source pour voir Copilot pour ce qu'il est : un parasite.

La légalité de Copilot doit être testée avant que les dommages causés à l'open source ne deviennent irréparables.

C'est dans ce contexte qu'il a mené une enquête, en association avec des confrères avocats spécialistes du recours collectif, sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

Microsoft conteste la validité de la plainte

Comme indiqué dans le dossier, Microsoft et GitHub affirment que la plainte « échoue sur deux défauts intrinsèques*: l'absence de préjudice et l'absence d'une réclamation autrement viable », tandis qu'OpenAI dit de la même manière que les plaignants « évoquent une montagne de réclamations qui ne plaident pas des violations de droits légaux reconnus ». Les entreprises affirment que les plaignants s'appuient sur des « événements hypothétiques » pour faire valoir leurs droits et disent qu'ils ne décrivent pas comment ils ont été personnellement blessés par l'outil.

« Copilot ne retire rien du corps du code open source accessible au public », affirment Microsoft et GitHub dans le dossier. « Au lieu de cela, Copilot aide les développeurs à écrire du code en générant des suggestions basées sur ce qu'il a appris de l'ensemble des connaissances glanées dans le code public ».

De plus, Microsoft et GitHub poursuivent en affirmant que les plaignants sont ceux qui « sapent les principes de l'open source » en demandant « une injonction et le paiement de plusieurs milliards de dollars » concernant le « logiciel qu'ils partagent volontairement en open source ».

L'audience du tribunal pour rejeter la poursuite aura lieu en mai.

Une collaboration renforcée

Malgré les défis juridiques potentiels qui entravent les outils alimentés par l'IA, Microsoft a promis des milliards de dollars pour prolonger un partenariat à long terme avec OpenAI.

En 2019, Microsoft a investi un milliard de dollars dans le laboratoire d'intelligence artificielle (IA) OpenAI dans le cadre d'un partenariat pluriannuel. Ce dernier visait à développer des technologies de calcul intensif pilotées par l'IA sur le service de cloud computing Azure de Microsoft. Les produits d'IA d'OpenAI ont bien évolué depuis, notamment avec les lancements de GPT-2 et GTP-3, Dall-E et Dall-E 2, ainsi que plusieurs autres modèles de langages tels que le nouveau chatbot d'IA ChatGPT. Désormais, Microsoft entend profiter des capacités remarquables qu'offrent ces nouvelles technologies, notamment celle qui sous-tend le chatbot ChatGPT.

Il faut dire que l'entreprise a récemment injecté plusieurs milliards de dollars dans OpenAI.

« Nous avons formé notre partenariat avec OpenAI autour d'une ambition commune de faire progresser de manière responsable la recherche de pointe en intelligence artificielle et de la démocratiser en tant que nouvelle plateforme technologique », a déclaré le PDG de Microsoft, Satya Nadella, dans un billet de blog. Parallèlement, OpenAI a confirmé avoir reçu un « investissement pluriannuel de plusieurs milliards de dollars » de la part de Microsoft. « Microsoft partage notre vision et nos valeurs, et notre partenariat est essentiel à notre progression », a écrit OpenAI, la startup d'IA cofondée par Elon Musk et l'investisseur Sam Altman.

Microsoft chercherait actuellement le moyen d'ajouter les capacités du chatbot ChatGPT d'OpenAI à son moteur de recherche Bing dans le but d'attirer les utilisateurs de son rival Google. Les capacités conversationnelles de ChatGPT pourraient donner davantage de possibilités à Microsoft pour améliorer l'expérience des utilisateurs de Bing. Une source au fait des plans de Microsoft a rapporté que l'entreprise pourrait lancer cette nouvelle version de Bing avant la fin du mois de mars.

La firme de Redmond aurait fait le pari selon lequel les réponses plus conversationnelles et contextuelles aux requêtes séduiront les utilisateurs de son moteur de recherche Bing en fournissant des réponses de meilleure qualité au-delà des liens. Toutefois, une personne connaissant le dossier, qui n'a pas voulu être nommée, a déclaré que la société évalue toujours la précision du chatbot ChatGPT et la rapidité avec laquelle il peut être intégré au moteur de recherche.

Dans un billet de blog l'année dernière, Microsoft a déclaré qu'il prévoyait d'intégrer le logiciel de génération d'images d'OpenAI, DALL-E 2, dans Bing.

L'entreprise envisage également d'apporter la technologie de l'IA à Word, PowerPoint et Outlook, et souhaite ajouter le chatbot AI, ChatGPT, à Bing.

Conclusion

Avec d'autres entreprises qui se penchent également sur l'IA, Microsoft, GitHub et OpenAI ne sont pas les seuls à faire face à des problèmes juridiques. Plus tôt ce mois-ci, le cabinet d'avocats Butterick et Joseph Saveri a intenté une autre action en justice alléguant que les outils d'art d'IA créés par MidJourney, Stability AI et DeviantArt violent les lois sur le droit d'auteur en pratiquant illégalement du web scraping sur le travail d'artistes disponible sur Internet. Getty Images poursuit également Stability AI pour avoir prétendu que l'outil Stable Diffusion de la société avait illégalement fait du web scraping des images du site.

Sources : requête en rejet de Microsoft et OpenAI, requête en rejet d'OpenAI

Et vous ?

Avez-vous déjà utilisé Copilot ? Qu'en pensez-vous ?

Les plaintes formulées par Matthieu Butterick vous semblent-elles fondées ? Pourquoi ?

Partagez-vous le point de vue de Microsoft, GitHub et OpenAI ? Dans quelle mesure ?

Vous avez lu gratuitement 18 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La plainte accusant l'outil IA Copilot d'avoir « piraté » du code open-source est contestée par GitHub, Microsoft et OpenAI

Qui demandent au tribunal de rejeter la proposition de recours collectif

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La plainte accusant l'outil IA Copilot d'avoir « piraté » du code open-source est contestée par GitHub, Microsoft et OpenAI Qui demandent au tribunal de rejeter la proposition de recours collectif

La plainte accusant l'outil IA Copilot d'avoir « piraté » du code open-source est contestée par GitHub, Microsoft et OpenAI

Qui demandent au tribunal de rejeter la proposition de recours collectif