Un développeur porte plainte contre GitHub Copilot, le décrivant comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent».

Il vise le statut de recours collectif

Le 4 novembre 2022 à 07:49, par Stéphane le calme

194PARTAGES

GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Récemment, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

GitHub Copilot, qu'est-ce que c'est ?

Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

Envoyé par Matthieu Butterick

GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plug-in pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».

Quel est le problème avec Copilot ?

Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Ce qui suit est extrait de son billet à ce sujet.

Sur la formation du système

La grande majorité des progiciels open source sont publiés sous des licences qui accordent aux utilisateurs certains droits et imposent certaines obligations (par exemple, en préservant l'attribution précise du code source). Ces licences sont rendues possibles légalement par les auteurs de logiciels faisant valoir leur droit d'auteur sur leur code.

Ainsi, ceux qui souhaitent utiliser des logiciels open source ont le choix. Ils doivent :

soit respecter les obligations imposées par la licence ;
soit utiliser le code sous réserve d'une exception de licence, par exemple, l'utilisation équitable en vertu de la loi sur le droit d'auteur.

Microsoft et OpenAI ont reconnu que Copilot & Codex sont formés sur des logiciels open source dans des dépôts publics sur GitHub. Alors quel choix ont-ils fait ?

Si Microsoft et OpenAI avaient choisi d'utiliser ces référentiels sous réserve de leurs licences open source respectives, Microsoft et OpenAI auraient dû publier de nombreuses attributions, car il s'agit d'une exigence minimale de presque toutes les licences open source. Pourtant, aucune attribution n'est apparente.

Par conséquent, Microsoft et OpenAI doivent s'appuyer sur un argument d'utilisation équitable. En fait, nous savons que c'est le cas, car l'ancien PDG de GitHub, Nat Friedman, a affirmé lors de la Preview technique de Copilot que « la formation des systèmes [d'apprentissage automatique] sur les données publiques est une utilisation équitable ».

Eh bien, n'est-ce pas ? La réponse n'est pas une question d'opinion ; c'est une question de droit. Naturellement, Microsoft, OpenAI et d'autres chercheurs ont promu l'argument de l'utilisation équitable. Nat Friedman a en outre affirmé qu'il existe une « jurisprudence » sur l'utilisation équitable qui est « largement invoquée par la communauté de l'apprentissage automatique ». Mais la Software Freedom Conservancy n'était pas d'accord et a pressé Microsoft d'obtenir des preuves pour étayer sa position. Selon le directeur de la SFC, Bradley Kuhn :

« Nous nous sommes renseignés en privé auprès de Friedman et d'autres représentants de Microsoft et de GitHub en juin 2021, demandant de solides références juridiques pour les positions juridiques publiques de GitHub… Ils n'en ont fourni aucune »....

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :