IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Un développeur poursuit Microsoft, GitHub et OpenAI pour une technologie d'IA qui génère du code semblant identique aux programmes existants.
Copilot s'appuie sur du code publié sur GitHub

Le , par Stéphane le calme

11PARTAGES

30  0 
Comme beaucoup d'I.A. de technologies de pointe, Copilot a développé ses compétences en analysant de grandes quantités de données. Dans ce cas, il s'appuyait sur des milliards de lignes de code informatique publiées sur Internet. Matthew Butterick, un développeur, assimile ce processus à du piratage, car le système ne reconnaît pas sa dette envers le travail existant. Dans une plainte contre Microsoft, il estime que l'entreprise et ses collaborateurs ont violé les droits légaux de millions de programmeurs qui ont passé des années à écrire le code original.

GitHub Copilot, qu'est-ce que c'est ?

Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.


Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

De nombreux développeurs ont accueilli favorablement le nouvel outil ou ont au moins été intrigués par celui-ci. Mais Matthew Butterick, développeur, designer, écrivain et avocat à Los Angeles, n'était pas l'un d'entre eux. Et il a expliqué pourquoi :

Citation Envoyé par Matthieu Butterick
GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plugin pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».
Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Avec d'autres avocats, il a mené une enquête sur les problèmes juridiques liés au fonctionnement de GitHub Copilot au terme de laquelle il a décidé de porter plainte en recherchant le statut de recours collectif :

En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
  • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
  • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
  • la loi californienne sur la protection de la vie privée des consommateurs ;
  • et d'autres lois donnant lieu à des réclamations légales connexes.

Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.
Entraînement / formation des systèmes boostés à l'IA sans compensation ni consentement

La poursuite judiciaire semble être la première attaque légale contre une technique de conception appelée « entraînement/ formation d'IA ». Ces dernières années, de nombreux artistes, écrivains, experts et militants de la vie privée se sont plaints que les entreprises forment leurs systèmes d'IA en utilisant des données qui ne leur appartiennent pas.

La plainte trouve des échos dans les dernières décennies de l'industrie technologique. Dans les années 1990 et dans les années 2000, Microsoft a combattu la montée des logiciels open source, les considérant comme une menace existentielle pour l'avenir des activités de l'entreprise. Au fur et à mesure que l'importance de l'open source augmentait, Microsoft l'a adopté et a même acquis GitHub, une maison pour les développeurs open source et un endroit où ils ont construit et stocké leur code.

Presque toutes les nouvelles générations de technologies, même les moteurs de recherche en ligne, ont été confrontées à des défis juridiques similaires. Souvent, « il n'y a pas de loi ou de jurisprudence qui le couvre », a déclaré Bradley J. Hulbert, un avocat spécialisé en propriété intellectuelle dans ce domaine du droit de plus en plus important.

La poursuite judiciaire fait partie d'une vague d'inquiétude concernant l'intelligence artificielle. Les artistes, écrivains, compositeurs et autres créateurs craignent de plus en plus que les entreprises et les chercheurs utilisent leur travail pour créer de nouvelles technologies sans leur consentement et sans compensation. Les entreprises forment une grande variété de systèmes de cette manière, y compris des générateurs d'art, des systèmes de reconnaissance vocale comme Siri et Alexa, et même des voitures sans conducteur.

Copilot est basé sur une technologie développée par OpenAI, un laboratoire d'intelligence artificielle à San Francisco soutenu par un financement d'un milliard de dollars de Microsoft. OpenAI est à l'avant-garde de l'effort de plus en plus répandu pour former les technologies d'intelligence artificielle à l'aide de données numériques.

Après que Microsoft et GitHub ont publié Copilot, le directeur général de GitHub, Nat Friedman, a tweeté que l'utilisation du code existant pour former le système était une « utilisation équitable » du matériel en vertu de la loi sur le droit d'auteur, un argument souvent utilisé par les entreprises et les chercheurs qui ont construit ces systèmes. Mais aucune affaire judiciaire n'a encore testé cet argument.


« Les ambitions de Microsoft et OpenAI vont bien au-delà de GitHub et Copilot », a déclaré M. Butterick dans une interview. « Ils veulent s'entraîner sur n'importe quelle donnée n'importe où, gratuitement, sans consentement, pour toujours ».

En 2020, OpenAI a dévoilé un système appelé GPT-3. Les chercheurs ont formé le système en utilisant d'énormes quantités de texte numérique, y compris des milliers de livres, des articles de Wikipédia, des journaux de discussion et d'autres données publiées sur Internet.

En identifiant des modèles dans tout ce texte, ce système a appris à prédire le mot suivant dans une séquence. Lorsque quelqu'un tapait quelques mots, l'outil pouvait faire des suggestions de paragraphes entiers de texte. De cette façon, le système pourrait écrire ses propres publications, discours, poèmes et articles de presse sur Twitter.

À la grande surprise des chercheurs qui ont construit le système, il pouvait même écrire des programmes informatiques, ayant apparemment appris d'un nombre incalculable de programmes publiés sur Internet.

OpenAI est donc allé plus loin en formant un nouveau système, Codex, sur une nouvelle collection de données stockées spécifiquement avec du code. Au moins une partie de ce code, a déclaré le laboratoire plus tard dans un document de recherche détaillant la technologie, provenait de GitHub, détenu et exploité par Microsoft.

Ce nouveau système est devenu la technologie sous-jacente de Copilot, que Microsoft a fait tester aux développeurs sur GitHub. Après avoir été testé avec un nombre relativement restreint de développeurs pendant environ un an, Copilot a été déployé auprès de tous les développeurs sur GitHub en juillet.

Copilot a le pouvoir de détruire la communauté open source, selon Butterick

Pour l'instant, le code produit par Copilot est simple et pourrait être utile à un projet plus vaste, mais doit être amélioré, ont déclaré de nombreux développeurs qui ont utilisé la technologie. Certains développeurs ne le trouvent utile que s'ils apprennent à coder ou essaient de maîtriser un nouveau langage.

Pourtant, Butterick craignait que Copilot ne finisse par détruire la communauté mondiale des développeurs qui ont construit le code au cœur de la plupart des technologies modernes. Quelques jours après la sortie du système, il a publié un article de blog intitulé : « Ce Copilot est stupide et veut me tuer ».

Butterick s'identifie comme un développeur open source, faisant partie de la communauté des développeurs qui partagent ouvertement leur code avec le monde. Au cours des 30 dernières années, les logiciels open source ont contribué à l'essor de la plupart des technologies que les consommateurs utilisent chaque jour, notamment les navigateurs Web, les smartphones et les applications mobiles.

Bien que les logiciels open source soient conçus pour être partagés librement entre les développeurs et les entreprises, ce partage est régi par des licences conçues pour garantir qu'il est utilisé de manière à bénéficier à la communauté élargie des développeurs. Butterick pense que Copilot a violé ces licences et, au fur et à mesure de son amélioration, rendra les développeurs open source obsolètes.

Après s'être plaint publiquement de la question pendant plusieurs mois, il a mené une enquête avec une poignée d'autres avocats. La poursuite judiciaire en est encore à ses débuts et n'a pas encore obtenu le statut de recours collectif par le tribunal.

À la surprise de nombreux experts juridiques, la poursuite de Butterick n'accuse pas Microsoft, GitHub et OpenAI de violation du droit d'auteur. Sa plainte prend une approche différente, arguant que les entreprises ont violé les conditions d'utilisation et les politiques de confidentialité de GitHub tout en enfreignant une loi fédérale qui oblige les entreprises à afficher les informations de droit d'auteur lorsqu'elles utilisent du matériel.

Butterick et un autre avocat à l'origine de la poursuite, Joe Saveri, ont déclaré que la poursuite pourrait éventuellement résoudre le problème du droit d'auteur.

Lorsqu'il lui a été demandé si l'entreprise pouvait discuter de la poursuite, un porte-parole de GitHub a refusé, avant de dire dans un communiqué que l'entreprise s'était « engagée à innover de manière responsable avec Copilot depuis le début, et continuera à faire évoluer le produit pour mieux servir les développeurs à travers le monde »le procès.

En vertu des lois existantes, la plupart des experts pensent que la formation d'un A.I. système sur le matériel protégé par le droit d'auteur n'est pas nécessairement illégal. Mais cela pourrait être le cas si le système finit par créer du matériel sensiblement similaire aux données sur lesquelles il a été formé.

Certains utilisateurs de Copilot ont déclaré qu'il génère du code qui semble identique - ou presque identique - aux programmes existants, une observation qui pourrait devenir la partie centrale du cas de Butterick et d'autres.

Pam Samuelson, professeur à l'Université de Californie à Berkeley, spécialisée dans la propriété intellectuelle et son rôle dans la technologie moderne, a déclaré que les penseurs juridiques et les régulateurs avaient brièvement exploré ces questions juridiques dans les années 1980, avant que la technologie n'existe. Maintenant, dit-elle, une évaluation juridique est nécessaire. « Nous n'en sommes plus au problème théorique », a déclaré le Dr Samuelson.

Source : Matthew Butterick (1, 2)

Et vous ?

Que pensez-vous de Copilot ?
Comprenez-vous pourquoi Matthew Butterick s'attaque à Microsoft en justice et cherche le recours collectif ? Êtes-vous favorable à cette démarche ? Pourquoi ?
Partagez-vous son point de vue selon lequel Copilot, sous sa forme actuelle, pourrait rendre obsolètes les développeurs open source ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 08/04/2024 à 10:48
Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

9  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 07/10/2023 à 20:08
Citation Envoyé par archqt Voir le message
Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"
Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.
9  1 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 08/04/2024 à 21:24
Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok
4  0 
Avatar de _toma_
Membre confirmé https://www.developpez.com
Le 08/10/2023 à 18:28
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :
L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.
Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
4  1 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 23/08/2023 à 13:11
Citation Envoyé par totozor
autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/09/2023 à 13:24
Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.
2  0 
Avatar de JRM73
Membre à l'essai https://www.developpez.com
Le 10/10/2023 à 14:35
@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

2  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 10/10/2023 à 22:27
Citation Envoyé par _toma_ Voir le message
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 30/01/2023 à 19:04
Bien sur qu'ils contestent, quelle blague sérieux.

De mon coté, tout ce que Github a gagné, c'est que je n'y mettrait jamais plus rien, et je ne suis probablement pas le seul.

Cela fait aussi se questionner sur le libre.

Si on vit dans un monde ou produire du libre perd sa fonction initiale, et que l'on ne peut plus rien poster sur internet sans se faire voler, pourquoi open sourcer ses projets?
Parce que bon, copilot semble se limiter actuellement à Github. Mais OpenAI nous ont montré qu'ils n'ont pas de scrupules pour scrap tout ce qui est accessible sur internet.

Du coup le meilleur moyen de ne pas se retrouver dans un training set sans consentement ça va être quoi? Ne plus rien poster? Mettre des paywalls partout?
Il est beau le futur d'internet.
1  0