Selon les messages internes de Slack qui ont été divulgués à Insider, un avocat d'Amazon a déclaré aux travailleurs qu'ils avaient « déjà vu des exemples » de texte généré par ChatGPT qui ressemblaient « étroitement » aux données internes de l'entreprise. Ce problème semble avoir atteint son paroxysme récemment parce que les employés d'Amazon et d'autres techniciens de l'industrie ont commencé à utiliser ChatGPT comme une sorte « d'assistant de codage » pour les aider à écrire ou à améliorer des chaînes de code, note le rapport.
Bien que ce ne soit pas nécessairement un problème du point de vue des données propriétaires, c'est une autre histoire lorsque les employés commencent à utiliser l'IA pour améliorer le code interne existant - ce qui se produit déjà, selon l'avocat.
« Ceci est important car vos entrées peuvent être utilisées comme données de formation pour une nouvelle itération de ChatGPT », a écrit l'avocat dans les messages Slack consultés par Insider, « et nous ne voudrions pas que sa sortie inclue ou ressemble à nos informations confidentielles ».
L'avocat a également révélé, selon Insider, qu'Amazon développait une « technologie similaire » à ChatGPT - une révélation qui a semblé piquer l'intérêt des employés qui ont déclaré que l'utilisation de l'IA pour aider à l'écriture de code avait décuplé la productivité. « S'il existe une initiative en cours pour créer un service similaire », a déclaré un employé dans les échanges Slack, « je serais intéressé à consacrer du temps pour aider à la développer si nécessaire ».
Alors que d'autres industries s'agitent et s'agitent à l'idée d'être remplacées par l'IA, les travailleurs de la technologie sont apparemment plus enclins à l'accueillir comme un outil de codage utile, au grand désarroi des avocats de leurs employeurs.
Une situation qui pourrait rappeler celle avec Copilot
Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.
GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.
Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.
Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.
Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.
Et Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, d'expliquer :
Envoyé par Matthieu Butterick
Aujourd'hui, nous avons déposé un recours collectif devant le tribunal fédéral américain de San Francisco, en Californie, au nom d'un groupe proposé de millions d'utilisateurs de GitHub. Nous contestons la légalité de GitHub Copilot (et d'un produit connexe, OpenAI Codex, qui alimente Copilot). La poursuite a été déposée contre un ensemble de défendeurs qui comprend GitHub, Microsoft (propriétaire de GitHub) et OpenAI.
En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)
En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)
Et vous ?
Êtes-vous surpris de voir des informations confidentielles circuler suite à l'utilisation de ChatGPT ?
Un cas de figure que vous aviez anticipé ?
Quelle serait, selon vous, la meilleure réponse qu'Amazon (dans le cas d'espèce) ou une autre entreprise (de façon plus générale) pourrait apporter à l'utilisation de ce type d'outil par ses collaborateurs ?