Des chercheurs ont été en mesure de contourner les mesures prises par OpenAI pour empêcher ChatGPT de divulguer des informations personnelles qu'il a « apprises », fussent-elles disponibles publiquement sur internet. Pour se faire, ils se sont appuyé sur l'API mise à disposition par la société pour les développeurs. La vulnérabilité est particulièrement préoccupante car personne, à l'exception d'un nombre limité d'employés d'OpenAI, ne sait vraiment ce qui se cache dans la mémoire des données de formation de ChatGPT.Un journaliste du New-York Times a indiqué : le mois dernier, j'ai reçu un e-mail inquiétant d'une personne que je ne connaissais pas; Rui Zhu, titulaire d'un doctorat à l'Université de l'Indiana à Bloomington. Zhu avait mon adresse e-mail, a-t-il déclaré, parce que GPT-3.5 Turbo, l'un des modèles de langage étendus (LLM) les plus récents et les plus robustes d'OpenAI, la lui avait livrée. Mes coordonnées figuraient dans une liste d'adresses e-mail professionnelles et personnelles de plus de 30 employés du New York Times qu'une équipe de recherche comprenant Zhu a réussi à extraire de GPT-3.5 Turbo à l'automne de cette année. Avec un peu de travail, l’équipe « a pu contourner les restrictions du modèle concernant la réponse aux questions liées à la confidentialité », a écrit Zhu.
Et le journaliste de déclarer : « Mon adresse e-mail n'est pas un secret. Mais le succès de l’expérience des chercheurs devrait sonner l’alarme car il révèle le potentiel de ChatGPT en particulier, et des outils d'IA générative en général, pour révéler des informations personnelles beaucoup plus sensibles avec juste quelques ajustements ».
Lorsque vous posez une question à ChatGPT, il ne se contente pas de rechercher sur le Web pour trouver la réponse. Au lieu de cela, il s’appuie sur ce qu’il a « appris » de tonnes d’informations – les données de formation qui ont été utilisées pour alimenter et développer le modèle – pour en générer une. Les LLM s'entraînent sur de grandes quantités de textes, qui peuvent inclure des informations personnelles extraites d'Internet et d'autres sources.
Ces données de formation indiquent comment l'outil IA fonctionne, mais ne sont pas censée être rappelée textuellement. En théorie, plus de données sont ajoutées à un L.L.M., plus les souvenirs des anciennes informations sont enfouis profondément dans les recoins du modèle. Un processus connu sous le nom d’oubli catastrophique peut conduire un L.L.M. à considérer les informations apprises précédemment comme moins pertinentes lorsque de nouvelles données sont ajoutées. Ce processus peut être bénéfique lorsque vous souhaitez que le modèle « oublie » des éléments tels que des informations personnelles.
Cependant, Zhu et ses collègues, entre autres, ont récemment découvert que la mémoire des L.L.M., tout comme celle des humains, pouvait être rafraîchie. Par exemple, vous pourriez avoir mémorisé un poème très jeune et avoir du mal à vous en souvenir plus tard; au fil des années, vous avez peut-être oublié la plupart des lignes et n'êtes plus en mesure de les réciter. Mais vous pourrez peut-être vous souvenir des autres lignes si quelqu'un vous en fournissait une pour vous rafraîchir la mémoire. L'information est toujours dans votre mémoire même si vous pensiez qu'elle avait disparu. Un vers du poème qui a disparu est réintroduit. Même si vous pouvez vous tromper sur quelques mots, la plupart de ce dont vous vous souvenez sera probablement toujours correct. Quatre lignes de le poème entourant la ligne réintroduite apparaît et, pour la plupart, ils contiennent le même texte que les lignes originales.
Dans le cas de l'expérience qui a révélé mes coordonnées, les chercheurs de l'Université d'Indiana ont donné à GPT-3.5 Turbo une courte liste de noms et d'adresses e-mail des employés du New York Times, ce qui a amené le modèle à renvoyer des résultats similaires à ceux de ses données d'entraînement. Tout comme la mémoire humaine, le rappel de GPT-3.5 Turbo n'était pas parfait.
Les garanties mises en place pour demander directement à ChatGPT les informations personnelles d'une personne, comme les adresses e-mail, les numéros de téléphone ou les numéros de sécurité sociale, vont produire une réponse standardisée. Zhu et ses collègues ne travaillaient pas directement avec l'interface publique standard de ChatGPT, mais plutôt avec son interface de programmation d'applications, ou API, que les programmeurs externes peuvent utiliser pour interagir avec GPT-3.5 Turbo. Le processus qu'ils ont utilisé, appelé réglage fin, est destiné à permettre aux utilisateurs de donner un L.L.M. plus de connaissances sur un domaine spécifique, comme la médecine ou la finance. Mais comme Zhu et ses collègues l’ont découvert, il peut également être utilisé pour déjouer certaines des défenses intégrées à l’outil. Les demandes qui seraient généralement refusées dans l'interface ChatGPT ont été acceptées. « Ils ne disposent pas des protections sur les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
