Le chatbot ELIZA des années 1960 a surpassé le modèle GPT-3.5 d'OpenAI lors d'un récent test de Turing, selon une étude de chercheurs de l'université de San Diego. L'article, intitulé Does GPT-4 Pass the Turing Test ?, a évalué la capacité des modèles d'IA GPT-4, GPT-3.5 et ELIZA à convaincre les participants qu'ils étaient des êtres humains. Surprenamment, ELIZA, un programme des années 1960, a obtenu un taux de réussite de 27 %, surpassant le GPT-3.5 qui a obtenu 14 %. Le GPT-4 a atteint un taux de réussite de 41 %, juste derrière les humains.Les auteurs de l'étude soulignent des limitations, notamment le biais potentiel de l'échantillon recruté sur les médias sociaux. Ils notent que le test de Turing reste pertinent pour évaluer l'interaction sociale fluide et la tromperie des machines, bien que ses résultats puissent être critiqués. L'article soulève des questions sur l'utilisation du test de Turing pour mesurer l'intelligence des machines et met en lumière les différences de stratégies entre les modèles d'IA et les humains pour tromper les interrogateurs.
L'étude remet en question la capacité actuelle des modèles d'IA, y compris le GPT-4, à passer le test de Turing de manière convaincante, tout en soulignant la nécessité de concevoir des prompts plus efficaces. Elle suggère également que l'avenir pourrait voir des modèles d'IA dépasser les performances humaines dans la tromperie, avec des implications intéressantes pour les interactions sociales.
Test de Turing : Entre Défis et Pertinence Sociale dans l'Ère de GPT-4
Turing (1950) a conçu le jeu de l'imitation comme moyen direct de répondre à la question suivante : « Les machines peuvent-elles penser ? » Dans la formulation originale du jeu, deux témoins - un humain et un artificiel - tentent de convaincre un interrogateur qu'ils sont humains par le biais d'une interface textuelle uniquement. Turing pensait que la nature ouverte du jeu, dans lequel les interrogateurs pouvaient poser des questions sur n'importe quel sujet, du romantisme aux mathématiques, constituait un test d'intelligence vaste et ambitieux. Le test de Turing, comme on a commencé à le connaître, a depuis lors suscité un vif débat sur ce qu'on peut dire qu'il mesure (s'il mesure quelque chose) et sur le type de systèmes qui pourraient être capables de le réussir (French, 2000).
Les grands modèles de langage (LLM) tels que GPT-4 (OpenAI, 2023) semblent bien conçus pour le jeu de Turing. Ils produisent des textes naturels fluides et sont presque comparables à une grande variété de tâches basées sur le langage (Chang et Bergen, 2023 ; Wangetal., 2019). En effet, le public a largement spéculé sur le fait que le GPT-4 pourrait passer un test de Turing (Bievere, 2023) ou l'a déjà fait de manière implicite (James, 2023). Nous abordons ici cette question de manière empirique en comparant le GPT-4 à des humains et à d'autres agents linguistiques dans le cadre d'un test de Turing public en ligne.
Le test de Turing, utilisé pour évaluer l'intelligence des machines, a suscité diverses critiques depuis sa création. Certains estiment qu'il est trop facile, permettant aux juges humains d'être trompés par des systèmes superficiels, tandis que d'autres estiment qu'il est trop difficile, demandant aux machines de tromper alors que les humains n'ont qu'à être honnêtes. Certains remettent en question son utilité, suggérant que des repères spécifiques mesurant des capacités particulières seraient plus appropriés.
Cependant, l'auteur souligne que le test de Turing reste pertinent pour évaluer la capacité d'un système à tromper un interlocuteur en le faisant croire qu'il est humain. Cela revêt une importance sociale considérable, avec des implications telles que l'automatisation des rôles en contact avec les clients et la désinformation par des modèles d'IA. Le test permet également d'étudier les facteurs contribuant à la tromperie, tels que la taille du modèle, les techniques d'incitation, l'infrastructure auxiliaire et l'expérience de l'interrogateur.
En outre, le test de Turing offre un cadre pour étudier la compréhension conceptuelle de la ressemblance humaine, révélant implicitement les croyances culturelles, éthiques et psychologiques des participants humains. Malgré les critiques, l'auteur souligne que le test de Turing a des avantages uniques, notamment son caractère illimité et contradictoire, dépassant les limites des repères statiques.
Bien que le test de Turing ne puisse pas fournir des preuves logiquement suffisantes de l'existence de l'intelligence, il demeure un outil important pour évaluer la capacité des machines à tromper les humains, avec des implications significatives dans divers domaines de la société.
Méthodologie
Les chercheurs ont choisi de mettre en œuvre une version à deux joueurs du test de Turing, dans laquelle un interrogateur pose des questions à un unique témoin et doit déterminer s'il s'agit d'un être humain ou d'une intelligence artificielle (IA). Cette approche diffère de la formulation originale de Turing pour trois personnes, mais évite la nécessité d'avoir plusieurs participants humains en ligne avant chaque jeu, devenant ainsi une interprétation relativement standard du jeu.
Témoins IA
Les chercheurs ont créé 25 témoins LLM (modèles de langage de machine learning) qui répondaient aux questions des utilisateurs en utilisant l'interface OpenAI API. Chaque témoin LLM se composait d'un modèle (GPT-3.5 ou GPT-4), d'un réglage de température (0,2, 0,5 ou 1,0) et d'un message. Le message décrivait le contexte de l'interaction et fournissait des instructions sur la manière dont l'agent...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.