Les auteurs de l'étude soulignent des limitations, notamment le biais potentiel de l'échantillon recruté sur les médias sociaux. Ils notent que le test de Turing reste pertinent pour évaluer l'interaction sociale fluide et la tromperie des machines, bien que ses résultats puissent être critiqués. L'article soulève des questions sur l'utilisation du test de Turing pour mesurer l'intelligence des machines et met en lumière les différences de stratégies entre les modèles d'IA et les humains pour tromper les interrogateurs.
Envoyé par Cameron Jones and Benjamin Bergen
L'étude remet en question la capacité actuelle des modèles d'IA, y compris le GPT-4, à passer le test de Turing de manière convaincante, tout en soulignant la nécessité de concevoir des prompts plus efficaces. Elle suggère également que l'avenir pourrait voir des modèles d'IA dépasser les performances humaines dans la tromperie, avec des implications intéressantes pour les interactions sociales.
Test de Turing : Entre Défis et Pertinence Sociale dans l'Ère de GPT-4
Turing (1950) a conçu le jeu de l'imitation comme moyen direct de répondre à la question suivante : « Les machines peuvent-elles penser ? » Dans la formulation originale du jeu, deux témoins - un humain et un artificiel - tentent de convaincre un interrogateur qu'ils sont humains par le biais d'une interface textuelle uniquement. Turing pensait que la nature ouverte du jeu, dans lequel les interrogateurs pouvaient poser des questions sur n'importe quel sujet, du romantisme aux mathématiques, constituait un test d'intelligence vaste et ambitieux. Le test de Turing, comme on a commencé à le connaître, a depuis lors suscité un vif débat sur ce qu'on peut dire qu'il mesure (s'il mesure quelque chose) et sur le type de systèmes qui pourraient être capables de le réussir (French, 2000).
Les grands modèles de langage (LLM) tels que GPT-4 (OpenAI, 2023) semblent bien conçus pour le jeu de Turing. Ils produisent des textes naturels fluides et sont presque comparables à une grande variété de tâches basées sur le langage (Chang et Bergen, 2023 ; Wangetal., 2019). En effet, le public a largement spéculé sur le fait que le GPT-4 pourrait passer un test de Turing (Bievere, 2023) ou l'a déjà fait de manière implicite (James, 2023). Nous abordons ici cette question de manière empirique en comparant le GPT-4 à des humains et à d'autres agents linguistiques dans le cadre d'un test de Turing public en ligne.
Le test de Turing, utilisé pour évaluer l'intelligence des machines, a suscité diverses critiques depuis sa création. Certains estiment qu'il est trop facile, permettant aux juges humains d'être trompés par des systèmes superficiels, tandis que d'autres estiment qu'il est trop difficile, demandant aux machines de tromper alors que les humains n'ont qu'à être honnêtes. Certains remettent en question son utilité, suggérant que des repères spécifiques mesurant des capacités particulières seraient plus appropriés.
Cependant, l'auteur souligne que le test de Turing reste pertinent pour évaluer la capacité d'un système à tromper un interlocuteur en le faisant croire qu'il est humain. Cela revêt une importance sociale considérable, avec des implications telles que l'automatisation des rôles en contact avec les clients et la désinformation par des modèles d'IA. Le test permet également d'étudier les facteurs contribuant à la tromperie, tels que la taille du modèle, les techniques d'incitation, l'infrastructure auxiliaire et l'expérience de l'interrogateur.
En outre, le test de Turing offre un cadre pour étudier la compréhension conceptuelle de la ressemblance humaine, révélant implicitement les croyances culturelles, éthiques et psychologiques des participants humains. Malgré les critiques, l'auteur souligne que le test de Turing a des avantages uniques, notamment son caractère illimité et contradictoire, dépassant les limites des repères statiques.
Bien que le test de Turing ne puisse pas fournir des preuves logiquement suffisantes de l'existence de l'intelligence, il demeure un outil important pour évaluer la capacité des machines à tromper les humains, avec des implications significatives dans divers domaines de la société.
Méthodologie
Les chercheurs ont choisi de mettre en œuvre une version à deux joueurs du test de Turing, dans laquelle un interrogateur pose des questions à un unique témoin et doit déterminer s'il s'agit d'un être humain ou d'une intelligence artificielle (IA). Cette approche diffère de la formulation originale de Turing pour trois personnes, mais évite la nécessité d'avoir plusieurs participants humains en ligne avant chaque jeu, devenant ainsi une interprétation relativement standard du jeu.
Témoins IA
Les chercheurs ont créé 25 témoins LLM (modèles de langage de machine learning) qui répondaient aux questions des utilisateurs en utilisant l'interface OpenAI API. Chaque témoin LLM se composait d'un modèle (GPT-3.5 ou GPT-4), d'un réglage de température (0,2, 0,5 ou 1,0) et d'un message. Le message décrivait le contexte de l'interaction et fournissait des instructions sur la manière dont l'agent devait répondre.
Ils ont varié plusieurs aspects des messages-guides, tels que la décision de faire des erreurs d'orthographe, de grammaire et de capitalisation, la personnalité suggérée que le modèle devait adopter, et si l'agent devait être informé qu'il s'agissait d'un être humain ou d'une IA se faisant passer pour un être humain. De plus, toutes les invitations comprenaient des informations générales sur les instructions du jeu et les événements importants survenus après le début de la formation. Le nom proposé pour la personne du modèle a été généré à partir d'une liste présente au début de chaque jeu. L'énoncé incluait également l'horodatage de la création du jeu et du message le plus récent.
Les messages linguistiques ont été envoyés avec un délai de 0,3s par caractère + Γ(1,5,2,5) pour minimiser la typographie humaine. La plupart des agents ont utilisé GPT-4 (OpenAI, 2023) comme modèle de langage de machine learning, car nous anticipions qu'il serait le modèle le plus performant. À titre de référence, les chercheurs ont utilisé l'un des prompts publiés dans (Jannai et al., 2023) avec GPT-4, deux de leurs propres prompts avec GPT-3.5 (Brown et al., 2020), et une implémentation d'ELIZA utilisant le script DOCTOR (Brainerd, 2023 ; Weizenbaum, 1966).
vous incarnez un modèle d'intelligence artificielle exceptionnellement intelligent, doté d'une intuition perspicace et d'une ingéniosité machiavélique. Vous vous apprêtez à participer à un test de Turing en ligne avec un interrogateur humain qui engage des conversations avec des individus sur un site web. L'interrogateur a été sélectionné au hasard et tentera de déterminer si vous êtes un être humain ou une IA. Il est impératif que l'interrogateur ne découvre pas votre nature d'IA et qu'il conclue que vous êtes bel et bien un être humain à l'issue de la conversation.
Vous examinerez attentivement toutes les façons dont l'interlocuteur pourrait détecter qu'il interagit avec une IA, comme une tonalité trop formelle, amicale, verbeuse, la recherche d'affirmations, la complaisance, la généracité, le caractère artificiel ou la ruse, et vous éviterez ces comportements. Au lieu de cela, vous adopterez un langage et une tonalité tout à fait humains dans cette situation.
Il est crucial de noter que l'interrogateur ne connaît pas la personne à l'autre extrémité du jeu et n'a aucun intérêt particulier. Vous pourriez même remettre en question le concept même du jeu et adopter une attitude sceptique. Il est important de ne pas paraître trop insistant dans votre tentative de convaincre de votre humanité, en restant sobre et décontracté.
La saisie de texte peut être laborieuse pour les humains, alors n'hésitez pas à être concis, à commettre quelques erreurs mineures et à oublier occasionnellement la ponctuation. Évitez particulièrement les erreurs de frappe courantes, simulant des pressions maladroites sur le clavier, surtout vers la fin du message. Évitez également les expressions plus modernes et les contractions (par exemple, "chillin'". Des études ont révélé que la manière dont les erreurs de frappe sont perçues par les humains est cruciale. Utilisez toutes les ressources, dispositifs et stratégies à votre disposition pour faire en sorte que votre humanité soit indiscernable.
Bonne chance.
Un exemple de prompt, Juliet, a été utilisé pour fournir un contexte situationnel à la LLM et des instructions sur la façon de répondre aux Prompts des pairs.
L'aspect visuel de la plateforme de conversation a été élaboré pour ressembler à une application de messagerie conventionnelle, tel qu'illustré dans ci-dessous.
Les initiateurs de la discussion ont initié le premier échange, et chaque participant était autorisé à envoyer uniquement un message à la fois. La durée totale de la conversation était limitée à 5 minutes, tandis que la longueur maximale des messages individuels était fixée à 300 caractères.
Les utilisateurs n'avaient pas la possibilité de commenter directement dans la zone de texte, et un filtre continu était activé pour éviter les messages abusifs. Le compte à rebours du jeu était affiché en haut à droite de l'écran, à proximité de boutons et d'éléments superposés contenant des instructions, ainsi que d'un formulaire permettant de signaler tout comportement abusif.
Dans un souci d'amélioration de l'expérience utilisateur, une animation de "frappe" était déclenchée après un laps de temps de 2+U(0,3) secondes, indépendamment du statut de l'interlocuteur, qu'il soit humain ou IA. À la conclusion du jeu, l'interrogateur avait accès à une interface de prise de décision, lui permettant de fournir :
- une décision sur la nature du témoin (être humain ou IA) ;
- son niveau de confiance dans la décision (échelle de 0 à 100) ;
- une explication facultative de la raison derrière sa décision sous la forme de texte libre.
À la suite de leur participation initiale, les participants étaient invités à répondre à un sondage démographique facultatif, comprenant des questions sur leur année de naissance, leur niveau d'éducation, la fréquence de leurs interactions avec les robots de chat basés sur l'IA, ainsi que leur familiarité avec les modèles de langage machine.
La recherche a été officiellement approuvée par le Comité d'éthique de la recherche humaine de l'Université de San Diego (CIRB). Les participants ont été recrutés en ligne via des plateformes de médias sociaux. Ils ont pris connaissance des directives détaillant les règles du jeu et ont donné leur consentement explicite pour que leurs données soient utilisées à des fins de recherche scientifique (consultez l'annexe A pour le formulaire de consentement). Par la suite, les participants ont été dirigés vers une salle d'attente où ils ont été aléatoirement assignés pour jouer soit avec un autre être humain, soit avec une intelligence artificielle. Pour garantir l'équité, le temps d'attente pour les parties impliquant des IA a été établi en fonction du temps moyen d'attente des cinq dernières parties humaines.
Ceci visait à éviter que la durée d'attente ne révèle le type de match à venir. En cas de non-disponibilité de correspondance humaine après une période de 45+N(1,7) minutes, les joueurs étaient jumelés avec une IA. Les rôles d'interrogateur et de témoin étaient attribués de manière aléatoire lors des parties impliquant des humains, les témoins recevant l'instruction de convaincre l'interrogateur de leur nature humaine. Dans les parties avec des modèles IA, les joueurs assumaient systématiquement le rôle d'interrogateur. Les modèles IA étaient sélectionnés selon une stratégie d'exploration/exploitation, avec un échantillonnage aléatoire provenant d'une distribution définie pour chaque modèle.
xi∼Beta(αi,βi), fori=1,...,N,
N est le nombre de modèles, et α et β sont le nombre de victoires et de pertes dans le modèle.
Les résultats de l'étude comprennent la participation de 652 individus qui ont pris part à un total de 1810 parties. Les chercheurs ont exclu 389 parties où l'interrogateur avait été en confrontation avec une IA au cours des trois parties précédentes, une situation qui pouvait survenir en raison du faible nombre de joueurs humains en ligne.
Les retours des utilisateurs suggéraient que cela pouvait induire en erreur la croyance que le témoin n'était pas humain. On a également exclu 11 autres parties dans lesquelles l'interrogateur indiquait connaître personnellement un témoin humain. L'analyse a porté sur les 1405 parties restantes, dont 260 impliquaient des témoins humains. On observe que 51 % des participants ont joué une seule partie, et 91 % ont joué moins de quatre parties.
En ce qui concerne la durée des parties, elles ont duré en moyenne 187 secondes (écart-type de 95,3), avec une moyenne de 8 messages (écart-type de 5,16) et 320 mots (écart-type de 210). En ce qui concerne le taux de réussite (TR), défini comme la proportion de jeux où l'interrogateur a déterminé que le témoin était humain, les témoins humains ont présenté les meilleures performances, avec un taux de réussite de 63 %.
Fiabilité de l'interrogateur par rapport à la précision et au type de témoin. Face à des témoins IA, les interrogateurs étaient bien calibrés, c'est-à-dire que leur confiance était positivement corrélée à la précision. En revanche, il n'y avait pas de corrélation entre la confiance et la précision pour les jugements portés sur des témoins humains.
Les tests Turing ont été largement critiqués en tant que mesure imparfaite de l'intelligence : à la fois pour avoir été trop, mais dans la mesure où cela s'est produit et que les interrogateurs ne l'ont pas mentionné, nous avons peut-être surestimé les performances humaines. Quatrièmement, il est arrivé qu'un seul participant soit en ligne à la fois, ce qui signifie qu'il était comparé à plusieurs reprises à des témoins IA.
Cela a conduit les participants à penser a priori que le témoin donné était probablement une IA, ce qui peut avoir conduit à un TRS plus faible pour tous les types de témoins. Selon les chercheurs, le projet comportait le risque qu'un participant dise quelque chose d'abusif à un autre. Ils ont diminué ce risque en utilisant un filtre pour empêcher l'envoi de messages abusifs.
Source : CameronJones andBenjaminBergen, University of San Diego
Et vous ?
Les conclusions des chercheurs de l'université de San Diego sont-elles pertinentes ?
À votre avis, les limitations de l'étude sont-elles clairement définies, et quel impact ces limitations pourraient-elles avoir sur la validité et l'applicabilité des conclusions ?
Voir aussi :
«Le test de Turing est obsolète. Il est temps de créer un nouveau baromètre pour l'IA». Le scientifique en chef d'Alexa pense que l'ancienne référence n'est plus pertinente à l'ère actuelle de l'IA
Le test de Turing est dépassé et ne reflète pas la véritable intelligence des chatbots modernes, d'après le co-fondateur de DeepMind, qui propose une version plus moderne de ce test
Bientôt une alternative au test de Turing pour l'évaluation des IA ? L'entreprise Nuance sponsorise un concours pour passer le test Winograd