Le test de Turing, initialement appelé "jeu d'imitation" par Alan Turing en 1950, est un test de la capacité d'une machine à présenter un comportement intelligent équivalent ou indiscernable de celui d'un humain. Turing a proposé qu'un évaluateur humain juge les conversations en langage naturel entre un humain et une machine conçue pour générer des réponses semblables à celles d'un humain.
L'évaluateur serait conscient que l'un des deux partenaires de la conversation est une machine, et tous les participants seraient séparés les uns des autres. La conversation se limiterait à un canal textuel, tel qu'un clavier et un écran d'ordinateur, de sorte que le résultat ne dépendrait pas de la capacité de la machine à restituer les mots sous forme de discours.
Si l'évaluateur ne pouvait pas distinguer de manière fiable la machine de l'humain, on considérerait que la machine avait réussi le test. Les résultats du test ne dépendent pas de la capacité de la machine à donner des réponses correctes aux questions, mais seulement de la mesure dans laquelle ses réponses ressemblent à celles que donnerait un être humain.
Dans une nouvelle étude, des chercheurs ont évalué 3 systèmes (ELIZA, GPT-3.5 et GPT-4) dans le cadre d'un test de Turing randomisé, contrôlé et préenregistré. Les participants humains ont eu une conversation de 5 minutes avec un humain ou une IA, et ont jugé s'ils pensaient que leur interlocuteur était humain ou non. GPT-4 a été considéré comme un humain dans 54 % des cas, ce qui est supérieur à ELIZA (22 %), mais inférieur aux humains réels (67 %).
Ces résultats constituent la première démonstration empirique solide qu'un système artificiel réussit un test de Turing interactif à deux joueurs. Les résultats ont des implications pour les débats sur l'intelligence des machines et, plus urgemment, suggèrent que la tromperie par les systèmes d'IA actuels pourrait ne pas être détectée. L'analyse des stratégies et du raisonnement des participants suggère que les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence.
Le GPT-4 réussit-il le test de Turing ?
Comment savoir si un système a réussi le test de Turing ? Dans son article de 1950, Turing prédit que d'ici la fin du siècle, les systèmes seront capables de "jouer le jeu de l'imitation si bien qu'un interrogateur moyen n'aura pas plus de 70 % de chances de faire la bonne identification après cinq minutes d'interrogatoire", ce qui a conduit à ce qu'un taux de réussite de 30 % devienne un objectif dans certaines discussions. Ce critère semble toutefois arbitraire, et il n'est pas certain que Turing l'ait considéré comme une définition du succès.
Une base de 50 % est plus justifiée car elle indique que les interrogateurs ne sont pas plus doués que le hasard pour identifier les machines. Cette définition est particulièrement pertinente pour déterminer si les utilisateurs peuvent identifier de manière fiable d'autres humains dans le cadre d'interactions en ligne. Un problème potentiel avec cette définition du succès, cependant, est qu'elle semble impliquer la confirmation de l'hypothèse nulle. Un système peut atteindre une précision qui ne se distingue pas statistiquement du hasard parce que les participants ont deviné au hasard, ou parce que l'expérience n'avait pas assez de puissance.
Dans cette analyse préenregistrée, les chercheurs ont abordé ce problème en utilisant la ligne de base ELIZA comme contrôle de la manipulation. Ce n'est que dans le cas où l'analyse montrait un taux de réussite inférieur au hasard pour ELIZA - ce qui indique que le modèle est suffisamment sensible pour détecter cette différence - mais pas pour GPT-4, que le modèle pouvait être considéré comme réussi. Sur la base de cette définition, le GPT-4 réussit cette version du test de Turing. De plus, les scores de confiance des participants et les justifications de leurs décisions suggèrent qu'ils n'ont pas deviné au hasard : les jugements selon lesquels GPT-4 était humain avaient un niveau de confiance moyen de 73 %.
À première vue, le faible taux de réussite des humains pourrait être surprenant. Si le test mesure la ressemblance avec l'être humain, celui-ci ne devrait-il pas être à 100 % ? En fait, le taux de réussite des humains reflète probablement l'évolution des hypothèses sur la qualité des systèmes d'IA et est similaire à d'autres estimations récentes. Lorsque les systèmes d'IA sont médiocres, il est facile d'identifier les humains. Au fur et à mesure que la confiance des interrogateurs dans les capacités des systèmes d'IA augmente, ils devraient être plus enclins à identifier à tort des humains comme étant de l'IA.
Que mesure le test de Turing ?
À l'origine, Turing avait envisagé le jeu d'imitation comme mesure de l'intelligence. Diverses objections ont été soulevées à l'encontre de cette idée. Certains ont objecté que le test était trop difficile ou trop chauvin. Toutefois, ces préoccupations sont moins pressantes si un système semble réussir. D'autres ont fait valoir que c'était trop facile. Les interrogateurs humains, enclins à l'anthropomorphisme, pourraient être trompés par des systèmes inintelligents.
L'étude a tenté de répondre partiellement à cette préoccupation en incluant ELIZA comme base de référence, mais on peut toujours répondre qu'une base de référence plus stricte ou plus difficile est nécessaire. D'autres encore ont soutenu qu'aucun test comportemental ne peut mesurer l'intelligence ; que l'intelligence repose sur le bon type de mécanisme interne ou de relation causale avec le monde.
En fin de compte, il semble peu probable que le test de Turing fournisse des preuves nécessaires ou suffisantes de l'intelligence, mais au mieux un soutien probabiliste. Heureusement, le type de preuve qu'il fournit complète d'autres approches d'évaluation. Les repères traditionnels de la PNL et les instruments de psychologie cognitive sont bien définis et permettent d'obtenir des indices comportementaux spécifiques et attendus des capacités cognitives, mais ils sont nécessairement statiques, étroits et rigides. Le test de Turing, en revanche, est naturellement interactif, contradictoire et d'une portée potentiellement très large.
Les résultats présentés ici fournissent des preuves empiriques de ce que le test de Turing mesure. Tant en ce qui concerne les stratégies utilisées que les raisons invoquées pour justifier leurs décisions, les participants se sont davantage concentrés sur le style linguistique et les facteurs socio-émotionnels que sur les notions plus traditionnelles d'intelligence, telles que la connaissance et le raisonnement. Cela pourrait refléter l'hypothèse latente des interrogateurs selon laquelle l'intelligence sociale est devenue la caractéristique humaine la plus inimitable par les machines.
Source : "People cannot distinguish GPT-4 from a human in a Turing test"
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le test de Turing est dépassé et ne reflète pas la véritable intelligence des chatbots modernes, d'après le co-fondateur de DeepMind, qui propose une version plus moderne de ce test
Les jugements moraux donnés par ChatGPT4, le chatbot IA d'OpenAI, ont été "perçus comme étant de qualité supérieure à celle des humains", dans un document de recherche sur le test de Turing moral modifié
Les avis générés par l'IA trompent les humains, menaçant la confiance dans les plateformes en ligne, ces avis peuvent passer le test de Turing, selon une étude