Le "test de Turing", proposé pour la première fois sous le nom de "jeu d'imitation" par l'informaticien Alan Turing en 1950, permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine.
Lors d'une étude, des scientifiques ont reproduit le test et affirmé que GPT-4 avait réussi le test de Turing. Ils ont constaté que les participants considéraient GPT-4 comme un humain dans 54 % des cas. ELIZA, un système préprogrammé avec des réponses mais sans grand modèle de langage (LLM) ni architecture de réseau neuronal, a été jugé humain dans seulement 22 % des cas. GPT-3.5 a obtenu un score de 50 %, tandis que le participant humain a obtenu un score de 67 %.
Mais des critiques ont reproché l'approche trop simpliste de ce test. Ils affirment que "les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence. L'intelligence brute ne suffit pas. Ce qui compte vraiment, c'est d'être suffisamment intelligent pour comprendre une situation, les compétences des autres et d'avoir l'empathie nécessaire pour relier ces éléments entre eux".
Récemment, une nouvelle étude a mesuré la capacité de discrimination des personnes et des grands modèles de langage à l'aide de deux versions modifiées du test de Turing : inversée et déplacée. Au quotidien, les personnes n'interagissent pas directement avec les systèmes d'IA, mais lisent les conversations entre les systèmes d'IA et d'autres personnes. Ansi, des juges GPT-3.5, GPT-4 et des juges humains déplacés ont jugé si un agent était humain ou IA sur la base de la transcription d'un test de Turing.
Les chercheurs ont constaté que les juges IA et humains déplacés étaient moins précis que les interrogateurs interactifs, avec une précision globale inférieure à 50 %. En outre, les trois ont jugé le témoin GPT-4 le plus performant comme étant humain plus souvent que les témoins humains. Cela suggère que les humains et les LLM actuels ont du mal à faire la distinction entre les deux lorsqu'ils n'interrogent pas activement la personne, ce qui souligne le besoin urgent d'outils plus précis pour détecter l'IA dans les conversations.
Présentation du test de Turing
En 1950, Alan Turing a conçu le jeu d'imitation comme un test permettant de répondre indirectement à la question : "Les machines peuvent-elles penser ?". Dans un test de Turing classique, un interrogateur humain engage une conversation textuelle avec deux témoins : un humain et une machine. Si l'interrogateur est incapable de faire la différence entre l'humain et l'ordinateur, l'ordinateur réussit le test et peut être considéré comme intelligent.
Depuis l'article original de Turing, le test de Turing a suscité un débat intense qui a joué un rôle essentiel dans la construction des compréhensions et conceptions modernes de l'intelligence, façonnant les domaines de l'informatique, des sciences cognitives, de l'intelligence artificielle, de la robotique, de la philosophie, de la psychologie et de la sociologie. Au-delà de son rôle controversé de test d'intelligence, le test de Turing permet également de déterminer si les humains peuvent détecter l'IA dans le cadre d'une conversation, ou si les modèles d'IA peuvent réussir à tromper les interlocuteurs humains en leur faisant croire qu'ils sont humains.
Des travaux empiriques récents ont montré que les interrogateurs ne pouvaient pas déterminer de manière fiable si un agent basé sur le GPT-4 était humain ou IA lors d'un test de Turing. Les modèles capables de se faire passer pour des personnes comportent des risques. Cela motive la réalisation de variantes du test de Turing dans des contextes plus valides sur le plan écologique afin de déterminer dans quelle mesure les gens sont capables de faire la distinction entre les humains et les IA dans des scénarios réalistes.
Un test de Turing classique implique qu'un évaluateur humain interroge un témoin de manière interactive afin de déterminer s'il s'agit d'un humain ou d'une IA. Bien que le test de Turing ait été proposé à l'origine comme un test d'intelligence, de nombreuses objections ont été émises quant à sa validité ou à sa suffisance sous cette forme. Indépendamment de sa validité en tant que mesure de l'intelligence, le test de Turing constitue un test puissant pour évaluer les similitudes entre l'écriture humaine et l'écriture de l'IA, ainsi qu'une prémisse utile pour étudier la tromperie de l'IA.
Plusieurs tentatives ont été faites pour réussir le test de Turing, notamment le Loebner Prize, un concours qui s'est déroulé de 1990 à 2020 sans qu'aucun système ne réussisse. "Human or Not", une expérience de test de Turing social à grande échelle qui a révélé un taux d'exactitude de l'interrogateur de 60 %. Et une étude de 2024 faisant état du premier système à avoir un taux de réussite statistiquement indiscernable du hasard (54 %) mais encore inférieur au seuil humain (67 %).
Résumé de l'expérience
Test de Turing déplacé
Il existe plusieurs variantes du test, chacune d'entre elles apportant des informations sur les dimensions de la théorie et de la pratique. La première de ces variantes est le test de Turing inversé, qui place un système d'IA dans le rôle de l'interrogateur. Le test est réussi si un système d'IA est "incapable de faire la distinction entre deux humains, ou entre un humain et une machine qui peut réussir le test de Turing normal, mais qui peut faire la distinction entre un humain et une machine qui peut être distinguée par un test de Turing normal avec un observateur humain".
Un test de Turing ordinaire offre à l'interrogateur un avantage clé qui n'est pas toujours présent dans la consommation passive de textes générés par l'IA : il peut adapter ses questions pour tester le témoin de manière contradictoire en temps réel. Mais cette nouvelle expérience a été mise en place pour voir les performances des juges humains et IA sans cet avantage, lorsqu'ils n'ont accès qu'à une transcription d'un entretien de test de Turing mené par un autre participant.
Les chercheurs présentent un nouveau type de test de Turing, appelé test de Turing déplacé, dans lequel un juge humain lit la transcription d'un test de Turing interactif effectué précédemment par un autre interrogateur humain. Le nouveau juge humain est "déplacé" en ce sens qu'il n'est pas présent pour interagir avec le témoin.
Ils ont utilisé ce paradigme pour répondre à plusieurs questions : Les humains peuvent-ils discriminer de manière fiable les humains des IA en observant simplement les conversations ? Les LLM peuvent-ils servir de détecteurs d'IA, non seulement pour les textes statiques (essais, articles et paragraphes), mais aussi pour les conversations dynamiques ? Le déplacement du test de Turing augmente-t-il ou diminue-t-il la précision ? Un test de Turing inversé révèle-t-il une psychologie naïve dans les systèmes artificiels ? Et quelles sont les méthodes qui fonctionnent le mieux pour la détection de l'IA dans les espaces conversationnels du monde réel ?
Top 10 des motifs fournis pour chaque verdict
Psychologie naïve
Le critère pour réussir le test de Turing inversé est qu'une machine soit aussi performante que des évaluateurs humains. Si les évaluateurs humains peuvent faire la différence entre les humains et une IA particulière, un évaluateur IA devrait également réussir. Les résultats n'ont pas montré des différences statistiques entre la précision de GPT-4 et celle de l'évaluateur humain déplacé, et l'ICL a augmenté la précision de GPT-4 pour atteindre celle de l'évaluateur humain déplacé (58 % et 58,2 % respectivement).
Ces résultats suggèrent que l'IA n'est ni meilleure ni pire que les humains pour attribuer avec précision la mentalité à différents témoins. Cela dit, les chercheurs ont constaté que les humains déplacés et les adjudicateurs de l'IA ont montré un faible accord sur leurs verdicts (56%). Bien qu'ils aient eu une précision de verdict aussi faible, ils n'étaient pas inexacts de la même manière. Ces résultats impliquent donc que tout modèle d'esprit, que ces systèmes d'intelligence artificielle ont, est systématiquement différent des modèles des juges humains.
Détection dans la nature
Le test de Turing déplacé semble être plus difficile que le test interactif, mais cette variation est également susceptible de se produire plus fréquemment dans la vie de tous les jours. Étant donné que de nombreuses conversations en ligne sont désormais publiques - sur les forums, les plateformes de médias sociaux et les chats de groupe - une interaction entre deux utilisateurs est susceptible d'être lue par un groupe beaucoup plus large qui n'a pas la possibilité d'interroger directement des bots potentiels.
Les résultats montrent que GPT-4 et les humains sont relativement peu capables de faire la différence entre les humains et l'IA dans ce contexte. Cet effet est particulièrement marqué pour l'IA-témoin la plus performante, dont le taux de réussite est plus élevé que celui des humains selon les deux types d'adjudicateurs. L'ensemble de ces résultats suggère que des systèmes d'IA bien conçus, chargés de se faire passer pour des humains dans des espaces publics en ligne, pourraient avoir plus de chances de réussir à se faire passer pour des humains qu'un véritable humain ne le ferait.
Les méthodes statistiques de détection de l'IA sont prometteuses en tant que technique de défense contre les faux humains en ligne. La courbure, une mesure de l'optimalité de la probabilité d'un énoncé par rapport à de petites perturbations, a montré une nette différence entre les messages générés par les humains et ceux générés par l'IA. L'analyse ROC a suggéré un seuil qui a conduit à une précision de 69 % dans l'ensemble de données. Néanmoins, ce niveau de précision ne serait pas pratique pour les problèmes du monde réel où les faux positifs pourraient conduire à des résultats négatifs pour les utilisateurs humains réels.
Précision moyenne par type d'adjudicateur et de témoin
Conclusion
Cette nouvelle expérience a effectué un test de Turing inversé, dans lequel GPT-3.5 et GPT-4 ont jugé si un interlocuteur dans une transcription était humain. Puis les chercheurs ont reproduit cette approche dans un test déplacé, dans lequel des adjudicateurs humains ont lu les mêmes transcriptions. Ils ont constaté que les adjudicateurs IA et les adjudicateurs humains déplacés étaient moins précis que les interrogateurs interactifs qui avaient effectué le test de Turing original, mais pas plus ou moins précis les uns que les autres. Cela suggère que ni l'IA ni les humains ne sont fiables pour détecter les contributions de l'IA aux conversations en ligne.
Source : "GPT-4 is judged more human than humans in displaced and inverted Turing tests"
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Les gens ne peuvent pas distinguer GPT-4 d'un humain dans un test de Turing : GPT-4 a été jugé comme étant un humain dans 54% des cas, confirmant qu'une IA peut réussir un test de Turing
Une étude affirme que les internautes ne parviennent à détecter avec précision les textes générés par l'IA que dans 50 % des cas, et une autre estime que les outils de détection ne sont pas fiables
L'IA surpasse les humains en matière de persuasion avec une réussite de 82 % en moyenne, selon une étude où les LLM ont surpassé les participants sur tous les sujets avec un haut niveau de persuasion