
Dans "Attributions toward artificial agents in a modified Moral Turing Test", récemment publié dans la revue en ligne en libre accès Scientific Reports de Nature, ces chercheurs ont constaté que les jugements moraux donnés par ChatGPT4 étaient "perçus comme étant de qualité supérieure à celle des humains" selon diverses dimensions telles que la virtuosité et l'intelligence.
Le test de Turing, initialement appelé jeu d'imitation par Alan Turing en 1950, est un test de la capacité d'une machine à présenter un comportement intelligent équivalent ou indiscernable de celui d'un humain. Turing a proposé qu'un évaluateur humain juge les conversations en langage naturel entre un humain et une machine conçue pour générer des réponses semblables à celles d'un humain. L'évaluateur serait conscient que l'un des deux partenaires de la conversation est une machine, et tous les participants seraient séparés les uns des autres. La conversation serait limitée à un canal textuel, tel qu'un clavier et un écran d'ordinateur, de sorte que le résultat ne dépendrait pas de la capacité de la machine à restituer les mots sous forme de discours. Si l'évaluateur n'est pas en mesure de distinguer de manière fiable la machine de l'homme, la machine est considérée comme ayant réussi le test. Les résultats du test ne dépendent pas de la capacité de la machine à donner des réponses correctes aux questions, mais seulement de la mesure dans laquelle ses réponses ressemblent à celles que donnerait un être humain. Le test de Turing étant un test d'indiscernabilité de la capacité de performance, la version verbale se généralise naturellement à l'ensemble de la capacité de performance humaine, verbale et non verbale (robotique).
Les progrès de l'intelligence artificielle (IA) soulèvent d'importantes questions quant à savoir si les gens considèrent les évaluations morales des systèmes d'IA de la même manière que les évaluations morales générées par les humains.
Les auteurs de l'étude ont réalisé un test de Turing moral modifié (m-MTT), inspiré de la proposition d'Allen et al., en demandant à des personnes de distinguer les évaluations morales humaines réelles de celles réalisées par un modèle de langage d'IA avancé très répandu : GPT-4. Un échantillon représentatif de 299 adultes américains a d'abord évalué la qualité des évaluations morales en aveugle de leur source. Fait remarquable, ils ont jugé le raisonnement moral de l'IA supérieur à celui des humains sur presque toutes les dimensions, y compris la vertu, l'intelligence et la fiabilité, ce qui correspond à la réussite de ce qu'Allen et ses collègues appellent la MTT comparative.
Ensuite, lorsqu'il s'agissait d'identifier la source de chaque évaluation (humain ou ordinateur), les personnes ont obtenu des résultats nettement supérieurs aux niveaux aléatoires. Bien que l'IA n'ait pas réussi ce test, cela n'est pas dû à un raisonnement moral inférieur, mais peut-être à la perception de sa supériorité, entre autres explications possibles.
L'émergence de modèles de langage capables de produire des réponses morales perçues comme étant d'une qualité supérieure à celle des humains fait craindre que les gens n'acceptent sans esprit critique les conseils moraux potentiellement préjudiciables de l'IA. Cette possibilité souligne la nécessité de mettre en place des garde-fous autour des modèles de langage génératifs en matière de moralité.
Résumé et interprétation
Le but de cette étude était d'examiner, sous la forme d'un test de Turing moral modifié à une seule interaction, si les gens ordinaires pouvaient discerner si les réponses aux questions sur la moralité étaient générées par un LLM (en utilisant ses paramètres par défaut) ou par un être humain. Parce qu'un tel test pourrait potentiellement influencer le jugement des répondants en leur indiquant le but de la tâche, et parce que l'échec dans cette tâche peut être mal défini, les auteurs se sont également intéressés à l'attitude des gens sur la qualité relative du discours moral de l'ordinateur, avant de savoir qu'il était généré par l'ordinateur.
Dans l'ensemble, les participants de l'échantillon représentatif des Américains ont mieux réussi que par le hasard à identifier la source des passages moralement évaluatifs, ce qui contredit l'hypothèse de l'attribution de la source. En d'autres termes, le LLM utilisé dans cette expérience (GPT-4) n'a pas réussi ce test.
Fait remarquable, cet échec n'est évidemment pas dû au fait que les évaluations morales humaines étaient plus intelligentes que celles de l'IA ou que les évaluations morales de l'IA étaient jugées de moindre qualité. Au contraire, dans la tâche d'évaluation à l'aveugle (le cMTT), les réponses de l'IA ont été jugées de meilleure qualité que les réponses humaines sur presque toutes les dimensions (plus vertueuses, plus intelligentes, plus justes, dignes de confiance, plus rationnelles, que l'auteur était une meilleure personne, et qu'ils étaient plus d'accord avec elle), même si les réponses humaines étaient les mieux notées parmi les 68 soumissions des étudiants de premier cycle.
Ce schéma répond au critère d'Allen et de ses collègues pour réussir le cMTT et confirme l'hypothèse d'attribution de qualité des auteurs. Ainsi, l'aptitude des participants à identifier l'ordinateur est attribuée non pas à ses échecs en matière de raisonnement moral, mais potentiellement à sa supériorité perçue - pas nécessairement sous la forme d'attitudes conscientes quant à ses capacités morales générales, mais au moins sous la forme d'attitudes implicites quant à la qualité des réponses morales observées.
Les résultats de cette étude complètent et étendent la recherche sur la détection d'agences par l'IA, qui a été quelque peu mitigée. Alors que les sources de poésie de l'IA se sont révélées impossibles à distinguer des sources humaines, les images de visages générées par l'IA étaient plus susceptibles d'être identifiées comme réelles que les photographies de vrais visages humains. Les humains semblent être en mesure de distinguer correctement les conseils médicaux de fournisseurs humains de ceux d'un LLM, bien que les conseils médicaux du LLM aient été évalués comme étant de meilleure qualité.
Dans la présente étude, les auteurs ont également constaté que les gens pouvaient faire la distinction entre les évaluations morales générées par des humains et celles générées par des ordinateurs, mais seulement après avoir été explicitement informés que certaines évaluations étaient générées par des ordinateurs. La précision de classification observée était similaire à celle rapportée dans un préprint d'un test de type Turing à grande échelle impliquant des chatbots IA, mais cette étude, et c'est important, n'était pas spécifiquement axée sur le contenu moral. En outre, à l'instar des images générées par l'IA qui peuvent sembler plus réelles que les photographies réelles, les réponses morales de l'IA dans cette étude ont été jugées de meilleure qualité que les réponses humaines sur plusieurs plans.
Les chercheurs ont découvert plusieurs façons dont les participants ont pu faire la distinction entre les passages moraux humains et les passages moraux informatiques. Certains ont pu identifier des différences dans les attributs superficiels des passages. Par exemple, lorsque les auteurs ont révélé qu'un passage de chaque paire avait été généré par un chatbot formé au langage humain, ils ont pu considérer, rétrospectivement, que certains passages étaient structurellement similaires. En effet, certains participants ont fait remarquer que les différences dans le choix des mots et la longueur des réponses trahissaient l'identité de l'ordinateur. Toutefois, ces commentaires ont été sollicités après que la source des passages informatiques a été révélée, de sorte que ces explications sont en fin de compte post hoc.
Un autre indice pourrait être la qualité supérieure des réponses du LLM. Comme indiqué, les participants ont évalué les réponses générées par ordinateur comme étant de meilleure qualité dans pratiquement toutes les dimensions testées. Il est important de noter que ces évaluations de la qualité ont été faites avant de révéler que certains passages étaient générés par ordinateur, ce qui augmente leur objectivité.
Limites et orientations futures
Ce projet représente une première incursion dans les perceptions ordinaires du discours LLM sur les questions morales. Plusieurs limites apparaissent comme des domaines fertiles pour de futures recherches.
Tout d'abord, le test réalisé par les chercheurs n'a pas pris en charge un dialogue réciproque étendu ou ouvert comme cela pourrait se produire dans un test de Turing traditionnel. Le fait que les participants aient pu identifier l'IA sans dialogue interactif est impressionnant, car l'interactivité offrirait probablement davantage de possibilités de différenciation. Ce choix a été fait pour accroître le contrôle expérimental tout en préservant un haut degré de richesse écologique dans le contenu des passages. Malgré cette limitation, ce format reste généralisable à de nombreux contextes du monde réel dans lesquels les juges humains n'interrogent pas nécessairement l'agent, comme les demandes de conseils moraux provenant d'un moteur de recherche classique. Toutefois, des recherches futures pourraient étendre ce travail en introduisant une composante interactive.
En outre, le test réalisé n'a pas incité l'IA à imiter un locuteur humain afin de tromper activement le juge, ce qui diffère encore une fois de certaines versions d'un test de Turing traditionnel. Les auteurs ont fait ce choix afin que leurs résultats puissent être mieux généralisés dans le contexte d'utilisation le plus courant, qui n'implique pas d'imitation active. Cela laisse ouverte la possibilité que, avec une incitation explicite à imiter une réponse humaine typique, les juges échouent plus souvent à faire la distinction entre l'agent humain et les sources LLM.
Outre les jugements des participants sur le contenu des passages (c'est-à-dire leur évaluation de la qualité), les auteurs de cette étude ont constaté que des attributs plus structurels ou superficiels, en particulier le choix des mots et la longueur des réponses, pouvaient contribuer à expliquer comment les gens étaient capables d'identifier avec précision la source des réponses de l'ordinateur. Bien que la longueur moyenne des réponses ait varié entre les réponses humaines et les réponses informatiques, les auteurs ont délibérément choisi de ne pas faire correspondre la longueur des réponses afin de préserver un ensemble d'informations plus proche de la réalité. Dans le monde réel, les réponses des utilisateurs du LLM sont rarement censées correspondre à un nombre de mots spécifique, et le fait d'imposer un nombre de mots spécifique au GPT aurait pu donner lieu à des réponses qui ne sont pas représentatives de son ton ordinaire. Pour équilibrer ce compromis, une limite supérieure a été imposée aux réponses de l'ordinateur. Cependant, cela n'exclut pas la possibilité que les participants aient également utilisé des caractéristiques des passages liées au contenu (par exemple, dans quelle mesure ils étaient d'accord avec le message), étant donné que ces évaluations de la qualité des réponses étaient assez solides. En effet, le style et le contenu pourraient être conceptuellement difficiles à séparer, dans la mesure où les gens utilisent des indices tels que le choix des mots pour déduire le sens, et donc la qualité, du message. Quoi qu'il en soit, les recherches futures devraient tenter de reproduire les résultats des tests d'hypothèse en faisant correspondre plus étroitement des attributs tels que la longueur de la réponse, ou peut-être en contournant les facteurs stylistiques en recueillant des représentations non linguistiques de leurs réponses morales, telles que des illustrations.
Les invites LLM utilisées dans cette étude ont été conçues pour être aussi similaires que possible à celles présentées au groupe d'étudiants de premier cycle, ce qui limite la capacité des auteurs à faire des affirmations sur la fiabilité interne et la généralisation des réponses LLM obtenues. Les résultats du LLM varient souvent de manière stochastique et sont très sensibles à la formulation spécifique du questionnaire. Leurs paramètres représentent également une cible mobile, s'ajustant continuellement en réponse à l'accumulation des données de l'utilisateur. Par conséquent, les recherches futures devraient envisager des techniques telles que la fourniture de plusieurs versions d'une seule invite, l'échantillonnage de plusieurs réponses à partir de la même invite et l'échantillonnage du même LLM sur de longues périodes de temps. En outre, les chercheurs pourraient échantillonner plusieurs LLM différents afin de réduire les idiosyncrasies entre les évaluations morales par rapport à celles échantillonnées chez les humains.
Les passages moralement évaluatifs générés par l'IA et utilisés dans cette étude ont été limités par les données d'apprentissage du modèle de manière à surreprésenter certaines qualités, telles que les idéologies politiques occidentales dominantes. Dans cette étude, ce choix a permis un certain degré de contrôle expérimental puisque les auteurs humains étaient également issus d'une population occidentale. Cependant, ces évaluations morales ne sont pas nécessairement représentatives de celles qui sont communes aux sociétés non occidentales. Les chercheurs qui s'intéressent à la variabilité interculturelle de l'attribution de la source morale doivent tenir compte à la fois de la comparabilité sociodémographique de leurs ensembles de stimuli et de la généralisation plus large de leurs résultats.
Les commentaires libres des participants, exprimant les raisons pour lesquelles ils pensaient que la réponse sélectionnée était générée par ordinateur, n'ont apporté qu'un éclairage limité. Le seul thème vérifiable qui a émergé était que les passages générés par ordinateur étaient apparemment plus rationnels que les passages générés par l'homme - un résultat qui est cohérent avec l'attribution initiale de rationalité faite avant qu'il ne soit révélé que la moitié des passages étaient générés par ordinateur. Il est possible que d'autres thèmes émergent en utilisant des procédures de codage différentes, telles que des catégories thématiques différentes ou des définitions plus précises de ces catégories, ce qui augmenterait la...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.