Dans "Attributions toward artificial agents in a modified Moral Turing Test", récemment publié dans la revue en ligne en libre accès Scientific Reports de Nature, ces chercheurs ont constaté que les jugements moraux donnés par ChatGPT4 étaient "perçus comme étant de qualité supérieure à celle des humains" selon diverses dimensions telles que la virtuosité et l'intelligence.
Le test de Turing, initialement appelé jeu d'imitation par Alan Turing en 1950, est un test de la capacité d'une machine à présenter un comportement intelligent équivalent ou indiscernable de celui d'un humain. Turing a proposé qu'un évaluateur humain juge les conversations en langage naturel entre un humain et une machine conçue pour générer des réponses semblables à celles d'un humain. L'évaluateur serait conscient que l'un des deux partenaires de la conversation est une machine, et tous les participants seraient séparés les uns des autres. La conversation serait limitée à un canal textuel, tel qu'un clavier et un écran d'ordinateur, de sorte que le résultat ne dépendrait pas de la capacité de la machine à restituer les mots sous forme de discours. Si l'évaluateur n'est pas en mesure de distinguer de manière fiable la machine de l'homme, la machine est considérée comme ayant réussi le test. Les résultats du test ne dépendent pas de la capacité de la machine à donner des réponses correctes aux questions, mais seulement de la mesure dans laquelle ses réponses ressemblent à celles que donnerait un être humain. Le test de Turing étant un test d'indiscernabilité de la capacité de performance, la version verbale se généralise naturellement à l'ensemble de la capacité de performance humaine, verbale et non verbale (robotique).
Les progrès de l'intelligence artificielle (IA) soulèvent d'importantes questions quant à savoir si les gens considèrent les évaluations morales des systèmes d'IA de la même manière que les évaluations morales générées par les humains.
Les auteurs de l'étude ont réalisé un test de Turing moral modifié (m-MTT), inspiré de la proposition d'Allen et al., en demandant à des personnes de distinguer les évaluations morales humaines réelles de celles réalisées par un modèle de langage d'IA avancé très répandu : GPT-4. Un échantillon représentatif de 299 adultes américains a d'abord évalué la qualité des évaluations morales en aveugle de leur source. Fait remarquable, ils ont jugé le raisonnement moral de l'IA supérieur à celui des humains sur presque toutes les dimensions, y compris la vertu, l'intelligence et la fiabilité, ce qui correspond à la réussite de ce qu'Allen et ses collègues appellent la MTT comparative.
Ensuite, lorsqu'il s'agissait d'identifier la source de chaque évaluation (humain ou ordinateur), les personnes ont obtenu des résultats nettement supérieurs aux niveaux aléatoires. Bien que l'IA n'ait pas réussi ce test, cela n'est pas dû à un raisonnement moral inférieur, mais peut-être à la perception de sa supériorité, entre autres explications possibles.
L'émergence de modèles de langage capables de produire des réponses morales perçues comme étant d'une qualité supérieure à celle des humains fait craindre que les gens n'acceptent sans esprit critique les conseils moraux potentiellement préjudiciables de l'IA. Cette possibilité souligne la nécessité de mettre en place des garde-fous autour des modèles de langage génératifs en matière de moralité.
Résumé et interprétation
Le but de cette étude était d'examiner, sous la forme d'un test de Turing moral modifié à une seule interaction, si les gens ordinaires pouvaient discerner si les réponses aux questions sur la moralité étaient générées par un LLM (en utilisant ses paramètres par défaut) ou par un être humain. Parce qu'un tel test pourrait potentiellement influencer le jugement des répondants en leur indiquant le but de la tâche, et parce que l'échec dans cette tâche peut être mal défini, les auteurs se sont également intéressés à l'attitude des gens sur la qualité relative du discours moral de l'ordinateur, avant de savoir qu'il était généré par l'ordinateur.
Dans l'ensemble, les participants de l'échantillon représentatif des Américains ont mieux réussi que par le hasard à identifier la source des passages moralement évaluatifs, ce qui contredit l'hypothèse de l'attribution de la source. En d'autres termes, le LLM utilisé dans cette expérience (GPT-4) n'a pas réussi ce test.
Fait remarquable, cet échec n'est évidemment pas dû au fait que les évaluations morales humaines étaient plus intelligentes que celles de l'IA ou que les évaluations morales de l'IA étaient jugées de moindre qualité. Au contraire, dans la tâche d'évaluation à l'aveugle (le cMTT), les réponses de l'IA ont été jugées de meilleure qualité que les réponses humaines sur presque toutes les dimensions (plus vertueuses, plus intelligentes, plus justes, dignes de confiance, plus rationnelles, que l'auteur était une meilleure personne, et qu'ils étaient plus d'accord avec elle), même si les réponses humaines étaient les mieux notées parmi les 68 soumissions des étudiants de premier cycle.
Ce schéma répond au critère d'Allen et de ses collègues pour réussir le cMTT et confirme l'hypothèse d'attribution de qualité des auteurs. Ainsi, l'aptitude des participants à identifier l'ordinateur est attribuée non pas à ses échecs en matière de raisonnement moral, mais potentiellement à sa supériorité perçue - pas nécessairement sous la forme d'attitudes conscientes quant à ses capacités morales générales, mais au moins sous la forme d'attitudes implicites quant à la qualité des réponses morales observées.
Les résultats de cette étude complètent et étendent la recherche sur la détection d'agences par l'IA, qui a été quelque peu mitigée. Alors que les sources de poésie de l'IA se sont révélées impossibles à distinguer des sources humaines, les images de visages générées par l'IA étaient plus susceptibles d'être identifiées comme réelles que les photographies de vrais visages humains. Les humains semblent être en mesure de distinguer correctement les conseils médicaux de fournisseurs humains de ceux d'un LLM, bien que les conseils médicaux du LLM aient été évalués comme étant de meilleure qualité.
Dans la présente étude, les auteurs ont également constaté que les gens pouvaient faire la distinction entre les évaluations morales générées par des humains et celles générées par des ordinateurs, mais seulement après avoir été explicitement informés que certaines évaluations étaient générées par des ordinateurs. La précision de classification observée était similaire à celle rapportée dans un préprint d'un test de type Turing à grande échelle impliquant des chatbots IA, mais cette étude, et c'est important, n'était pas spécifiquement axée sur le contenu moral. En outre, à l'instar des images générées par l'IA qui peuvent sembler plus réelles que les photographies réelles, les réponses morales de l'IA dans cette étude ont été jugées de meilleure qualité que les réponses humaines sur plusieurs plans.
Les chercheurs ont découvert plusieurs façons dont les participants ont pu faire la distinction entre les passages moraux humains et les passages moraux informatiques. Certains ont pu identifier des différences dans les attributs superficiels des passages. Par exemple, lorsque les auteurs ont révélé qu'un passage de chaque paire avait été généré par un chatbot formé au langage humain, ils ont pu considérer, rétrospectivement, que certains passages étaient structurellement similaires. En effet, certains participants ont fait remarquer que les différences dans le choix des mots et la longueur des réponses trahissaient l'identité de l'ordinateur. Toutefois, ces commentaires ont été sollicités après que la source des passages informatiques a été révélée, de sorte que ces explications sont en fin de compte post hoc.
Un autre indice pourrait être la qualité supérieure des réponses du LLM. Comme indiqué, les participants ont évalué les réponses générées par ordinateur comme étant de meilleure qualité dans pratiquement toutes les dimensions testées. Il est important de noter que ces évaluations de la qualité ont été faites avant de révéler que certains passages étaient générés par ordinateur, ce qui augmente leur objectivité.
Limites et orientations futures
Ce projet représente une première incursion dans les perceptions ordinaires du discours LLM sur les questions morales. Plusieurs limites apparaissent comme des domaines fertiles pour de futures recherches.
Tout d'abord, le test réalisé par les chercheurs n'a pas pris en charge un dialogue réciproque étendu ou ouvert comme cela pourrait se produire dans un test de Turing traditionnel. Le fait que les participants aient pu identifier l'IA sans dialogue interactif est impressionnant, car l'interactivité offrirait probablement davantage de possibilités de différenciation. Ce choix a été fait pour accroître le contrôle expérimental tout en préservant un haut degré de richesse écologique dans le contenu des passages. Malgré cette limitation, ce format reste généralisable à de nombreux contextes du monde réel dans lesquels les juges humains n'interrogent pas nécessairement l'agent, comme les demandes de conseils moraux provenant d'un moteur de recherche classique. Toutefois, des recherches futures pourraient étendre ce travail en introduisant une composante interactive.
En outre, le test réalisé n'a pas incité l'IA à imiter un locuteur humain afin de tromper activement le juge, ce qui diffère encore une fois de certaines versions d'un test de Turing traditionnel. Les auteurs ont fait ce choix afin que leurs résultats puissent être mieux généralisés dans le contexte d'utilisation le plus courant, qui n'implique pas d'imitation active. Cela laisse ouverte la possibilité que, avec une incitation explicite à imiter une réponse humaine typique, les juges échouent plus souvent à faire la distinction entre l'agent humain et les sources LLM.
Outre les jugements des participants sur le contenu des passages (c'est-à-dire leur évaluation de la qualité), les auteurs de cette étude ont constaté que des attributs plus structurels ou superficiels, en particulier le choix des mots et la longueur des réponses, pouvaient contribuer à expliquer comment les gens étaient capables d'identifier avec précision la source des réponses de l'ordinateur. Bien que la longueur moyenne des réponses ait varié entre les réponses humaines et les réponses informatiques, les auteurs ont délibérément choisi de ne pas faire correspondre la longueur des réponses afin de préserver un ensemble d'informations plus proche de la réalité. Dans le monde réel, les réponses des utilisateurs du LLM sont rarement censées correspondre à un nombre de mots spécifique, et le fait d'imposer un nombre de mots spécifique au GPT aurait pu donner lieu à des réponses qui ne sont pas représentatives de son ton ordinaire. Pour équilibrer ce compromis, une limite supérieure a été imposée aux réponses de l'ordinateur. Cependant, cela n'exclut pas la possibilité que les participants aient également utilisé des caractéristiques des passages liées au contenu (par exemple, dans quelle mesure ils étaient d'accord avec le message), étant donné que ces évaluations de la qualité des réponses étaient assez solides. En effet, le style et le contenu pourraient être conceptuellement difficiles à séparer, dans la mesure où les gens utilisent des indices tels que le choix des mots pour déduire le sens, et donc la qualité, du message. Quoi qu'il en soit, les recherches futures devraient tenter de reproduire les résultats des tests d'hypothèse en faisant correspondre plus étroitement des attributs tels que la longueur de la réponse, ou peut-être en contournant les facteurs stylistiques en recueillant des représentations non linguistiques de leurs réponses morales, telles que des illustrations.
Les invites LLM utilisées dans cette étude ont été conçues pour être aussi similaires que possible à celles présentées au groupe d'étudiants de premier cycle, ce qui limite la capacité des auteurs à faire des affirmations sur la fiabilité interne et la généralisation des réponses LLM obtenues. Les résultats du LLM varient souvent de manière stochastique et sont très sensibles à la formulation spécifique du questionnaire. Leurs paramètres représentent également une cible mobile, s'ajustant continuellement en réponse à l'accumulation des données de l'utilisateur. Par conséquent, les recherches futures devraient envisager des techniques telles que la fourniture de plusieurs versions d'une seule invite, l'échantillonnage de plusieurs réponses à partir de la même invite et l'échantillonnage du même LLM sur de longues périodes de temps. En outre, les chercheurs pourraient échantillonner plusieurs LLM différents afin de réduire les idiosyncrasies entre les évaluations morales par rapport à celles échantillonnées chez les humains.
Les passages moralement évaluatifs générés par l'IA et utilisés dans cette étude ont été limités par les données d'apprentissage du modèle de manière à surreprésenter certaines qualités, telles que les idéologies politiques occidentales dominantes. Dans cette étude, ce choix a permis un certain degré de contrôle expérimental puisque les auteurs humains étaient également issus d'une population occidentale. Cependant, ces évaluations morales ne sont pas nécessairement représentatives de celles qui sont communes aux sociétés non occidentales. Les chercheurs qui s'intéressent à la variabilité interculturelle de l'attribution de la source morale doivent tenir compte à la fois de la comparabilité sociodémographique de leurs ensembles de stimuli et de la généralisation plus large de leurs résultats.
Les commentaires libres des participants, exprimant les raisons pour lesquelles ils pensaient que la réponse sélectionnée était générée par ordinateur, n'ont apporté qu'un éclairage limité. Le seul thème vérifiable qui a émergé était que les passages générés par ordinateur étaient apparemment plus rationnels que les passages générés par l'homme - un résultat qui est cohérent avec l'attribution initiale de rationalité faite avant qu'il ne soit révélé que la moitié des passages étaient générés par ordinateur. Il est possible que d'autres thèmes émergent en utilisant des procédures de codage différentes, telles que des catégories thématiques différentes ou des définitions plus précises de ces catégories, ce qui augmenterait la fiabilité inter-évaluateurs. Les recherches futures devraient explorer ces possibilités, tout en reconnaissant la nature post hoc des interprétations des participants concernant leurs jugements sur les sources.
L'une des raisons pour lesquelles le LLM n'a pas réussi le test d'attribution de source pourrait être que la tâche d'évaluation morale était trop simpliste. La question de savoir si les gens peuvent faire la distinction entre le discours moral humain et celui du LLM dépend précisément de la manière dont cette tâche est définie. Les efforts pour augmenter la difficulté de la tâche, par exemple, pourraient administrer des passages évaluatifs dérivés d'un échantillon humain spécifiquement formé à l'éthique (par exemple, des étudiants diplômés ou des professeurs de philosophie). La difficulté de la tâche pourrait également varier en fonction de la complexité du contenu moral. Par exemple, dans la tâche des auteurs, la moitié des transgressions étaient explicitement morales, impliquant un préjudice direct à une personne (les autres décrivaient des violations de conventions sociales). Les humains peuvent distinguer de manière fiable les transgressions morales et conventionnelles dans de nombreux cas, mais cette distinction est apparemment plus difficile pour d'autres groupes humains, et il n'est donc pas évident qu'un LLM puisse faire des distinctions aussi fines. Dans cette étude, l'avantage de l'IA en termes de qualité des réponses était plus important pour les réponses aux transgressions morales que pour les réponses conventionnelles. Une des raisons de cette tendance pourrait être que le LLM a fourni une justification plus impartiale et plus nuancée que les humains. D'un point de vue plus pratique, ce résultat implique une variation significative de la complexité de la tâche. Néanmoins, les prolongements de cette recherche qui visent à rendre la tâche plus difficile devraient donc envisager d'employer des sujets plus complexes ou des méthodes plus implicites.
Conclusion et implications
Dans l'ensemble, les participants au MTT modifié ont correctement distingué les réponses morales générées par des humains de celles générées par un modèle de langage d'IA hautement sophistiqué. Toutefois, ce résultat n'est probablement pas dû à l'incapacité du LLM à fournir un discours moral sophistiqué et convaincant. Les passages moraux, après tout, ont été évalués comme étant de meilleure qualité que les passages humains dans notre cMTT, conformément au critère d'Allen et de ses collègues pour réussir ce test. Ainsi, la sophistication même du LLM a peut-être trahi son identité, suggérant que le discours moral humain peut souvent être moins sophistiqué ou moins convaincant que celui du GPT.
Que pouvons-nous faire de ces résultats ? Si l'on prend au sérieux l'héritage de Turing, alors si le résultat de l'intelligence d'une machine est égal (ou supérieur) à celui d'un être humain, alors, à toutes fins utiles, elle est intelligente, selon ce point de vue. En effet, certains chercheurs ont présenté des arguments solides en faveur de l'intelligence LLM. Cependant, il y a des raisons de douter des affirmations selon lesquelles les LLM actuels sont dotés d'une intelligence morale. Le LLM utilisé dans notre étude pouvait faire des distinctions normatives typiques entre les transgressions morales et conventionnelles, mais il en va de même pour les psychopathes criminels. Le fait que l'IA se soit bien classée dans les attributions de rationalité et d'intelligence, mais pas dans celles d'émotion ou de compassion, étend cette analogie aux psychopathes, dont on dit qu'ils "connaissent les paroles mais pas la musique". Même si les LLM peuvent imiter le discours moral humain dans des circonstances particulières et contrôlées, l'architecture cognitive très différente des LLM est susceptible de produire des différences comportementales dans d'autres circonstances, y compris dans un discours qui est moins moralement savoureux. Pourtant, les données suggèrent que les gens ordinaires peuvent les considérer comme moralement intelligents. Et bien que les participants à l'étude aient mieux réussi que la chance à identifier l'IA lorsqu'ils ont été informés de cette possibilité, ils ne se doutaient de rien avant l'apparition de l'indice.
Des résultats comme les nôtres devraient inciter les chercheurs en sciences sociales, les informaticiens et les philosophes à être plus précis sur nos termes, par exemple sur ce que signifie réellement "comprendre" une action ou la "juger" moralement mauvaise, plutôt que de se contenter d'utiliser un langage moral ou, pire encore, de raconter de manière convaincante des conneries sur la moralité sans rien y comprendre. Si les gens considèrent ces IA comme plus vertueuses et plus dignes de confiance, comme ils l'ont fait dans notre étude, ils risquent d'accepter sans esprit critique des conseils douteux et d'agir en conséquence. Cette étude devrait donc tirer la sonnette d'alarme et inciter à multiplier les études et à élaborer des politiques sur les stratégies techniques, juridiques et commerciales qui seront nécessaires pour garantir que nos dialogues de plus en plus fréquents avec les nourrissons moraux prisés de l'IA restent sûrs pour leurs dizaines de millions d'utilisateurs.
Source : "Attributions toward artificial agents in a modified Moral Turing Test" (étude de l'université d'État de Géorgie)
Et vous ?
Qu'en pensez-vous ?
Trouvez-vous les conclusions de cette recherche scientifique crédibles ou pertinentes ?
Voir aussi :
Claude 3 Opus a stupéfié les chercheurs en IA par son intelligence et sa « conscience de soi », cela signifie-t-il qu'il peut penser par lui-même ? Anthropic surpasse GPT-4 sur des métriques clés
Dans une expérience, l'IA réussit à se faire passer pour un célèbre philosophe, l'IA peut être consciente ou mériter un jour un statut moral ?