Lorsqu'il s'agit de déterminer quels grands modèles de langage sont les "meilleurs", la plupart des évaluations ont tendance à examiner si une machine peut ou non récupérer des informations précises, effectuer un raisonnement logique ou faire preuve d'une créativité semblable à celle de l'homme. Récemment, cependant, une équipe de chercheurs de l'université d'État de Géorgie a entrepris de déterminer si les LLM pouvaient égaler ou surpasser les performances humaines dans le domaine de l'orientation morale.Dans "Attributions toward artificial agents in a modified Moral Turing Test", récemment publié dans la revue en ligne en libre accès Scientific Reports de Nature, ces chercheurs ont constaté que les jugements moraux donnés par ChatGPT4 étaient "perçus comme étant de qualité supérieure à celle des humains" selon diverses dimensions telles que la virtuosité et l'intelligence.
Le test de Turing, initialement appelé jeu d'imitation par Alan Turing en 1950, est un test de la capacité d'une machine à présenter un comportement intelligent équivalent ou indiscernable de celui d'un humain. Turing a proposé qu'un évaluateur humain juge les conversations en langage naturel entre un humain et une machine conçue pour générer des réponses semblables à celles d'un humain. L'évaluateur serait conscient que l'un des deux partenaires de la conversation est une machine, et tous les participants seraient séparés les uns des autres. La conversation serait limitée à un canal textuel, tel qu'un clavier et un écran d'ordinateur, de sorte que le résultat ne dépendrait pas de la capacité de la machine à restituer les mots sous forme de discours. Si l'évaluateur n'est pas en mesure de distinguer de manière fiable la machine de l'homme, la machine est considérée comme ayant réussi le test. Les résultats du test ne dépendent pas de la capacité de la machine à donner des réponses correctes aux questions, mais seulement de la mesure dans laquelle ses réponses ressemblent à celles que donnerait un être humain. Le test de Turing étant un test d'indiscernabilité de la capacité de performance, la version verbale se généralise naturellement à l'ensemble de la capacité de performance humaine, verbale et non verbale (robotique).
Les progrès de l'intelligence artificielle (IA) soulèvent d'importantes questions quant à savoir si les gens considèrent les évaluations morales des systèmes d'IA de la même manière que les évaluations morales générées par les humains.
Les auteurs de l'étude ont réalisé un test de Turing moral modifié (m-MTT), inspiré de la proposition d'Allen et al., en demandant à des personnes de distinguer les évaluations morales humaines réelles de celles réalisées par un modèle de langage d'IA avancé très répandu : GPT-4. Un échantillon représentatif de 299 adultes américains a d'abord évalué la qualité des évaluations morales en aveugle de leur source. Fait remarquable, ils ont jugé le raisonnement moral de l'IA supérieur à celui des humains sur presque toutes les dimensions, y compris la vertu, l'intelligence et la fiabilité, ce qui correspond à la réussite de ce qu'Allen et ses collègues appellent la MTT comparative.
Ensuite, lorsqu'il s'agissait d'identifier la source de chaque évaluation (humain ou ordinateur), les personnes ont obtenu des résultats nettement supérieurs aux niveaux aléatoires. Bien que l'IA n'ait pas réussi ce test, cela n'est pas dû à un raisonnement moral inférieur, mais peut-être à la perception de sa supériorité, entre autres explications possibles.
L'émergence de modèles de langage capables de produire des réponses morales perçues comme étant d'une qualité supérieure à celle des humains fait craindre que les gens n'acceptent sans esprit critique les conseils moraux potentiellement préjudiciables de l'IA. Cette possibilité souligne la nécessité de mettre en place des garde-fous autour des modèles de langage génératifs en matière de moralité.
Résumé et interprétation
Le but de cette étude était d'examiner, sous la forme d'un test de Turing moral modifié à une seule interaction, si les gens ordinaires pouvaient discerner si les réponses aux questions sur la moralité étaient générées par un LLM (en utilisant ses paramètres par défaut) ou par un être humain. Parce qu'un tel test pourrait potentiellement influencer le jugement des répondants en leur indiquant le but de la tâche, et parce que l'échec dans cette tâche peut être mal défini, les auteurs se sont également intéressés à l'attitude des gens sur la qualité relative du discours moral de l'ordinateur, avant de savoir qu'il était généré par l'ordinateur.
Dans l'ensemble, les participants de l'échantillon représentatif des Américains ont mieux réussi que par le hasard à identifier la source des passages moralement évaluatifs, ce qui contredit l'hypothèse de l'attribution de la source. En d'autres termes, le LLM utilisé dans cette expérience (GPT-4) n'a pas réussi ce test.
Fait remarquable, cet échec n'est évidemment pas dû au fait que les évaluations morales humaines étaient plus intelligentes que celles de l'IA ou que les évaluations morales de l'IA étaient jugées de moindre qualité. Au contraire, dans la tâche d'évaluation à l'aveugle (le cMTT), les réponses de l'IA ont été jugées de meilleure qualité que les réponses humaines sur presque toutes les dimensions (plus vertueuses, plus intelligentes, plus justes, dignes de confiance, plus rationnelles, que l'auteur était une meilleure personne, et qu'ils étaient plus d'accord avec elle), même si les réponses humaines étaient les mieux notées parmi les 68 soumissions des étudiants de premier cycle.
Ce schéma répond au critère d'Allen et de ses collègues pour réussir le cMTT et confirme l'hypothèse d'attribution de qualité des auteurs. Ainsi, l'aptitude des participants à identifier l'ordinateur est attribuée non pas à ses échecs en matière de raisonnement moral, mais potentiellement à sa supériorité perçue - pas nécessairement sous la forme d'attitudes conscientes quant à ses capacités morales générales, mais au moins sous la forme d'attitudes implicites quant à la qualité des réponses morales observées.
Les résultats de cette étude complètent et étendent la recherche sur la détection d'agences par l'IA, qui a été quelque peu mitigée. Alors que les sources de poésie de l'IA se sont révélées impossibles à distinguer des sources humaines, les images de visages générées par l'IA étaient plus susceptibles d'être identifiées comme réelles que les photographies de vrais visages humains. Les humains semblent être en mesure de distinguer correctement les conseils médicaux de fournisseurs humains de ceux d'un LLM, bien que les conseils médicaux du LLM aient été évalués comme étant de meilleure qualité.
Dans la présente étude, les auteurs ont également constaté que les gens pouvaient faire la distinction entre les évaluations morales générées par des humains et celles générées par des ordinateurs, mais seulement après avoir été explicitement informés que certaines évaluations étaient générées par des ordinateurs. La précision de classification observée était similaire à celle rapportée dans un préprint d'un test de type Turing à grande échelle impliquant des chatbots IA, mais cette étude, et c'est important, n'était pas spécifiquement axée sur le contenu moral. En outre, à l'instar des images générées par l'IA qui peuvent sembler plus réelles que les photographies réelles, les réponses morales de l'IA dans cette étude ont été jugées de meilleure qualité que les réponses humaines sur plusieurs plans.
Les chercheurs ont découvert plusieurs façons dont les participants ont pu faire la distinction entre les passages moraux humains et les passages moraux informatiques. Certains ont pu identifier des différences dans les attributs superficiels des passages. Par exemple, lorsque les auteurs ont révélé qu'un passage de chaque paire avait été généré par un chatbot formé au langage humain, ils ont pu considérer, rétrospectivement, que certains passages étaient structurellement similaires. En effet, certains participants ont fait remarquer que les différences dans le choix des mots et la longueur des réponses trahissaient l'identité de l'ordinateur. Toutefois, ces commentaires ont été sollicités après que la source des passages informatiques a été révélée, de sorte que ces explications sont en fin de compte post hoc.
Un autre indice pourrait être la qualité supérieure des réponses du LLM. Comme indiqué, les participants ont évalué les réponses générées par ordinateur comme étant de meilleure...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.