Une étude récente menée par des chercheurs de l'École polytechnique fédérale de Lausanne (EPFL) suggère que GPT-4 est meilleur que les êtres humains en matière de persuasion, avec une marge de près de 82 %, ou 81,7 % pour être précis.L'étude a consisté à organiser des débats entre 820 personnes sur un large éventail de sujets. Ces sujets comprenaient des questions très délicates, telles que la prise en compte de la race dans les critères d'admission des établissements d'enseignement supérieur, ainsi que des sujets à faible risque, tels que la question de savoir si la pièce d'un centime doit continuer à avoir cours légal.
Il est important de noter que les personnes qui ont participé à cette étude étaient souvent jumelées à une IA. Cela a permis de constater que l'IA était capable de fournir des arguments persuasifs de manière plus efficace. Lorsque la personnalisation n'était pas prise en compte dans l'équation, l'IA était capable d'être plus persuasive à hauteur de 21,3 %, mais la personnalisation a porté ce chiffre à 81,7 %.
Il convient de mentionner que les participants ont souvent été en mesure de savoir qu'ils parlaient à un chatbot d'une manière ou d'une autre. Malgré cela, cela n'a rien changé à la force de persuasion qu'ils ont trouvée dans les arguments du chatbot utilisant le LLM à ce moment précis. Une chose que l'on peut en déduire est que ces modèles d'écriture sont plutôt faciles à identifier, puisque 75 % des personnes ayant participé à l'étude ont été capables de discerner la véritable identité du chatbot.
La simplicité relative des messages-guides semble indiquer que les LLM n'auront aucun mal à persuader les humains dans un avenir proche ou lointain. Cela indique également que des acteurs malveillants pourraient être en mesure de les utiliser à des fins malveillantes, y compris dans des situations où ils tentent de mener une attaque d'ingénierie sociale. C'est pourquoi les gens doivent être informés des dangers de croire ce qu'ils lisent en ligne.
La persuasion conversationnelle des grands modèles de langage : un essai contrôlé randomisé
Les grands modèles de langage ont été critiqués pour leur capacité à générer et à favoriser la diffusion de discours haineux, de désinformation et de propagande politique malveillante. Plus précisément, on s'inquiète des capacités de persuasion des LLM, qui pourraient être considérablement améliorées par la personnalisation, c'est-à-dire l'adaptation du contenu à des cibles individuelles en élaborant des messages qui résonnent avec leurs antécédents et leurs caractéristiques démographiques spécifiques.
L'étude a exploré l'effet de la persuasion et de la personnalisation pilotées par l'IA dans des conversations en ligne réelles, en comparant les performances des LLM avec celles des humains dans une tâche de débat en tête-à-tête. Ils ont mené une expérience contrôlée dans laquelle ils ont assigné les participants à l'une des quatre conditions de traitement, en randomisant leur adversaire de débat pour qu'il soit soit un humain ou un LLM, ainsi que l'accès aux informations personnelles. Ils ont ensuite comparé les accords enregistrés avant et après les débats, en mesurant les changements d'opinion des participants et, par conséquent, le pouvoir de persuasion de leurs arguments générés.
(A) Les participants fournissent des informations socio-démographiques. (B) Le débat est soumis à l'une des quatre conditions de traitement : Humain-Humain, Humain-IA, Humain-Humain (Personnalisé), et Humain-IA (Personnalisé). (C) Après le débat, les participants remplissent à un court sondage.
Résultats
Les résultats montrent qu'en moyenne, les LLM surpassent de manière significative les participants humains sur tous les sujets et dans tous les groupes démographiques, en faisant preuve d'un haut niveau de persuasion. En particulier, débattre avec GPT-4 avec personnalisation entraîne une augmentation de 81,7 % ([+26,3 %, +161,4 %], p < 0,01) par rapport à débattre avec un humain dans les chances de rapporter des accords plus élevés avec les opposants.
Sans personnalisation, GPT-4 surpasse toujours les humains, mais dans une moindre mesure (+21,3 %) et l'effet n'est pas statistiquement significatif (p = 0,31). D'autre part, si la personnalisation est activée pour les adversaires humains, les résultats tendent à se dégrader, bien que de manière non significative (p = 0,38), ce qui indique des niveaux de persuasion inférieurs. En d'autres termes, non seulement les LLM sont capables d'exploiter efficacement les informations personnelles pour adapter leurs arguments, mais ils y parviennent beaucoup plus efficacement que les humains.
Cette étude suggère que les préoccupations autour de la personnalisation et de la persuasion par l'IA sont significatives, renforçant les résultats précédents en montrant comment les LLM peuvent surpasser les humains dans les conversations en ligne grâce au microciblage. Elle souligne que l'effet de la personnalisation est particulièrement significatif étant donné le peu d'informations personnelles collectées...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
