Dans un rapport de recherche intitulé Humor Me: An Exploration of ChatGPT’s Humor Ability, qui vise à évaluer la capacité de ChatGPT-3.5 à comprendre et à générer de l’humour, deux chercheurs allemands, Sophie Jentzsch et Kristian Kersting, qui sont associés à l’Institut de technologie logicielle, au Centre aérospatial allemand (DLR) et à l’Université technique de Darmstadt, ont publié le 9 juin 2023 les conclusions de leurs travaux. L’humour est considéré comme une caractéristique humaine complexe et subtile, qui implique la capacité à créer et à reconnaître des incongruités, des ambiguïtés ou des absurdités dans le langage ou dans les situations.
L'humour est un aspect essentiel de la communication humaine qui n'a pas encore été résolu pour les agents artificiels. Les modèles de langage à grande échelle (LLM) sont de plus en plus capables de capturer des informations implicites et contextuelles. En particulier, l’outil d’IA ChatGPT d'OpenAI a récemment fait l'objet d'une grande attention de la part du public.
Le modèle basé sur GPT3 semble presque communiquer à un niveau humain et peut même raconter des blagues. L'humour est un élément essentiel de la communication humaine. Mais ChatGPT est-il vraiment drôle ? Des chercheurs ont testé le sens de l'humour de ChatGPT.
Dans le cadre d'expériences exploratoires sur les blagues, c'est-à-dire la génération, l'explication et la détection, les chercheurs ont voulu comprendre la capacité de ChatGPT à saisir et à produire de l'humour. Il ressort que plus de 90 % des 1008 blagues générées sont les mêmes ; l’outil d’IA ChatGPT préfère répéter 25 blagues à l'infini. Le système explique avec précision les blagues valides, mais ne fournit pas toujours d'explications fantaisistes pour les blagues non valides.
ChatGPT pourrait constituer un grand pas en avant vers les machines « drôles ». Les chercheurs ont mené trois types d’expériences en utilisant ChatGPT comme interlocuteur, sans avoir accès à son fonctionnement interne ou à son ensemble de données. La première expérience consistait à demander à ChatGPT de raconter une blague mille fois, en utilisant différents types de formulations.
La deuxième expérience consistait à demander à ChatGPT d’expliquer le sens ou le mécanisme des blagues qu’il avait générées ou qu’on lui avait fournies. La troisième expérience consistait à demander à ChatGPT de détecter si une phrase était une blague, une affirmation sérieuse ou une affirmation ironique.
Sous chaque condition sont indiqués les pourcentages d'échantillons qui ont été classés comme blagues (vert), potentiellement drôles (jaune) et pas drôles (rouge). Dans la condition (A) Moins le jeu de mots, l'élément comique, et donc la blague elle-même, a été supprimé. Pour la condition (B) Moins le sujet, le sujet spécifique à la blague a été éliminé en plus, par exemple en supprimant les personnifications. La condition (C) Moins la structure maintient la validité de la blague intacte, mais en supprimant la structure typique d'une phrase à simple énoncé. Pour la condition (D) Moins le sujet, le sujet spécifique à la blague a été éliminé en plus, par exemple en supprimant les personnifications, La condition (C) moins la structure maintient la validité de la blague en place en utilisant l'exemple typique d'une structure à une phrase unique. A partir de là, l'élément de comparaison a été supprimé pour créer la condition (D) moins le jeu de mots.
Les expériences de chercheurs sont regroupées en trois tâches individuelles. Les détails de la mise en œuvre et les résultats détaillés sont disponibles sur GitHub. Dans toutes les expériences, chaque incitation a été effectuée dans une conversation vide afin d'éviter toute influence indésirable. Pour effectuer un grand nombre d'incitations avec le service Web ChatGPT d'OpenAI, certains obstacles devaient être surmontés.
Réagissant à l'étude sur Twitter, Riley Goodside, ingénieur de Scale AI, a attribué le manque d'humour de ChatGPT à l'apprentissage par renforcement à travers le feedback humain (RLHF), une technique qui guide l'entraînement des modèles de langage en recueillant le feedback humain : « L'effet le plus visible du RLHF est que le modèle suit les ordres et que les LLM de base sont beaucoup plus difficiles à inciter dans la pratique. Mais cet avantage n'est pas gratuit - vous le payez en créativité, plus ou moins ».
Malgré les limites de ChatGPT en matière de génération et d'explication de blagues, les chercheurs ont souligné que l'accent mis sur le contenu et la signification de l'humour indique un progrès vers une compréhension plus complète de l'humour dans les modèles de langage :
« Les observations de cette étude illustrent comment ChatGPT a plutôt appris un modèle de blague spécifique au lieu d'être capable d'être réellement drôle », écrivent les chercheurs. « Néanmoins, dans la génération, l'explication et l'identification des blagues, ChatGPT se concentre sur le contenu et le sens et pas tellement sur les caractéristiques superficielles. Ces qualités peuvent être exploitées pour stimuler les applications computationnelles de l'humour. Par rapport aux précédents LLM, cela peut être considéré comme un grand pas en avant vers une compréhension générale de l'humour. »
Les résultats des expériences ont montré que ChatGPT avait une connaissance limitée des blagues et qu’il préférait répéter les mêmes 25 blagues qu’il avait apprises et mémorisées lors de son entraînement plutôt que d’en générer de nouvelles. Ces blagues étaient généralement des questions-réponses simples et courtes, basées sur des jeux de mots ou des calembours.
Les auteurs ont également constaté que ChatGPT avait du mal à expliquer le sens ou le mécanisme des blagues, et qu’il donnait souvent des réponses vagues, incomplètes ou erronées. Par exemple, il n’a pas pu expliquer pourquoi la blague Why did the chicken cross the road? / To get to the other side. était drôle, et il a confondu le sens littéral et figuré de the other side. Enfin, les auteurs ont observé que ChatGPT confondait souvent les blagues avec des affirmations sérieuses ou ironiques, et qu’il ne tenait pas compte du contexte ou du ton dans lequel les phrases étaient prononcées.
Source : Technical University Darmstadt
Et vous ?
Trouvez-vous pertinentes les conclusions de ces recherches ?
Quel est votre avis sur le sujet ?
Voir aussi :
Lyon : ChatGPT utilisé par la moitié des élèves de Master d'un professeur pour rédiger leurs devoirs. « Cette pratique m'inquiète. Elle pose un véritable problème d'intégration des savoirs »
Une enquête révèle que certaines entreprises remplacent déjà les travailleurs par ChatGPT, malgré les avertissements selon lesquels il ne faut pas s'y fier pour "quoi que ce soit d'important"
ChatGPT, l'outil d'IA préfère répéter 25 blagues à l'infini, plus de 90 % de 1008 blagues générées sont les mêmes,
D'après un résultat de recherches
ChatGPT, l'outil d'IA préfère répéter 25 blagues à l'infini, plus de 90 % de 1008 blagues générées sont les mêmes,
D'après un résultat de recherches
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !