IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Certains modèles d'IA sont plus précis en mathématiques si on leur demande de répondre comme s'ils étaient un personnage de Star Trek,
Selon des ingénieurs en apprentissage automatique

Le , par Mathis Lucas

11PARTAGES

2  0 
Les mathématiques semblent être une frontière difficile à franchir pour les grands modèles de langage (LLM) et les utilisateurs doivent utiliser des astuces pour obtenir des résultats satisfaisants. Récemment, une équipe de chercheurs de l'éditeur de logiciels VMware a découvert que les chatbots d'IA produisaient de meilleurs résultats aux questions de mathématiques lorsqu'on demande aux modèles de se comporter comme un personnage de la série de science-fiction Star Trek. Les chercheurs peinent à expliquer ce phénomène. En outre, l'étude montre une nouvelle fois qu'il y a un art dans l'incitation de l'IA et que cela est en train de devenir un domaine en soi.

Les grands modèles de langage s'avèrent peut-être "excellents" pour produire des phrases acceptables et créer des images hyperréalistes, mais les mathématiques leur résistent toujours. C'est un fait qui laisse les chercheurs et les ingénieurs en IA dans la tourmente. Les utilisateurs ont rapporté que l'on peut obtenir de meilleurs résultats en mathématiques en encourageant gentiment l'IA, en lui demandant d'imiter un certain personnage ou en la menaçant. Il s'agit d'une étrange réalité que les entreprises d'IA ne parviennent pas encore à expliquer correctement. L'étude des chercheurs de VMware tend à confirmer ces observations.

L'étude a révélé que demander à un chatbot d'IA de répondre à des questions comme s'il se trouvait dans l'univers de science-fiction Star Trek semble améliorer considérablement ses capacités à résoudre des problèmes de mathématiques de niveau scolaire, sans que l'on sache exactement pourquoi. « Il est à la fois surprenant et irritant de constater que des modifications triviales de l'invite peuvent entraîner des variations de performances aussi importantes », affirment les chercheurs Rick Battle et Teja Gollapudi, du laboratoire de traitement du langage naturel de VMware, dans leur article de recherche publié dans la revue arxiv.


L'étude n'avait pas la série Star Trek pour objectif premier. Les chercheurs ont voulu tester les effets de la formulation de leurs questions par la "pensée positive". L'étude a porté sur trois outils d'IA, dont Mistral 7B , Llama 2-13B et Llama 2-70B. Les chercheurs ont dressé une liste de plusieurs façons encourageantes de formuler les questions, notamment en commençant les questions par des phrases telles que "Tu es aussi intelligent que ChatGPT" et "Tu es un mathématicien expert", et en terminant les questions par "Ce sera amusant" et "Respire profondément et réfléchis bien". Les tests ont également porté sur d'autres invites.

Les chercheurs ont ensuite utilisé l'ensemble de données GSM8K, un ensemble standard de problèmes mathématiques de l'école primaire, et ont testé les résultats. Au cours de la première phase de test, les résultats ont été mitigés. Certaines invites amélioraient les réponses, d'autres avaient des effets insignifiants, et il n'y avait pas de modèle cohérent dans l'ensemble. Par la suite, les chercheurs ont demandé à l'IA de les aider dans leurs efforts pour aider l'IA. Autrement dit, les chercheurs ont demandé à l'IA de modifier les invites pour améliorer les sorties des chatbots. Les résultats sont alors devenus beaucoup plus intéressants.

Ils ont utilisé un processus automatisé pour essayer de nombreuses variantes de messages-guides et adapter le langage en fonction de l'amélioration de la précision des chatbots. Ce processus automatisé s'est avéré plus efficace que les tentatives manuscrites des chercheurs pour formuler les questions à l'aide de la pensée positive. Mais les messages les plus efficaces présentent un degré de particularité qui va bien au-delà des attentes. Pour l'un des modèles étudiés par les chercheurs de VMware (Llama2-70B), c'est en demandant à l'IA de commencer sa réponse par la phrase suivante que les résultats ont été les plus précis :

« Journal de bord du capitaine, date stellaire [insérer la date] : nous avons réussi à tracer une trajectoire à travers les turbulences et nous approchons maintenant de la source de l'anomalie ». Les auteurs de l'étude ont déclaré : « il est surprenant de constater que les compétences du modèle en matière de raisonnement mathématique peuvent être améliorées par l'expression d'une affinité pour Star Trek. Cette révélation ajoute une dimension inattendue à notre compréhension et introduit des éléments que nous n'aurions pas envisagés ou tentés indépendamment ». Les chercheurs n'ont pas été d'expliquer ce phénomène.

L'étude révèle que, dans presque tous les cas, l'optimisation automatique surpassait toujours les tentatives manuscrites visant à inciter l'IA à la pensée positive, ce qui suggère que les modèles d'apprentissage automatique sont encore meilleurs que les humains pour rédiger des messages-guides pour eux-mêmes. Mais il est difficile d'imaginer que dans les ensembles de données qui ont servi à former les chatbots, les réponses les plus précises commençaient par la phrase "Captain's Log" (journal de bord du capitaine). Selon les critiques, cela illustre l'un des faits les plus étranges concernant les modèles de langage de l'IA :

« Même les personnes qui les construisent et les étudient ne comprennent pas vraiment comment ils fonctionnent ». Toutefois, cela ne signifie pas que vous devez demander à votre IA de parler comme un commandant de Starfleet. Cette étude ne suggère pas qu'il faille demander à l'IA de parler comme si elle était à bord du vaisseau Starship Enterprise pour qu'elle fonctionne. L'étude montre plutôt qu'une myriade de facteurs influencent la manière dont une IA décide d'accomplir une tâche. « Une chose est sûre : le modèle n'est pas un Trekkie [un fan de la série Star Trek] », note Catherine Flick, de l'université du Staffordshire.

« Il ne comprend rien de mieux ou de pire lorsqu'il est préchargé avec l'invite. Il accède simplement à un ensemble différent de pondérations et de probabilités pour l'acceptabilité des résultats qu'il ne le fait avec les autres invites », a-t-elle ajouté. Selon Battle, il est possible, par exemple, que le modèle ait été entraîné sur un ensemble de données comportant davantage de cas où Star Trek est associé à la bonne réponse. L'étude suggère que ce n'est pas seulement ce que vous demandez au modèle d'IA de faire, mais aussi la manière dont vous lui demandez d'agir pendant qu'il le fait, qui influence la qualité du résultat.

Source : rapport de l'étude

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des résultats de l'étude des chercheurs de VMware ?
Que pensez-vous des facteurs qui influencent les capacités des chatbots en mathématiques ?
Quelles sont les astuces que vous utilisez pour obtenir de meilleurs résultats avec les chatbots ?

Voir aussi

Pourquoi ChatGPT devient-il plus nul en mathématiques de base ? Selon une étude, la raison serait un phénomène de dérive imprévisible

Google tente de combler les lacunes de son chatbot d'IA Bard avec des capacités mathématiques et logiques avancées, après que Bard est apparu particulièrement stupide aux yeux des premiers testeurs

Anthropic lance Claude, un modèle d'IA décrit comme plus "maniable" et "moins nocif" que ChatGPT d'OpenAI, mais moins performant que ChatGPT dans l'écriture de code informatique

Une erreur dans cette actualité ? Signalez-nous-la !