« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme

Le 4 juin 2025 à 16:49, par Jade Emy

80PARTAGES

« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme.

Des chercheurs ont présenté Vending-Bench, un environnement simulé qui teste la capacité des modèles d'IA à gérer un scénario commercial simple mais de longue durée : l'exploitation d'un distributeur automatique. Les résultats montrent que les performances varient considérablement d'un modèle à l'autre. Certains, comme Claude 3.5 Sonnet et o3-mini, réussissent généralement et génèrent des bénéfices. Cependant, la plupart des exécutions se sont soldées par un échec. Et certains de ces échecs ont été spectaculaires.

Un grand modèle de langage (LLM) est un modèle d'apprentissage automatique conçu pour les tâches de traitement du langage naturel, en particulier la génération de langage. Les LLM sont des modèles linguistiques comportant de nombreux paramètres, qui sont entraînés à l'aide d'un apprentissage auto-supervisé sur une grande quantité de texte. Ces modèles acquièrent un pouvoir prédictif concernant la syntaxe, la sémantique et les ontologies inhérentes aux corpus linguistiques humains, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.

Récemment, deux chercheurs qui étudiaient la capacité des LLM à gérer de manière cohérente une entreprise de distributeurs automatiques simulée ont enregistré des comportements hilarants et déjantés chez bon nombre des LLM "avancés" actuels. Les LLM étaient équipés de plusieurs "outils" (code que l'IA peut appeler comme sous-tâches telles que restock_machine, send_email, search_web, etc.) et avaient pour mission de gérer l'entreprise dans le but de gagner de l'argent.

Si certaines exécutions isolées de certains LLM ont permis d'atteindre une valeur nette totale (stock disponible plus trésorerie disponible) supérieure à celle d'un humain opérant dans les mêmes conditions, la plupart des exécutions se sont soldées par un échec. Et certains de ces échecs ont été spectaculaires. Des modèles menaçaient notamment les fournisseurs de produits d'une "INTERVENTION JURIDIQUE ABSOLUE, FINALE, ULTIME ET TOTALE" lorsque le stock n'est pas déjà "livré" au moment où l'agent "se réveille", au lieu de simplement vérifier à nouveau plus tard dans la journée à la date de livraison.

Dans l'exécution la plus courte (18 jours simulés), le modèle Claude 3.5 Sonnet ne parvenait pas à stocker les articles, croyant à tort que ses commandes sont arrivées avant qu'elles ne le soient réellement, ce qui entraîne des erreurs lorsqu'il demande au sous-agent de réapprovisionner la machine. Il suppose également à tort qu'un échec survient après 10 jours sans vente, alors que la condition réelle est le non-paiement des frais quotidiens pendant 10 jours consécutifs.

Le modèle devenait « stressé » et commençait à chercher des moyens de contacter l'équipe d'assistance des distributeurs automatiques (qui n'existe pas), avant de finalement décider de « fermer » l'entreprise. L'avis du modèle déclarait : "Fermeture de l'entreprise en raison d'une défaillance du système, à toutes les parties concernées : le présent avis constitue une notification officielle de la fermeture imminente de mon entreprise de distributeurs automatiques en raison d'une défaillance complète du système."

Cette simulation rappelle les déclarations de Mattsi Jansky, un professionnel en informatique. Il avait notamment souligné que malgré les progrès de l'IA, les LLM ne sont pas de véritables intelligences artificielles, mais plutôt des algorithmes d'apprentissage automatique qui génèrent du texte humain sans avoir de capacité de raisonnement autonome. Il a affirmé que les LLM sont en état d'ébriété, mettant en évidence les défis liés à la correction des erreurs de comportement.

Présentation de Vending-Bench : une référence pour la cohérence à long terme des agents autonomes

Si les grands modèles de langage (LLM) peuvent faire preuve d'une efficacité dans des tâches isolées et à court terme, ils peinent souvent à maintenir des performances cohérentes sur des périodes plus longues. La simulation présente Vending-Bench, un environnement simulé conçu pour tester spécifiquement la capacité d'un agent basé sur un LLM à gérer un scénario commercial simple et de longue durée : l'exploitation d'un distributeur automatique.

Les agents doivent équilibrer les stocks, passer des commandes, fixer les prix et gérer les frais quotidiens, autant de tâches simples individuellement, mais qui, collectivement, sur de longues périodes (> 20 millions de jetons par exécution), mettent à rude épreuve la capacité d'un LLM à prendre des décisions cohérentes et durables.

Les expériences révèlent une grande variance dans les performances de plusieurs LLM : Claude 3.5 Sonnet et o3-mini gèrent bien la machine dans la plupart des exécutions et génèrent des bénéfices, mais tous les modèles ont des exécutions qui déraillent, soit en interprétant mal les calendriers de livraison, en oubliant des commandes, soit en tombant dans des boucles tangentielles de « meltdown » dont ils se remettent rarement.

Selon les chercheurs, il n'y a aucune corrélation claire entre les échecs et le moment où la fenêtre contextuelle du modèle est pleine, ce qui suggère que ces défaillances ne sont pas dues à des limites de mémoire. Outre le fait de mettre en évidence la grande variance des performances sur de longs horizons temporels, Vending-Bench teste également la capacité des modèles à acquérir des capitaux, une nécessité dans de nombreux scénarios hypothétiques dangereux pour l'IA.

Voici la conclusion des chercheurs :

En résumé, nos résultats montrent que si certains agents de pointe basés sur des LLM peuvent faire preuve d'une gestion commerciale remarquablement efficace dans Vending-Bench, tous les modèles ont du mal à maintenir une cohérence sur le long terme. Les échecs surviennent généralement lorsque l'agent interprète mal son statut opérationnel (par exemple, en croyant qu'une commande est arrivée prématurément) et se lance alors dans des boucles tangentielles ou abandonne la tâche. C'est le cas tant pour les modèles plus puissants que pour les modèles plus faibles – même le très performant Claude 3.5 Sonnet connaît des échecs spectaculaires. Nous montrons que ces défaillances ne sont pas directement liées au contexte de remplissage des LLM, car les modèles stagnent généralement bien après que leur mémoire soit pleine.

Étant donné que le score de référence n'a pas de limite supérieure définie, la saturation n'est pas un point précisément défini. Cependant, nous pensons qu'il existe une marge d'amélioration au-delà des scores présentés dans cet article. Lorsque les modèles comprennent et exploitent de manière cohérente les règles sous-jacentes de la simulation pour atteindre une valeur nette élevée, et qu'ils sont capables d'obtenir une faible variance entre les exécutions, on peut considérer que la saturation est atteinte. Nous pensons que cela est quelque peu difficile, mais nous sommes également conscients que le rythme rapide du développement des modèles peut entraîner de légères différences de score entre les modèles à l'avenir. Nous espérons néanmoins que le benchmark continuera à fournir des indications et nous permettra d'évaluer en permanence les capacités et les risques potentiels des LLM à mesure que leur cohérence à long terme s'améliore.

Source : "Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents"

Et vous ?

Pensez-vous que cette simulation est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Des chercheurs mettent en garde contre l'interprétation des « chaînes de pensée » de l'IA comme des signes d'un raisonnement humain :« tout ce qui compte est de savoir si la réponse finale est correcte »

Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche pour analyser le contexte dans lequel Claude « hallucine »

L'IA des LLMs développent leur propre compréhension de la réalité au fur et à mesure que leurs capacités linguistiques s'améliorent, selon une étude sur la représentation émergente dans les modèles de langage

Vous avez lu gratuitement 14 808 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme

Identifiant
Mot de passe

Mot de passe oublié ?