
Salesforce AI Research a introduit un nouveau benchmark qui soumet les grands modèles de langage à des tâches liées au Model Context Protocol. Les résultats des tests révèlent un écart important entre le battage médiatique autour des modèles et leurs performances opérationnelles. Même les modèles les plus performants tels que GPT-5 (taux de réussite de 43,72 %), Grok-4 (taux de réussite de 33,33 %) et Claude-4.0-Sonnet (taux de réussite de 29,44 %) présentent des limites de performance significatives.
Salesforce AI Research a introduit un nouveau benchmark qui soumet les grands modèles de langage à des tâches liées au Model Context Protocol, la norme en pleine expansion conçue pour relier les systèmes d'IA à des outils externes. Baptisé MCP-Universe, ce framework évalue les modèles par rapport à des serveurs réels plutôt que des simulations, et ses premiers résultats montrent que même les systèmes les plus avancés sont loin d'être fiables lorsqu'ils sont appelés à fonctionner dans des environnements d'entreprise réels.
Le benchmark couvre six domaines : la navigation, la gestion de référentiels, l'analyse financière, la conception 3D, l'automatisation des navigateurs et la recherche sur le web. Ces domaines comprennent 231 tâches, réparties sur 11 serveurs en direct, allant de Google Maps et GitHub à Yahoo Finance, Blender, Playwright et Google Search. Chaque domaine comporte son propre ensemble de sous-tâches, telles que la planification d'itinéraires dans les cartes, l'analyse de portefeuille dans la finance ou la création d'objets dans la modélisation 3D, dont la complexité augmente à mesure que les modèles sont contraints d'utiliser plusieurs étapes et de conserver des informations sur des contextes plus longs.
Au lieu de s'appuyer sur un modèle de langage pour juger le résultat d'un autre, ce qui était courant dans les benchmarks précédents, MCP-Universe mesure le succès par l'exécution. Cela signifie vérifier si un modèle formate correctement les réponses, s'il produit des résultats cohérents dans le temps et s'il peut fonctionner avec des données qui changent. Un ensemble distinct d'évaluateurs traite chaque dimension : des évaluateurs de format pour la conformité stricte, des évaluateurs statiques pour les faits intemporels tels que les cours historiques des actions, et des évaluateurs dynamiques qui extraient des données réelles en temps réel pour les données changeantes telles que les mouvements du marché en direct ou les tarifs aériens.
Les résultats des tests révèlent un écart important entre le battage médiatique autour des modèles et leurs performances opérationnelles. GPT-5 arrive en tête de tous les systèmes, mais son taux de réussite global n'est que de 43,7 %. Il s'est montré performant dans l'analyse financière, accomplissant les deux tiers de ces tâches, et a obtenu des résultats supérieurs à 50 % dans la conception 3D, mais il a échoué plus souvent qu'à son tour dans la navigation et l'automatisation des navigateurs. Grok-4 suit avec 33,3 %, puis Claude-4.0 Sonnet avec 29,4 %. La meilleure option open source, GLM-4.5, a atteint 24,7 %, devançant certains systèmes propriétaires, mais restant loin derrière les leaders.
En y regardant de plus près, la ventilation des évaluateurs révèle une autre fragilité. En ce qui concerne les vérifications de format, la plupart des modèles ont obtenu des scores élevés, Claude-4.0 atteignant près de 98 % de conformité, ce qui suggère qu'ils peuvent suivre des règles lorsqu'elles sont strictement définies. Mais lorsqu'on leur a demandé de produire du contenu à partir de données statiques ou en constante évolution, le taux de réussite est tombé à 40-60 %. GPT-5 a de nouveau pris la tête dans les cas dynamiques avec 65,9 %, mais cela signifiait tout de même un échec dans plus d'un tiers des scénarios où des informations à jour étaient requises.
L'efficacité des tâches variait également. GPT-5 avait besoin en moyenne d'un peu plus de huit étapes pour réussir, Grok-4 d'environ 7,7, tandis que des modèles plus petits comme o3 pouvaient terminer en moins de cinq étapes, mais avec moins de fiabilité. Ce compromis entre vitesse et précision met en évidence la fragilité du raisonnement en plusieurs étapes, en particulier dans les domaines où les chaînes contextuelles sont longues. La croissance du contexte était particulièrement évidente dans les cartes, l'automatisation des navigateurs et la finance, où les serveurs renvoient de grands blocs de données. Les expériences de synthèse, destinées à raccourcir le contexte, ont donné des résultats mitigés : de légers gains en matière de navigation, mais des pertes ailleurs, ce qui montre que la compression seule ne résout pas le problème de mémoire.
Un autre échec récurrent provenait d'outils peu familiers. Dans certains cas, les modèles appelaient des fonctions de manière incorrecte ou définissaient des paramètres qui perturbaient l'exécution. Un exemple concernait le serveur Yahoo Finance, où les requêtes sur les cours boursiers nécessitent deux dates distinctes ; les modèles les définissaient souvent de la même manière, ce qui entraînait des erreurs. Salesforce a testé une phase d'exploration, laissant les modèles expérimenter les outils avant d'exécuter les tâches, et a constaté des gains partiels : GPT-4.1 s'est légèrement amélioré dans l'automatisation des navigateurs et Claude dans la finance, mais la correction ne s'est pas étendue à tous les domaines.
Le benchmark a également examiné l'influence des frameworks sur les résultats. En comparant les backbones des agents, la configuration ReAct a généralement surpassé Cursor, bien que ce dernier ait été conçu comme un agent d'entreprise. ReAct a obtenu un succès global plus élevé avec Claude-4.0, tandis que Cursor n'a excellé que dans des domaines isolés tels que l'automatisation des navigateurs. Avec le modèle o3 d'OpenAI, le SDK Agent de la société a produit des résultats plus solides que ReAct, en particulier dans les domaines de la finance et de la conception, ce qui suggère que les associations entre cadres et modèles peuvent modifier les performances autant que la taille brute des modèles.
L'ajout de serveurs MCP non liés a rendu les tâches encore plus difficiles. Lorsque les modèles devaient gérer plus d'outils que nécessaire, les performances chutaient considérablement. Dans la navigation par emplacement, par exemple, Claude-4.0 est passé de 22 % de réussite à 11 % une fois que des serveurs supplémentaires ont été inclus. Cette baisse souligne à quel point le bruit peut facilement déstabiliser l'orchestration des outils, un problème que les entreprises devront résoudre à mesure qu'elles se développent.
Malgré la diversité des tests, la conclusion est cohérente. Les modèles actuels, même GPT-5, peuvent gérer un raisonnement isolé ou des appels simples, mais lorsqu'ils sont placés dans des environnements réels avec des données changeantes, des contextes longs et des ensembles d'outils inconnus, ils échouent encore la plupart du temps. MCP-Universe expose ces lacunes plus clairement que les benchmarks précédents, offrant un moyen de mesurer les progrès réalisés par les chercheurs qui tentent de les combler. Pour les entreprises qui déploient l'IA à grande échelle, les résultats mettent en évidence une dure réalité : la création d'agents fiables dépendra non seulement de modèles plus grands, mais aussi de cadres plus intelligents, d'une meilleure gestion du contexte et de protections plus solides autour de l'utilisation des outils.
Une étude qui vient remettre en question les affirmations des entreprises d'IA comme Microsoft, selon lesquelles les outils d'IA améliorent déjà la productivité des développeurs. Une étude du Model Evaluation & Threat Research avait déjà rapporté que l'utilisation d'outils d'IA fait perdre du temps aux développeurs. Ils s'attendaient à une augmentation de 24 % de leur productivité, mais l'équipe a constaté un ralentissement de 19 %. Une précédente étude a également révélé que l'utilisation d'outils d'IA n'augmente pas la vitesse de codage, mais augmente significativement le taux de bogues. En outre, l'IA pour tous et pour tout ne fait pas l'unanimité, par exemple le vibe coding est la pire idée en 2025, d'après David Farley.
Source : "MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers"
Et vous ?


Voir aussi :



Vous avez lu gratuitement 3 394 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.