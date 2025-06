Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients, selon Salesforce



Test du benchmark



Présentation du benchmark

Présentation du benchmark CRMArena-Pro



Résultat

Dans ce travail, nous avons présenté CRMArena-Pro, un benchmark complet pour évaluer les agents LLM sur des tâches réalistes de gestion de la relation client (CRM) dans des environnements de travail professionnels, comprenant des tâches validées par des experts et des interconnexions de données complexes. Nos expériences approfondies révèlent que même les agents LLM de pointe n'atteignent qu'un taux de réussite d'environ 58 % dans les scénarios à tour unique, avec une dégradation significative des performances à environ 35 % dans les scénarios à tours multiples, ce qui met en évidence les défis liés au raisonnement à tours multiples et à l'acquisition d'informations.



Nous avons observé que tous les agents LLM testés obtenaient de mauvais résultats dans la plupart des compétences commerciales, l'exécution des flux de travail étant la plus facile à traiter, les agents les plus performants dépassant un taux de réussite de 83 % dans les tâches à tour unique. Il est à noter que les agents font preuve d'une faible conscience de la confidentialité, ce qui, bien que pouvant être amélioré par des incitations ciblées, a souvent un impact négatif sur les performances des tâches.



Salesforce est une société américaine de logiciels basés sur le cloud dont le siège social est situé à San Francisco, en Californie. Elle fournit des applications axées sur les ventes, le service client, l'automatisation du marketing, le commerce électronique, l'analyse de données, l'intelligence artificielle et le développement d'applications. En septembre 2022, Salesforce était la 61e plus grande entreprise au monde en termes de capitalisation boursière, avec une valeur de près de 153 milliards de dollars américains. Elle est devenue la plus grande entreprise d'applications d'entreprise au monde en 2022.En janvier 2025, un rapport a révélé que l'entreprise envisageait sérieusement de geler l'embauche d'ingénieurs logiciels pour l'année. L'éditeur de logiciels se dit satisfait des gains de productivité obtenus grâce à l'intégration de l'IA dans les processus de l'entreprise. Le PDG de Salesforce, Marc Benioff, a révélé que le nouveau produit d'IA phare de l'entreprise, Angentforce, et d'autres outils d'IA ont permis d'augmenter la productivité de ses équipes d'ingénierie de 30 %. Ses déclarations font suite à un rapport du Forum économique mondial selon lequel "".Pourtant, une nouvelle étude de Salesforce révèle que les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients. Un nouveau benchmark développé par des universitaires montre que les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients.Une équipe dirigée par Kung-Hsiang Huang, chercheur en IA chez Salesforce, a montré qu'en utilisant un nouveau benchmark basé sur des données synthétiques, les agents LLM atteignent un taux de réussite d'environ 58 % pour les tâches qui peuvent être accomplies en une seule étape sans nécessiter d'actions de suivi ou d'informations supplémentaires. À l'aide de l'outil de benchmark CRMArena-Pro, l'équipe a également montré que les performances des agents LLM chutent à 35 % lorsqu'une tâche nécessite plusieurs étapes.Une autre source de préoccupation est mise en évidence dans le traitement des informations confidentielles par les agents LLM. "", indique les chercheurs. L'équipe de recherche sur l'IA de Salesforce a fait valoir que les benchmarks existants ne mesuraient pas rigoureusement les capacités ou les limites des agents IA et ignoraient largement l'évaluation de leur capacité à reconnaître les informations sensibles et à respecter les protocoles appropriés de traitement des données.Fait intéressant, une étude avait déjà soulevé ce point. Selon l'étude de 2023 , les mauvais contrôles des données et l'avènement de nouveaux outils d'IA générative basés sur de grands modèles de langage (LLM) entraîneront un pic de violations de données internes. Les chatbots alimentés par des LLM étant devenus plus puissants, de nombreuses organisations avaient mis en place des interdictions complètes ou ont limité les données pouvant être partagées avec eux. Cependant, comme une écrasante majorité (82 %) n'a pas mis en place de stratégie de gestion des risques internes, elles restent aveugles aux cas d'employés utilisant l'IA générative pour les aider dans leurs tâches.Bien que les agents IA aient un potentiel transformateur dans le domaine des affaires, l'absence de données commerciales accessibles au public sur les plateformes largement utilisées empêche une évaluation efficace des performances. Les benchmarks existants présentent des lacunes en termes de réalisme, de fidélité des données, d'interaction entre l'agent et l'utilisateur, et de couverture des scénarios commerciaux et des secteurs d'activité.Pour combler ces lacunes, des chercheurs de Salesforce présentent CRMArena-Pro, un nouveau benchmark permettant une évaluation holistique et réaliste des agents LLM dans divers contextes professionnels. CRMArena-Pro élargit CRMArena avec dix-neuf tâches validées par des experts dans les domaines de la vente, du service à la clientèle, ainsi que de la configuration, de la tarification et des devis pour des scénarios interentreprises et entreprise-client. Il intègre également des interactions à plusieurs tours guidées par divers personnages et des évaluations de la sensibilisation à la confidentialité.Les expériences montrent que les principaux agents LLM atteignent un taux de réussite d'environ 58 % en un seul tour sur CRMArena-Pro, avec une baisse significative des performances dans les configurations à plusieurs tours, qui tombent à 35 %. Parmi les compétences commerciales évaluées, l'exécution des flux de travail est nettement plus facile à maîtriser, les agents les plus performants dépassant un taux de réussite de 83 % dans les tâches en un seul tour, tandis que d'autres compétences présentent des défis plus importants.De plus, les agents affichent une sensibilisation à la confidentialité quasi nulle (qui peut être améliorée grâce à des incitations, mais souvent au détriment des performances des tâches). Ces résultats soulignent un écart important entre les capacités actuelles des LLM et les exigences réelles des entreprises, mettant en évidence la nécessité d'améliorer le raisonnement multi-tours, le respect de la confidentialité et l'acquisition de compétences polyvalentes.Voici la conclusion des chercheurs :Pensez-vous que cette étude est crédible ou pertinente ?Quel est votre avis sur le sujet ?