Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients

Selon Salesforce

Le 17 juin 2025 à 14:40, par Alex

149PARTAGES

Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients, selon Salesforce

Une nouvelle étude de Salesforce révèle que les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients. En outre, les chercheurs affirment que "les agents font preuve d'une faible conscience de la confidentialité, ce qui, bien que pouvant être amélioré par des incitations ciblées, a souvent un impact négatif sur les performances des tâches."

Salesforce est une société américaine de logiciels basés sur le cloud dont le siège social est situé à San Francisco, en Californie. Elle fournit des applications axées sur les ventes, le service client, l'automatisation du marketing, le commerce électronique, l'analyse de données, l'intelligence artificielle et le développement d'applications. En septembre 2022, Salesforce était la 61e plus grande entreprise au monde en termes de capitalisation boursière, avec une valeur de près de 153 milliards de dollars américains. Elle est devenue la plus grande entreprise d'applications d'entreprise au monde en 2022.

En janvier 2025, un rapport a révélé que l'entreprise envisageait sérieusement de geler l'embauche d'ingénieurs logiciels pour l'année. L'éditeur de logiciels se dit satisfait des gains de productivité obtenus grâce à l'intégration de l'IA dans les processus de l'entreprise. Le PDG de Salesforce, Marc Benioff, a révélé que le nouveau produit d'IA phare de l'entreprise, Angentforce, et d'autres outils d'IA ont permis d'augmenter la productivité de ses équipes d'ingénierie de 30 %. Ses déclarations font suite à un rapport du Forum économique mondial selon lequel "41 % des entreprises du monde entier prévoient de réduire leurs effectifs d'ici à 2030 en raison de l'IA".

Pourtant, une nouvelle étude de Salesforce révèle que les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients. Un nouveau benchmark développé par des universitaires montre que les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients.

Test du benchmark

Une équipe dirigée par Kung-Hsiang Huang, chercheur en IA chez Salesforce, a montré qu'en utilisant un nouveau benchmark basé sur des données synthétiques, les agents LLM atteignent un taux de réussite d'environ 58 % pour les tâches qui peuvent être accomplies en une seule étape sans nécessiter d'actions de suivi ou d'informations supplémentaires. À l'aide de l'outil de benchmark CRMArena-Pro, l'équipe a également montré que les performances des agents LLM chutent à 35 % lorsqu'une tâche nécessite plusieurs étapes.

Une autre source de préoccupation est mise en évidence dans le traitement des informations confidentielles par les agents LLM. "Les agents font preuve d'une faible conscience de la confidentialité, ce qui, bien que pouvant être amélioré par des incitations ciblées, a souvent un impact négatif sur les performances des tâches", indique les chercheurs. L'équipe de recherche sur l'IA de Salesforce a fait valoir que les benchmarks existants ne mesuraient pas rigoureusement les capacités ou les limites des agents IA et ignoraient largement l'évaluation de leur capacité à reconnaître les informations sensibles et à respecter les protocoles appropriés de traitement des données.

Fait intéressant, une étude avait déjà soulevé ce point. Selon l'étude de 2023, les mauvais contrôles des données et l'avènement de nouveaux outils d'IA générative basés sur de grands modèles de langage (LLM) entraîneront un pic de violations de données internes. Les chatbots alimentés par des LLM étant devenus plus puissants, de nombreuses organisations avaient mis en place des interdictions complètes ou ont limité les données pouvant être partagées avec eux. Cependant, comme une écrasante majorité (82 %) n'a pas mis en place de stratégie de gestion des risques internes, elles restent aveugles aux cas d'employés utilisant l'IA générative pour les aider dans leurs tâches.

Présentation du benchmark

Présentation du benchmark CRMArena-Pro

Bien que les agents IA aient un potentiel transformateur dans le domaine des affaires, l'absence de données commerciales accessibles au public sur les plateformes largement utilisées empêche une évaluation efficace des performances. Les benchmarks existants présentent des lacunes en termes de réalisme, de fidélité des données, d'interaction entre l'agent et l'utilisateur, et de couverture des scénarios commerciaux et des secteurs d'activité.

Pour combler ces lacunes, des chercheurs de Salesforce présentent CRMArena-Pro, un nouveau benchmark permettant une évaluation holistique et réaliste des agents LLM dans divers contextes professionnels. CRMArena-Pro élargit CRMArena avec dix-neuf tâches validées par des experts dans les domaines de la vente, du service à la clientèle, ainsi que de la configuration, de la tarification et des devis pour des scénarios interentreprises et entreprise-client. Il intègre également des interactions à plusieurs tours guidées par divers personnages et des évaluations de la sensibilisation à la confidentialité.

Les expériences montrent que les principaux agents LLM atteignent un taux de réussite d'environ 58 % en un seul tour sur CRMArena-Pro, avec une baisse significative des performances dans les configurations à plusieurs tours, qui tombent à 35 %. Parmi les compétences commerciales évaluées, l'exécution des flux de travail est nettement plus facile à maîtriser, les agents les plus performants dépassant un taux de réussite de 83 % dans les tâches en un seul tour, tandis que d'autres compétences présentent des défis plus importants.

De plus, les agents affichent une sensibilisation à la confidentialité quasi nulle (qui peut être améliorée grâce à des incitations, mais souvent au détriment des performances des tâches). Ces résultats soulignent un écart important entre les capacités actuelles des LLM et les exigences réelles des entreprises, mettant en évidence la nécessité d'améliorer le raisonnement multi-tours, le respect de la confidentialité et l'acquisition de compétences polyvalentes.

Résultat

Voici la conclusion des chercheurs :

Dans ce travail, nous avons présenté CRMArena-Pro, un benchmark complet pour évaluer les agents LLM sur des tâches réalistes de gestion de la relation client (CRM) dans des environnements de travail professionnels, comprenant des tâches validées par des experts et des interconnexions de données complexes. Nos expériences approfondies révèlent que même les agents LLM de pointe n'atteignent qu'un taux de réussite d'environ 58 % dans les scénarios à tour unique, avec une dégradation significative des performances à environ 35 % dans les scénarios à tours multiples, ce qui met en évidence les défis liés au raisonnement à tours multiples et à l'acquisition d'informations.

Nous avons observé que tous les agents LLM testés obtenaient de mauvais résultats dans la plupart des compétences commerciales, l'exécution des flux de travail étant la plus facile à traiter, les agents les plus performants dépassant un taux de réussite de 83 % dans les tâches à tour unique. Il est à noter que les agents font preuve d'une faible conscience de la confidentialité, ce qui, bien que pouvant être amélioré par des incitations ciblées, a souvent un impact négatif sur les performances des tâches.

Ces résultats suggèrent un écart important entre les capacités actuelles des LLM et les exigences multiples des scénarios d'entreprise réels, positionnant CRMArena-Pro comme un banc d'essai difficile pour guider les progrès futurs dans le développement d'agents LLM plus sophistiqués, plus fiables et plus soucieux de la confidentialité à usage professionnel.

Source : "CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Salesforce a annoncé le rachat de la société Informatica, spécialisée dans la gestion des données cloud, afin de renforcer la position de l'éditeur de logiciels dans le domaine de l'IA

La moitié des entreprises qui prévoient de remplacer le service client par l'IA font marche arrière. Une étude indique que le centre d'appel sans humain n'est pas encore techniquement réalisable

La grande vague de sous-emploi liée à l'IA est mise à nu : davantage de spécialistes qualifiés recherchent désormais activement des emplois non qualifiés, et l'IA accapare les postes des jeunes diplômés

Vous avez lu gratuitement 20 593 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients

Selon Salesforce

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients Selon Salesforce

Les agents IA basés sur le LLM obtiennent des résultats inférieurs à la moyenne lors des tests CRM standard et ne comprennent pas la nécessité de préserver la confidentialité des clients

Selon Salesforce