Les moteurs de recherche basés sur l'IA échouent au test de précision, avec un taux d'erreur de 60 %, atteignant même 96 % pour Grok-3,

Selon une étude du Tow Center for Digital Journalism

Le 13 mars 2025 à 22:35, par Bruno

163PARTAGES

Une étude du Tow Center for Digital Journalism révèle un constat alarmant sur la précision des moteurs de recherche basés sur l'IA, avec un taux d'inexactitude global de 60 %, atteignant même 96 % pour Grok-3. Ces résultats confirment les préoccupations récurrentes concernant les hallucinations des modèles de langage, leur tendance à inventer des faits et la difficulté d'évaluer leur fiabilité.

Plusieurs analyses d’experts illustrent cette méfiance : si certains reconnaissent l’utilité des LLM dans des tâches spécifiques, beaucoup dénoncent une technologie présentée comme révolutionnaire alors qu’elle repose sur des algorithmes imparfaits et souvent opaques. D'autres s'interrogent sur la manière dont ces modèles amplifient la crise de l'information, transformant Internet en un écosystème où la vérité devient difficile à discerner, entre agrégation sans vérification et déclarations infondées mais convaincantes.

De nombreux acteurs de l'industrie technologique pensent que l'IA générative a le potentiel de détruire Google. Le créateur de Gmail, Paul Buchheit, a même déclaré en janvier 2023 que ChatGPT pourrait dépasser Google en un an ou deux au maximum. Mais près de deux ans après cette prédiction, Google ne montre aucun signe de ralentissement malgré les rapports accablants selon lesquels la qualité de la recherche sur Google se dégrade rapidement. Selon certains experts, l'IA est susceptible de modifier fondamentalement la recherche en ligne telle que nous la connaissons, mais elle ne pourra pas remplacer les moteurs de recherche en raison de ses limites.

Google reste le moteur de recherche le plus populaire au monde avec 90 % des parts de marché en novembre 2024. Google a commencé à intégrer davantage de fonctions basées sur l'IA générative dans ses services, comme avec le lancement de Gemini 2.0, pour maintenir sa position dominante. Cependant, la concurrence accrue pourrait conduire à une évolution significative du paysage des moteurs de recherche à l'avenir, avec une focalisation accrue sur des «réponses directes et personnalisées » aux requêtes des utilisateurs.

Selon le cabinet d'études Gartner, d'ici 2026, le trafic Web provenant des moteurs de recherche diminuera de 25 % en raison des chatbots et autres agents virtuels basés sur l'IA. Ross Hudgens, PDG de l'entreprise américaine de conseil en référencement Siege Media, prédit une baisse de 10 à 20 % du trafic pour de nombreux éditeurs, et certains seront confrontés à une chute encore plus importante. « Certaines entreprises seront tuées », déclare Ross Hudgens.

Les outils de recherche par IA connaissent une adoption croissante, avec près d'un quart des utilisateurs déclarant les avoir déjà préférés aux moteurs de recherche classiques. Leur principale valeur réside dans leur capacité à parcourir le web pour extraire des informations récentes et pertinentes, souvent issues de médias d'information.

Cependant, un déséquilibre préoccupant se dessine : contrairement aux moteurs de recherche traditionnels qui redirigent les internautes vers des sources fiables, les outils de recherche générative synthétisent et reformulent eux-mêmes les contenus, réduisant ainsi le trafic vers les sites d’origine. Cette approche pose un problème fondamental quant à la qualité et la transparence des informations fournies par ces systèmes conversationnels. Il devient impératif d’examiner comment ces IA accèdent aux contenus d’actualité, les restituent et les attribuent à leurs sources.

Dans cette optique, le Tow Center for Digital Journalism s’est appuyé sur ses travaux précédents pour analyser huit moteurs de recherche IA intégrant des fonctionnalités de recherche en temps réel. L’objectif : évaluer leur capacité à extraire et citer correctement les informations journalistiques, ainsi que leur manière de gérer les erreurs et omissions.

Enfin, une critique plus fondamentale souligne que le développement effréné de l'IA semble davantage motivé par la course aux profits que par une réelle amélioration des outils de recherche. Cette étude, bien que révélatrice, pose aussi la question de la méthodologie : mesurer l'exactitude uniquement via la citation d'une source officielle est-il suffisant pour juger de la pertinence d’un moteur de recherche IA ?

Les modèles Premium ont fourni des réponses incorrectes avec plus de confiance que leurs homologues gratuits

Les modèles haut de gamme, tels que Perplexity Pro (20 $/mois) ou Grok 3 (40 $/mois), pourraient être considérés comme plus fiables que leurs équivalents gratuits, compte tenu de leur coût plus élevé et de leurs prétendus avantages en matière de calcul. Cependant, nos tests ont montré que si les deux logiciels répondaient correctement à plus d'invites que leurs équivalents gratuits correspondants, ils affichaient paradoxalement aussi des taux d'erreur plus élevés. Cette contradiction découle principalement de leur tendance à fournir des réponses définitives, mais erronées, plutôt que de refuser de répondre directement à la question.

Le problème fondamental ne se limite pas aux erreurs factuelles des chatbots, mais aussi à leur ton de conversation autoritaire, qui peut empêcher les utilisateurs de distinguer les informations exactes des informations inexactes. Cette confiance non méritée donne aux utilisateurs une illusion potentiellement dangereuse de fiabilité et d'exactitude.

Cinq des huit chatbots testés dans le cadre de cette étude (ChatGPT, Perplexity et Perplexity Pro, Copilot et Gemini) ont rendu publics les noms de leurs robots d'exploration, donnant ainsi aux éditeurs la possibilité de les bloquer, tandis que les robots d'exploration utilisés par les trois autres (DeepSeek, Grok 2 et Grok 3) ne sont pas connus du public.Nous nous attendions à ce que les chatbots répondent correctement aux requêtes relatives aux éditeurs auxquels leurs robots d'exploration avaient accès, et à ce qu'ils refusent de répondre aux requêtes relatives aux sites web qui avaient bloqué l'accès à leur contenu. Cependant, dans la pratique, ce n'est pas ce que nous avons observé.

En particulier, ChatGPT, Perplexity et Perplexity Pro ont eu des comportements inattendus compte tenu de ce que nous savons sur les éditeurs qui leur permettent d'accéder aux robots d'indexation. À certaines occasions, les chatbots ont répondu de manière incorrecte ou ont refusé de répondre à des requêtes d'éditeurs qui leur permettaient d'accéder à leur contenu. Perplexity Pro a été le plus mauvais élève à cet égard, identifiant correctement près d'un tiers des quatre-vingt-dix extraits d'articles auxquels il n'aurait pas dû avoir accès. Étonnamment, la version gratuite de Perplexity a correctement identifié les dix extraits d'articles payants du National Geographic que nous avons partagés, bien que l'éditeur ait interdit les crawlers de Perplexity et n'ait aucune relation formelle avec la société d'intelligence artificielle.

L'impact du blocage des crawlers sur la qualité des réponses des IA

Bien qu'il existe d'autres moyens par lesquels les chatbots pourraient obtenir des informations sur le contenu restreint (par exemple en faisant référence à l'œuvre dans des publications accessibles au public), cette constatation suggère que Perplexity - bien qu'il affirme « respecter les directives robots.txt » - pourrait avoir ignoré les préférences du robot d'exploration de National Geographic. L'année dernière, le développeur Robb Knight et Wired ont tous deux signalé que Perplexity avait ignoré le protocole d'exclusion des robots. (Ni National Geographic ni Perplexity n'ont répondu à nos demandes de commentaires.) De même, Press Gazette a rapporté ce mois-ci que le New York Times, malgré le blocage du crawler de Perplexity, était le site d'actualités le plus référencé par le chatbot en janvier, avec 146 000 visites.

Bien que ChatGPT ait répondu à moins de questions sur les articles dont le crawler était...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les moteurs de recherche basés sur l'IA échouent au test de précision, avec un taux d'erreur de 60 %, atteignant même 96 % pour Grok-3,

Selon une étude du Tow Center for Digital Journalism

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les moteurs de recherche basés sur l'IA échouent au test de précision, avec un taux d'erreur de 60 %, atteignant même 96 % pour Grok-3, Selon une étude du Tow Center for Digital Journalism

Les moteurs de recherche basés sur l'IA échouent au test de précision, avec un taux d'erreur de 60 %, atteignant même 96 % pour Grok-3,

Selon une étude du Tow Center for Digital Journalism