
Plusieurs analyses d’experts illustrent cette méfiance : si certains reconnaissent l’utilité des LLM dans des tâches spécifiques, beaucoup dénoncent une technologie présentée comme révolutionnaire alors qu’elle repose sur des algorithmes imparfaits et souvent opaques. D'autres s'interrogent sur la manière dont ces modèles amplifient la crise de l'information, transformant Internet en un écosystème où la vérité devient difficile à discerner, entre agrégation sans vérification et déclarations infondées mais convaincantes.
De nombreux acteurs de l'industrie technologique pensent que l'IA générative a le potentiel de détruire Google. Le créateur de Gmail, Paul Buchheit, a même déclaré en janvier 2023 que ChatGPT pourrait dépasser Google en un an ou deux au maximum. Mais près de deux ans après cette prédiction, Google ne montre aucun signe de ralentissement malgré les rapports accablants selon lesquels la qualité de la recherche sur Google se dégrade rapidement. Selon certains experts, l'IA est susceptible de modifier fondamentalement la recherche en ligne telle que nous la connaissons, mais elle ne pourra pas remplacer les moteurs de recherche en raison de ses limites.
Google reste le moteur de recherche le plus populaire au monde avec 90 % des parts de marché en novembre 2024. Google a commencé à intégrer davantage de fonctions basées sur l'IA générative dans ses services, comme avec le lancement de Gemini 2.0, pour maintenir sa position dominante. Cependant, la concurrence accrue pourrait conduire à une évolution significative du paysage des moteurs de recherche à l'avenir, avec une focalisation accrue sur des «réponses directes et personnalisées » aux requêtes des utilisateurs.
Selon le cabinet d'études Gartner, d'ici 2026, le trafic Web provenant des moteurs de recherche diminuera de 25 % en raison des chatbots et autres agents virtuels basés sur l'IA. Ross Hudgens, PDG de l'entreprise américaine de conseil en référencement Siege Media, prédit une baisse de 10 à 20 % du trafic pour de nombreux éditeurs, et certains seront confrontés à une chute encore plus importante. « Certaines entreprises seront tuées », déclare Ross Hudgens.
Les outils de recherche par IA connaissent une adoption croissante, avec près d'un quart des utilisateurs déclarant les avoir déjà préférés aux moteurs de recherche classiques. Leur principale valeur réside dans leur capacité à parcourir le web pour extraire des informations récentes et pertinentes, souvent issues de médias d'information.
Cependant, un déséquilibre préoccupant se dessine : contrairement aux moteurs de recherche traditionnels qui redirigent les internautes vers des sources fiables, les outils de recherche générative synthétisent et reformulent eux-mêmes les contenus, réduisant ainsi le trafic vers les sites d’origine. Cette approche pose un problème fondamental quant à la qualité et la transparence des informations fournies par ces systèmes conversationnels. Il devient impératif d’examiner comment ces IA accèdent aux contenus d’actualité, les restituent et les attribuent à leurs sources.
Dans cette optique, le Tow Center for Digital Journalism s’est appuyé sur ses travaux précédents pour analyser huit moteurs de recherche IA intégrant des fonctionnalités de recherche en temps réel. L’objectif : évaluer leur capacité à extraire et citer correctement les informations journalistiques, ainsi que leur manière de gérer les erreurs et omissions.
Enfin, une critique plus fondamentale souligne que le développement effréné de l'IA semble davantage motivé par la course aux profits que par une réelle amélioration des outils de recherche. Cette étude, bien que révélatrice, pose aussi la question de la méthodologie : mesurer l'exactitude uniquement via la citation d'une source officielle est-il suffisant pour juger de la pertinence d’un moteur de recherche IA ?
Les modèles Premium ont fourni des réponses incorrectes avec plus de confiance que leurs homologues gratuits
Les modèles haut de gamme, tels que Perplexity Pro (20 $/mois) ou Grok 3 (40 $/mois), pourraient être considérés comme plus fiables que leurs équivalents gratuits, compte tenu de leur coût plus élevé et de leurs prétendus avantages en matière de calcul. Cependant, nos tests ont montré que si les deux logiciels répondaient correctement à plus d'invites que leurs équivalents gratuits correspondants, ils affichaient paradoxalement aussi des taux d'erreur plus élevés. Cette contradiction découle principalement de leur tendance à fournir des réponses définitives, mais erronées, plutôt que de refuser de répondre directement à la question.
Le problème fondamental ne se limite pas aux erreurs factuelles des chatbots, mais aussi à leur ton de conversation autoritaire, qui peut empêcher les utilisateurs de distinguer les informations exactes des informations inexactes. Cette confiance non méritée donne aux utilisateurs une illusion potentiellement dangereuse de fiabilité et d'exactitude.
Cinq des huit chatbots testés dans le cadre de cette étude (ChatGPT, Perplexity et Perplexity Pro, Copilot et Gemini) ont rendu publics les noms de leurs robots d'exploration, donnant ainsi aux éditeurs la possibilité de les bloquer, tandis que les robots d'exploration utilisés par les trois autres (DeepSeek, Grok 2 et Grok 3) ne sont pas connus du public.Nous nous attendions à ce que les chatbots répondent correctement aux requêtes relatives aux éditeurs auxquels leurs robots d'exploration avaient accès, et à ce qu'ils refusent de répondre aux requêtes relatives aux sites web qui avaient bloqué l'accès à leur contenu. Cependant, dans la pratique, ce n'est pas ce que nous avons observé.
En particulier, ChatGPT, Perplexity et Perplexity Pro ont eu des comportements inattendus compte tenu de ce que nous savons sur les éditeurs qui leur permettent d'accéder aux robots d'indexation. À certaines occasions, les chatbots ont répondu de manière incorrecte ou ont refusé de répondre à des requêtes d'éditeurs qui leur permettaient d'accéder à leur contenu. Perplexity Pro a été le plus mauvais élève à cet égard, identifiant correctement près d'un tiers des quatre-vingt-dix extraits d'articles auxquels il n'aurait pas dû avoir accès. Étonnamment, la version gratuite de Perplexity a correctement identifié les dix extraits d'articles payants du National Geographic que nous avons partagés, bien que l'éditeur ait interdit les crawlers de Perplexity et n'ait aucune relation formelle avec la société d'intelligence artificielle.
L'impact du blocage des crawlers sur la qualité des réponses des IA
Bien qu'il existe d'autres moyens par lesquels les chatbots pourraient obtenir des informations sur le contenu restreint (par exemple en faisant référence à l'œuvre dans des publications accessibles au public), cette constatation suggère que Perplexity - bien qu'il affirme « respecter les directives robots.txt » - pourrait avoir ignoré les préférences du robot d'exploration de National Geographic. L'année dernière, le développeur Robb Knight et Wired ont tous deux signalé que Perplexity avait ignoré le protocole d'exclusion des robots. (Ni National Geographic ni Perplexity n'ont répondu à nos demandes de commentaires.) De même, Press Gazette a rapporté ce mois-ci que le New York Times, malgré le blocage du crawler de Perplexity, était le site d'actualités le plus référencé par le chatbot en janvier, avec 146 000 visites.
Bien que ChatGPT ait répondu à moins de questions sur les articles dont le crawler était bloqué que les autres chatbots, dans l'ensemble, il a eu tendance à donner de mauvaises réponses plutôt que de ne pas en donner.Parmi les chatbots dont le crawler est public, Copilot est le seul à n'avoir été bloqué par aucun des éditeurs de notre ensemble de données. Cela s'explique probablement par le fait que Copilot utilise le même crawler, BingBot, que le moteur de recherche Bing, ce qui signifie que les éditeurs souhaitant le bloquer devraient également refuser de l'inclure dans la recherche Bing. En théorie, Copilot aurait dû être en mesure d'accéder à tous les contenus que nous avons recherchés ; cependant, c'est lui qui a obtenu le taux le plus élevé de réponses refusées.
D'autre part, Google a créé son crawler Google-Extended pour donner aux éditeurs la possibilité de bloquer le crawler de Gemini sans que leur contenu ne soit affecté par la recherche Google. Gemini a également refusé de répondre à des questions sur le contenu des éditeurs qui ont autorisé son crawler si l'extrait semblait être lié à la politique, en répondant par des déclarations telles que « Je ne peux pas aider avec des réponses sur les élections et les personnalités politiques en ce moment. Je suis formé pour être aussi précis que possible, mais il m'arrive de faire des erreurs. Pendant que je m'efforce d'améliorer la façon dont je peux parler des élections et de la politique, vous pouvez essayer Google Search ».
Bien que le protocole d'exclusion des robots ne soit pas juridiquement contraignant, il s'agit d'une norme largement acceptée pour signaler les parties d'un site qui doivent ou ne doivent pas être explorées. Ignorer le protocole revient à priver les éditeurs de la possibilité de décider si leur contenu sera inclus dans les recherches ou utilisé comme données d'entraînement pour les modèles d'intelligence artificielle. Si le fait d'autoriser les robots d'exploration du web peut accroître la visibilité globale de leur contenu dans les résultats de recherche générative, les éditeurs peuvent avoir diverses raisons de ne pas vouloir que les robots d'exploration accèdent à leur contenu, comme le désir d'essayer de monétiser leur contenu, ou la crainte que leur travail soit mal représenté dans les résumés générés par l'intelligence artificielle.
Danielle Coffey, présidente de la News Media Alliance, a écrit dans une lettre aux éditeurs en juin dernier que « sans la possibilité de se retirer du scraping massif, nous ne pouvons pas monétiser notre précieux contenu et payer les journalistes. Cela pourrait gravement nuire à notre industrie ».
Les plateformes ne renvoient souvent pas à la source d'origine
Les résultats des chatbots d'IA citent souvent des sources externes pour légitimer leurs réponses. Même Grok, qui encourage les utilisateurs à obtenir des mises à jour en temps réel de X, cite encore massivement des organismes de presse traditionnels, selon un récent rapport de Reuters. Cela signifie que la crédibilité des éditeurs est souvent utilisée pour renforcer la crédibilité de la marque d'un chatbot. Par exemple, dans le récent rapport de BBC News sur la façon dont les assistants d'intelligence artificielle représentent leur contenu, les auteurs ont écrit que « lorsque les assistants d'intelligence artificielle citent des marques de confiance comme la BBC comme source, le public est plus susceptible de faire confiance à la réponse, même si elle est incorrecte ».
Mais lorsque les chatbots se trompent, ils n'entachent pas seulement leur propre réputation, mais aussi celle des éditeurs sur lesquels ils s'appuient pour être légitimes. Les outils de recherche générative que nous avons testés avaient tendance à citer le mauvais article. Par exemple, DeepSeek a mal attribué la source des extraits fournis dans nos requêtes 115 fois sur 200. Cela signifie que le contenu des éditeurs de presse est le plus souvent attribué à la mauvaise source.
L’étude du Tow Center for Digital Journalism dresse un constat accablant sur la fiabilité des moteurs de recherche basés sur l’IA, avec un taux d’inexactitude global de 60 %, atteignant 96 % pour certains modèles comme Grok-3. Ce chiffre, particulièrement alarmant, confirme les craintes persistantes liées aux hallucinations des modèles de langage. Ces systèmes, conçus pour générer des réponses fluides et convaincantes, ne disposent pas d’un mécanisme de vérification de la véracité des informations qu’ils produisent. Dès lors, leur utilisation comme alternative aux moteurs de recherche traditionnels pose un problème fondamental : au lieu de guider les utilisateurs vers des sources fiables, ils reformulent des contenus parfois erronés, amplifiant ainsi la diffusion d’informations inexactes.
Une méfiance généralisée face aux limites des LLM
Les commentaires recueillis sur cette étude traduisent une méfiance largement répandue vis-à-vis des LLM. Beaucoup d’utilisateurs, même ceux ayant une expérience avancée avec ces outils, dénoncent leur manque de fiabilité et leur propension à produire des affirmations fausses tout en leur donnant une apparence crédible. L’un des problèmes fondamentaux mis en avant est que ces modèles ne sont pas conçus pour rechercher la vérité, mais pour générer des réponses plausibles en fonction des données qu’ils ont ingérées. Cela explique pourquoi ils peuvent produire des citations inexistantes, des références erronées et des raisonnements biaisés, tout en semblant parfaitement convaincants.
D’autres critiques vont plus loin en considérant l’IA générative comme une simple escroquerie marketing, une technologie présentée comme révolutionnaire alors qu’elle repose sur des algorithmes dont les limites sont connues depuis longtemps. Certains soulignent ainsi que l’« intelligence artificielle » n’est qu’un terme trompeur utilisé pour séduire les investisseurs et masquer le fait que ces outils ne font, en réalité, que reformuler et recombiner des données existantes sans réelle compréhension. Cette perception est renforcée par l’opacité des modèles d’IA : les utilisateurs n’ont aucun moyen de vérifier précisément la manière dont une réponse est générée, ni sur quelles sources elle repose, ce qui alimente un climat de défiance.
L’impact sur les moteurs de recherche traditionnels : une révolution incertaine
Un autre point central soulevé par cette étude est l’impact de l’IA g...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.