Une étude récente révèle que les moteurs de recherche à intelligence artificielle, comme ceux de Google, Bing ou Perplexity, tendent à s’appuyer de plus en plus sur des sources peu connues, reléguant les grands médias traditionnels à l’arrière-plan. Ce renversement du « pouvoir des liens » sur lequel reposait la recherche web classique pose une question cruciale : l’IA redéfinit-elle ce que nous considérons comme fiable ?Contexte
Depuis plus de deux décennies, les moteurs de recherche fonctionnent sur un principe bien établi : plus un site est populaire, mieux il est référencé. Google, par exemple, a bâti son empire sur le PageRank, une mesure de la réputation en ligne basée sur le nombre et la qualité des liens entrants (bien sûr, plusieurs autres éléments sont pris en compte dans le référencement, la simplification étant faite pour des besoins illustratifs).
Mais l’essor des moteurs de recherche dopés à l’intelligence artificielle – à commencer par Perplexity AI, ChatGPT Search ou Google SGE (Search Generative Experience, devenu les AI Overview) – change la donne. Une étude menée par une équipe de chercheurs de l’Université de Stanford et publiée en octobre 2025 montre que ces outils ont tendance à favoriser des sources moins connues et à produire des réponses basées sur des contenus que les utilisateurs n’auraient probablement jamais trouvés via une recherche classique.
Depuis le lancement désastreux des aperçus IA de Google l'année dernière, le monde entier a pris conscience à quel point les résultats de recherche basés sur l'IA peuvent différer considérablement de la liste traditionnelle de liens générée depuis des décennies par les moteurs de recherche. Aujourd'hui, de nouvelles recherches permettent de quantifier cette différence, montrant que les moteurs de recherche IA ont tendance à citer des sites web moins populaires et qui n'apparaîtraient même pas dans le top 100 des liens répertoriés dans une recherche Google « organique ».
Dans l'article pré-publié « Characterizing Web Search in The Age of Generative AI » (Caractérisation de la recherche sur le Web à l'ère de l'IA générative), des chercheurs de l'université de la Ruhr à Bochum, en Allemagne, et de l'Institut Max Planck pour les systèmes logiciels ont comparé les résultats traditionnels du moteur de recherche Google à ses aperçus IA et à Gemini-2.5-Flash. Les chercheurs ont également examiné le mode de recherche Web de GPT-4o et le « GPT-4o with Search Tool » (GPT-4o avec outil de recherche), qui ne recourt à la recherche sur le Web que lorsque le LLM décide qu'il a besoin d'informations ne figurant pas dans ses propres données pré-entraînées.
Les chercheurs ont tiré des requêtes tests de plusieurs sources, notamment des questions spécifiques soumises à ChatGPT dans l'ensemble de données WildChat, des sujets politiques généraux répertoriés sur AllSides et des produits figurant dans la liste des 100 produits Amazon les plus recherchés.
Dans l'ensemble, les sources citées dans les résultats des outils de recherche générative provenaient généralement de sites moins populaires que ceux figurant dans le top 10 d'une recherche traditionnelle, selon les mesures effectuées par le traqueur de domaine Tranco. Les sources citées par les moteurs d'IA étaient plus susceptibles que celles liées aux recherches Google traditionnelles de ne pas figurer parmi les 1 000 et 1 000 000 domaines les plus populaires suivis par Tranco. La recherche Gemini, en particulier, a montré une tendance à citer des domaines peu populaires, la source médiane ne figurant pas parmi les 1 000 domaines les plus populaires de Tranco dans tous les résultats.
Les sources citées par...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.