Du PageRank au PromptRank : les moteurs de recherche basés sur l'IA s'appuient sur des sources « moins populaires »

Au risque d'amplifier les erreurs et les biais selon des chercheurs

Le 28 octobre 2025 à 21:54, par Stéphane le calme

200PARTAGES

Une étude récente révèle que les moteurs de recherche à intelligence artificielle, comme ceux de Google, Bing ou Perplexity, tendent à s’appuyer de plus en plus sur des sources peu connues, reléguant les grands médias traditionnels à l’arrière-plan. Ce renversement du « pouvoir des liens » sur lequel reposait la recherche web classique pose une question cruciale : l’IA redéfinit-elle ce que nous considérons comme fiable ?

Contexte

Depuis plus de deux décennies, les moteurs de recherche fonctionnent sur un principe bien établi : plus un site est populaire, mieux il est référencé. Google, par exemple, a bâti son empire sur le PageRank, une mesure de la réputation en ligne basée sur le nombre et la qualité des liens entrants (bien sûr, plusieurs autres éléments sont pris en compte dans le référencement, la simplification étant faite pour des besoins illustratifs).

Mais l’essor des moteurs de recherche dopés à l’intelligence artificielle – à commencer par Perplexity AI, ChatGPT Search ou Google SGE (Search Generative Experience, devenu les AI Overview) – change la donne. Une étude menée par une équipe de chercheurs de l’Université de Stanford et publiée en octobre 2025 montre que ces outils ont tendance à favoriser des sources moins connues et à produire des réponses basées sur des contenus que les utilisateurs n’auraient probablement jamais trouvés via une recherche classique.

Envoyé par Résumé

L'avènement des LLM a donné naissance à un nouveau type de recherche sur le Web : la recherche générative, dans laquelle les LLM récupèrent les pages Web liées à une requête et génèrent un texte unique et cohérent en guise de réponse. Ce mode de sortie contraste fortement avec la recherche Web traditionnelle, où les résultats sont présentés sous la forme d'une liste classée de pages Web indépendantes.

Dans cet article, nous posons la question suivante : en quoi les résultats de la recherche générative diffèrent-ils de ceux de la recherche Web traditionnelle ?

Nous comparons Google, un moteur de recherche Web traditionnel, à quatre moteurs de recherche générative provenant de deux fournisseurs (Google et OpenAI) pour des requêtes issues de quatre domaines. Notre analyse révèle des différences intrigantes. La plupart des moteurs de recherche générative couvrent un éventail de sources plus large que la recherche Web.

Les moteurs de recherche générative varient dans la mesure où ils s'appuient sur les connaissances internes contenues dans les paramètres du modèle par rapport aux connaissances externes récupérées sur le Web. Les moteurs de recherche générative font apparaître des ensembles de concepts variés, créant ainsi de nouvelles opportunités pour améliorer la diversité et la sérendipité de la recherche. Nos résultats soulignent également la nécessité de revoir les critères d'évaluation de la recherche Web à l'ère de l'IA générative.

Une révolution silencieuse dans la manière dont l’IA parcourt le web

Depuis le lancement désastreux des aperçus IA de Google l'année dernière, le monde entier a pris conscience à quel point les résultats de recherche basés sur l'IA peuvent différer considérablement de la liste traditionnelle de liens générée depuis des décennies par les moteurs de recherche. Aujourd'hui, de nouvelles recherches permettent de quantifier cette différence, montrant que les moteurs de recherche IA ont tendance à citer des sites web moins populaires et qui n'apparaîtraient même pas dans le top 100 des liens répertoriés dans une recherche Google « organique ».

Dans l'article pré-publié « Characterizing Web Search in The Age of Generative AI » (Caractérisation de la recherche sur le Web à l'ère de l'IA générative), des chercheurs de l'université de la Ruhr à Bochum, en Allemagne, et de l'Institut Max Planck pour les systèmes logiciels ont comparé les résultats traditionnels du moteur de recherche Google à ses aperçus IA et à Gemini-2.5-Flash. Les chercheurs ont également examiné le mode de recherche Web de GPT-4o et le « GPT-4o with Search Tool » (GPT-4o avec outil de recherche), qui ne recourt à la recherche sur le Web que lorsque le LLM décide qu'il a besoin d'informations ne figurant pas dans ses propres données pré-entraînées.

Les chercheurs ont tiré des requêtes tests de plusieurs sources, notamment des questions spécifiques soumises à ChatGPT dans l'ensemble de données WildChat, des sujets politiques généraux répertoriés sur AllSides et des produits figurant dans la liste des 100 produits Amazon les plus recherchés.

Dans l'ensemble, les sources citées dans les résultats des outils de recherche générative provenaient généralement de sites moins populaires que ceux figurant dans le top 10 d'une recherche traditionnelle, selon les mesures effectuées par le traqueur de domaine Tranco. Les sources citées par les moteurs d'IA étaient plus susceptibles que celles liées aux recherches Google traditionnelles de ne pas figurer parmi les 1 000 et 1 000 000 domaines les plus populaires suivis par Tranco. La recherche Gemini, en particulier, a montré une tendance à citer des domaines peu populaires, la source médiane ne figurant pas parmi les 1 000 domaines les plus populaires de Tranco dans tous les résultats.

Les sources citées par...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Du PageRank au PromptRank : les moteurs de recherche basés sur l'IA s'appuient sur des sources « moins populaires »

Au risque d'amplifier les erreurs et les biais selon des chercheurs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Du PageRank au PromptRank : les moteurs de recherche basés sur l'IA s'appuient sur des sources « moins populaires » Au risque d'amplifier les erreurs et les biais selon des chercheurs

Du PageRank au PromptRank : les moteurs de recherche basés sur l'IA s'appuient sur des sources « moins populaires »

Au risque d'amplifier les erreurs et les biais selon des chercheurs