IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Du PageRank au PromptRank : les moteurs de recherche basés sur l'IA s'appuient sur des sources « moins populaires »
Au risque d'amplifier les erreurs et les biais selon des chercheurs

Le , par Stéphane le calme

0PARTAGES

3  0 
Une étude récente révèle que les moteurs de recherche à intelligence artificielle, comme ceux de Google, Bing ou Perplexity, tendent à s’appuyer de plus en plus sur des sources peu connues, reléguant les grands médias traditionnels à l’arrière-plan. Ce renversement du « pouvoir des liens » sur lequel reposait la recherche web classique pose une question cruciale : l’IA redéfinit-elle ce que nous considérons comme fiable ?

Contexte

Depuis plus de deux décennies, les moteurs de recherche fonctionnent sur un principe bien établi : plus un site est populaire, mieux il est référencé. Google, par exemple, a bâti son empire sur le PageRank, une mesure de la réputation en ligne basée sur le nombre et la qualité des liens entrants (bien sûr, plusieurs autres éléments sont pris en compte dans le référencement, la simplification étant faite pour des besoins illustratifs).

Mais l’essor des moteurs de recherche dopés à l’intelligence artificielle – à commencer par Perplexity AI, ChatGPT Search ou Google SGE (Search Generative Experience, devenu les AI Overview) – change la donne. Une étude menée par une équipe de chercheurs de l’Université de Stanford et publiée en octobre 2025 montre que ces outils ont tendance à favoriser des sources moins connues et à produire des réponses basées sur des contenus que les utilisateurs n’auraient probablement jamais trouvés via une recherche classique.

Citation Envoyé par Résumé
L'avènement des LLM a donné naissance à un nouveau type de recherche sur le Web : la recherche générative, dans laquelle les LLM récupèrent les pages Web liées à une requête et génèrent un texte unique et cohérent en guise de réponse. Ce mode de sortie contraste fortement avec la recherche Web traditionnelle, où les résultats sont présentés sous la forme d'une liste classée de pages Web indépendantes.

Dans cet article, nous posons la question suivante : en quoi les résultats de la recherche générative diffèrent-ils de ceux de la recherche Web traditionnelle ?

Nous comparons Google, un moteur de recherche Web traditionnel, à quatre moteurs de recherche générative provenant de deux fournisseurs (Google et OpenAI) pour des requêtes issues de quatre domaines. Notre analyse révèle des différences intrigantes. La plupart des moteurs de recherche générative couvrent un éventail de sources plus large que la recherche Web.

Les moteurs de recherche générative varient dans la mesure où ils s'appuient sur les connaissances internes contenues dans les paramètres du modèle par rapport aux connaissances externes récupérées sur le Web. Les moteurs de recherche générative font apparaître des ensembles de concepts variés, créant ainsi de nouvelles opportunités pour améliorer la diversité et la sérendipité de la recherche. Nos résultats soulignent également la nécessité de revoir les critères d'évaluation de la recherche Web à l'ère de l'IA générative.
Une révolution silencieuse dans la manière dont l’IA parcourt le web

Depuis le lancement désastreux des aperçus IA de Google l'année dernière, le monde entier a pris conscience à quel point les résultats de recherche basés sur l'IA peuvent différer considérablement de la liste traditionnelle de liens générée depuis des décennies par les moteurs de recherche. Aujourd'hui, de nouvelles recherches permettent de quantifier cette différence, montrant que les moteurs de recherche IA ont tendance à citer des sites web moins populaires et qui n'apparaîtraient même pas dans le top 100 des liens répertoriés dans une recherche Google « organique ».

Dans l'article pré-publié « Characterizing Web Search in The Age of Generative AI » (Caractérisation de la recherche sur le Web à l'ère de l'IA générative), des chercheurs de l'université de la Ruhr à Bochum, en Allemagne, et de l'Institut Max Planck pour les systèmes logiciels ont comparé les résultats traditionnels du moteur de recherche Google à ses aperçus IA et à Gemini-2.5-Flash. Les chercheurs ont également examiné le mode de recherche Web de GPT-4o et le « GPT-4o with Search Tool » (GPT-4o avec outil de recherche), qui ne recourt à la recherche sur le Web que lorsque le LLM décide qu'il a besoin d'informations ne figurant pas dans ses propres données pré-entraînées.

Les chercheurs ont tiré des requêtes tests de plusieurs sources, notamment des questions spécifiques soumises à ChatGPT dans l'ensemble de données WildChat, des sujets politiques généraux répertoriés sur AllSides et des produits figurant dans la liste des 100 produits Amazon les plus recherchés.

Dans l'ensemble, les sources citées dans les résultats des outils de recherche générative provenaient généralement de sites moins populaires que ceux figurant dans le top 10 d'une recherche traditionnelle, selon les mesures effectuées par le traqueur de domaine Tranco. Les sources citées par les moteurs d'IA étaient plus susceptibles que celles liées aux recherches Google traditionnelles de ne pas figurer parmi les 1 000 et 1 000 000 domaines les plus populaires suivis par Tranco. La recherche Gemini, en particulier, a montré une tendance à citer des domaines peu populaires, la source médiane ne figurant pas parmi les 1 000 domaines les plus populaires de Tranco dans tous les résultats.

Les sources citées par les moteurs de recherche alimentés par l'IA avaient également tendance à être celles qui n'apparaissaient pas parmi les premiers résultats pour la même recherche organique sur Google. Par exemple, 53 % des sources citées par les aperçus IA de Google n'apparaissaient pas dans les 10 premiers liens Google pour la même requête, et 40 % de ces sources ne figuraient même pas dans les 100 premiers liens Google.


Un web parallèle : l’IA explore les marges du savoir

L’étude a comparé les citations et références de plusieurs moteurs de recherche IA avec celles issues des résultats traditionnels de Google. Le constat est frappant : plus de 60 % des sources citées par les modèles d’IA ne figurent pas dans le top 10 000 des sites les plus visités du web mondial.

Ces systèmes génératifs ne se contentent pas de reprendre les articles des grands médias ou des encyclopédies en ligne. Ils puisent dans des blogs spécialisés, des forums techniques, des archives PDF ou encore des publications universitaires peu indexées. En d’autres termes, ils « diversifient » le web, mais aussi ses biais potentiels.

Cette tendance s’explique par la manière dont les modèles de langage sont entraînés : leur objectif n’est pas de hiérarchiser l’autorité, mais de produire la réponse la plus cohérente possible à partir de milliards de fragments de texte. Ce changement de paradigme éloigne donc la recherche du concept de popularité et l’oriente vers une notion d’utilité contextuelle.

Citation Envoyé par Étude
Les liens de recherche générative ne chevauchent pas les 10 premiers résultats de recherche organique. La figure 5 montre que les résultats de recherche AIO chevauchent moins de 50 % des 10 premiers résultats de recherche organique. Le chevauchement ne dépasse pas 60 % lorsque l'on considère les 100 premiers résultats de recherche organique. Pour des ensembles de données spécifiques tels que les produits, le chevauchement est aussi faible que 30 %.

D'accord, mais lequel est le meilleur ?

Ces différences ne signifient pas nécessairement que les résultats générés par l'IA sont « moins bons », bien sûr. Les chercheurs ont constaté que les recherches basées sur le GPT étaient plus susceptibles de citer des sources telles que des entités commerciales et des encyclopédies pour leurs informations, par exemple, tandis qu'elles ne citaient presque jamais les sites web de réseaux sociaux.

Un outil d'analyse basé sur le LLM a révélé que les résultats de recherche alimentés par l'IA avaient également tendance à couvrir un nombre similaire de « concepts » identifiables que les 10 premiers liens traditionnels, ce qui suggère un niveau similaire de détail, de diversité et de nouveauté dans les résultats. Dans le même temps, les chercheurs ont constaté que « les moteurs génératifs ont tendance à compresser les informations, omettant parfois des aspects secondaires ou ambigus que la recherche traditionnelle conserve ». Cela était particulièrement vrai pour les termes de recherche plus ambigus (tels que les noms partagés par différentes personnes), pour lesquels « les résultats de recherche organiques offrent une meilleure couverture », ont constaté les chercheurs.

Les moteurs de recherche basés sur l'IA ont également l'avantage de pouvoir intégrer des « connaissances internes » pré-entraînées aux données extraites des sites web cités. Cela était particulièrement vrai pour GPT-4o avec Search Tool, qui ne citait souvent aucune source web et fournissait simplement une réponse directe basée sur son entraînement.

Mais cette dépendance aux données pré-entraînées peut devenir une limite lors de la recherche d'informations d'actualité. Pour les termes de recherche tirés de la liste des requêtes tendance de Google pour le 15 septembre, les chercheurs ont constaté que GPT-4o avec Search Tool répondait...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !