IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le spam par l'IA gagnerait la bataille contre la qualité des moteurs de recherche
Les tentatives de Google pour freiner la croissance des contenus générés par l'IA n'auraient pas beaucoup aidé

Le , par Bruno

17PARTAGES

4  0 
Les avancées de l'IA dans la création de contenus ont propulsé le spam sur les moteurs de recherche à des niveaux alarmants, défiant même les efforts de Google pour maintenir la qualité des résultats. Selon Jon Gillham, fondateur d'Originality.ai, la majorité des spams sur Google sont désormais générés par l'IA. Malgré les tentatives de Google pour éliminer ces contenus, environ 10 % des résultats de recherche sont désormais inondés de spam d'IA. Cette prolifération risque également de dégrader la qualité des données, car les IA réutilisent et régurgitent du contenu synthétique de faible qualité.

Bien que des outils de reconnaissance comme celui d'Originality.ai offrent une aide, ils ne suffisent pas à résoudre entièrement le problème. Les dernières mesures de Google visent à améliorer la qualité des résultats en éliminant le contenu non original et en luttant contre les pratiques abusives, telles que l'utilisation de domaines expirés ou la création de contenu à grande échelle pour manipuler les classements. Cependant, il reste à voir si ces efforts seront suffisants pour endiguer le flot de spam par IA et restaurer la qualité des moteurs de recherche.



Dans les premières années 2000, Google a rapidement captivé les utilisateurs grâce à sa capacité à indexer efficacement n'importe quel site Web à travers le monde. Cet outil de recherche en ligne offrait un accès à tout ce que l'on pouvait espérer trouver sur Internet. Pour beaucoup, les termes « Internet » et « Google » étaient interchangeables, fusionnant ainsi en une seule entité. À cette époque, l'entreprise a connu un succès fulgurant et s'est rapidement développée. Aujourd'hui encore, pour la plupart des gens, l'idée d'Internet est étroitement liée au simple mot : « Google ». De plus en plus de personnes soutiennent que Google est en déclin. Selon leurs dires, les résultats de recherche de Google sont de plus en plus envahis par des publicités payantes, tandis que les sites Web indésirables parviennent de mieux en mieux à s'imposer dans les résultats en contournant les algorithmes de l'entreprise. En conséquence, l'expérience de recherche sur Google se dégrade progressivement, devenant moins pertinente et plus fastidieuse.

Des chercheurs allemands ont examiné cette problématique dans le cadre d'une étude, et leurs conclusions semblent confirmer les préoccupations des utilisateurs. Selon leur rapport, la qualité des résultats de Google et de ses concurrents est en baisse, et cette tendance risque de s'aggraver avec l'émergence de l'intelligence artificielle générative. L'étude souligne que le moteur de recherche Google est envahi par du spam SEO, ce qui dégrade la qualité de la recherche, tandis que ses concurrents comme Bing et DuckDuckGo ne font pas mieux.

Les chercheurs, issus de l'université de Leipzig, de l'université Bauhaus de Weimar et du Centre pour l'analyse des données évolutives et l'intelligence artificielle, ont passé un an à analyser les résultats de 7 392 requêtes d'évaluation de produits sur Google, Bing et DuckDuckGo. Cette étude, présentée comme la première du genre, confirme les inquiétudes quant à la détérioration de la qualité des résultats des moteurs de recherche. Alors que Google défend la qualité de ses résultats, l'étude contredit cette affirmation. Selon les chercheurs, une partie significative du problème réside dans ce qu'ils appellent le marketing d'affiliation. Ils notent que les pages les mieux classées sont en moyenne plus optimisées pour le marketing d'affiliation, ce qui se traduit par une qualité de texte moindre. De plus, ils soulignent que bien qu'une petite fraction des évaluations de produits utilise cette stratégie, la majorité des résultats des moteurs de recherche y recourent, exacerbant ainsi les problèmes de qualité des pages de résultats des moteurs de recherche (SERP).

La prolifération des contenus issus de l'IA perturbe les résultats de recherche de Google, malgré les efforts du géant du web pour endiguer cette croissance. Gillham qui est également PDG d'Originality.ai, souligne que Google semble perdre la bataille contre ce spam dans ses résultats de recherche. Selon lui, tous les spams actuels proviennent de l'IA, bien que tous les contenus d'IA ne soient pas du spam. Les rapports mensuels de l'équipe de Gillham montrent qu'environ 10 % des résultats de recherche Google contiennent du contenu généré par l'IA, malgré les promesses de Google de nettoyer ces contenus indésirables. Bien que des mesures manuelles aient été prises, l'algorithme de Google semble toujours dépassé par l'envahissement des contenus d'IA.

Cette prolifération soulève également des préoccupations quant à la qualité des données, car les IA absorbent et régurgitent d'autres contenus synthétiques de qualité médiocre. Bien que la technologie de reconnaissance de Gillham soit utile pour détecter ce type de contenu, il admet qu'elle ne constitue pas une solution complète. Ces efforts sont considérés comme un pas en avant pour réduire la corruption des données, mais selon Gillham, ils ne résolvent pas entièrement le problème.

Google dévoile de nouvelles stratégies pour combattre le spam

Chaque jour, les internautes se tournent vers le moteur de recherche pour trouver le meilleur de ce que le Web a à offrir. Google a depuis longtemps mis en place des politiques et des systèmes automatisés pour lutter contre les spammeurs. L’entreprise met régulièrement à jour ces politiques et ces systèmes afin de lutter contre cette tendance et à mettre en relation les internautes avec des sites web de qualité. Voici, ci-dessous, les principaux changements apportés par Google pour améliorer la qualité de la recherche et l'utilité des résultats :

  • amélioration de la qualité du classement : des améliorations sont apportées aux algorithmes des principaux systèmes de classement ceci pour remettre les informations les plus utiles sur le web et réduire les contenus non originaux dans les résultats de recherche ;
  • nouvelles politiques de lutte contre les spam améliorées : les politiques de lutte contre le spam sont mis à jour afin d'exclure de la recherche les contenus de qualité médiocre, tels que les sites web expirés transformés en dépôts de spam par leurs nouveaux propriétaires et les spams sur les notices nécrologiques.

Réduction des résultats de qualité médiocre et non originaux

En 2022, nous Google a commencé à ajuster ses systèmes de classement afin de réduire les contenus inutiles et non originaux dans le moteur de recherche et de les maintenir à des niveaux très bas.

Citation Envoyé par Danny Sullivan,Chargé de liaison avec le public pour la recherche
Beaucoup d'entre nous ont connu la frustration de visiter une page web qui semble contenir ce que nous recherchons, mais qui ne répond pas à nos attentes. Il se peut que le contenu ne contienne pas les informations souhaitées ou qu'il ne semble même pas avoir été créé pour, ou même par, une personne. Nous nous efforçons de faire en sorte que les pages affichées dans le moteur de recherche soient aussi utiles et pertinentes que possible. Pour ce faire, nous perfectionnons constamment nos systèmes : en 2021, nous avons lancé des milliers de mises à jour de la recherche sur la base de centaines de milliers de tests de qualité, y compris des évaluations dans le cadre desquelles nous recueillons les commentaires d'évaluateurs humains.

Nous savons que les gens ne trouvent pas le contenu utile s'il semble avoir été conçu pour attirer les clics plutôt que pour informer les lecteurs. C'est pourquoi, pour les utilisateurs anglophones du monde entier, nous apporterons une série d'améliorations au moteur de recherche afin de permettre aux internautes de trouver plus facilement des contenus utiles rédigés par et pour des personnes
.
La mise à jour de mars 2024 consiste à affiner certains les systèmes de classement de base pour aider Google à mieux comprendre si les pages web sont inutiles, offrent une mauvaise expérience utilisateur ou donnent l'impression d'avoir été créées pour les moteurs de recherche plutôt que pour les internautes. Il peut s'agir de sites créés principalement pour répondre à des requêtes de recherche très spécifiques. Selon Google, la combinaison de cette mise à jour et des efforts précédents permettra de réduire collectivement de 40 % le contenu de mauvaise qualité et non original dans les résultats de recherche.

De nos jours, les techniques de création de contenu à grande échelle sont devenues plus sophistiquées, rendant parfois difficile de déterminer si le contenu est généré uniquement par automatisation. Pour contrer ces pratiques, Google s'engage à renforcer sa politique en se concentrant spécifiquement sur le spam par l'IA. Cela permettra de cibler un éventail plus large de contenus à faible valeur ajoutée, tels que les pages prétendant répondre à des requêtes populaires mais ne fournissant pas de contenu réellement utile.

Elizabeth Tucker, Directrice de la Gestion des produits, a déclaré dans un post publié en mars de cette année : « Depuis des décennies, nous nous appuyons sur des systèmes avancés de lutte contre le spam et sur des politiques anti-spam pour empêcher les contenus de qualité médiocre d'apparaître dans les résultats de recherche - et ce travail se poursuit. Nous mettons régulièrement à jour nos politiques anti-spam pour mieux contrer les pratiques abusives, nouvelles et en constante évolution, qui entraînent l'apparition de contenus non originaux et de faible qualité dans les résultats de recherche. À partir d'aujourd'hui, nous prendrons des mesures contre un plus grand nombre de ces comportements manipulateurs. Bien que nos systèmes de classement empêchent de nombreux types de contenus de faible qualité d'être bien classés dans le moteur de recherche, ces mises à jour nous permettent de cibler plus précisément nos actions dans le cadre de nos politiques anti-spam ».

Il arrive que des sites web ayant leur propre contenu de qualité hébergent également du contenu de qualité médiocre fourni par des tiers dans le but de tirer parti de la bonne réputation du site hébergeur. Par exemple, un tiers peut publier des avis sur les prêts sur salaire sur un site web éducatif de confiance afin d'obtenir des avantages en termes de classement de la part du site. Ce type de contenu bien classé dans le moteur de recherche peut semer la confusion ou induire en erreur les visiteurs qui peuvent avoir des attentes très différentes quant au contenu d'un site web donné.

Google considère désormais comme du spam le contenu tiers de très faible valeur produit principalement à des fins de classement et sans surveillance étroite du propriétaire du site web. Il arrive que des domaines expirés soient achetés et réaffectés dans le but premier d'améliorer le classement dans les moteurs de recherche d'un contenu peu original ou de faible qualité. Cela peut induire les utilisateurs en erreur et leur faire croire que le nouveau contenu fait partie de l'ancien site, ce qui n'est pas forcément le cas. Les domaines expirés qui sont achetés et réaffectés dans le but d'améliorer le référencement de contenus de faible qualité sont désormais considérés comme du spam.

Défis et solutions face à la prolifération du spam en ligne à l'Ère de l'IA

L'avènement de l'intelligence artificielle dans la création de contenus n'est pas sans conséquences négatives, notamment en ce qui concerne la prolifération du spam sur les moteurs de recherche. Les affirmations de Jon Gillham, fondateur d'Originality.ai, selon lesquelles la majorité des spams sur Google sont désormais générés par l'IA, soulignent un problème croissant qui défie les efforts de Google pour maintenir la qualité des résultats.

La situation actuelle où environ 10 % des résultats de recherche sont inondés de spam d'IA est alarmante. Non seulement cela nuit à l'expérience utilisateur en fournissant des informations de faible qualité, voire trompeuses, mais cela risque également de compromettre la crédibilité et l'intégrité des moteurs de recherche eux-mêmes. L'utilisation d'IA pour générer du contenu de spam pose également des défis en termes de qualité des données, car cela peut entraîner une réutilisation et une régurgitation de contenus synthétiques de qualité médiocre, ce qui peut rendre difficile la distinction entre des informations légitimes et des contenus trompeurs.


La lutte contre le spam par IA sur les moteurs de recherche nécessite une approche multidimensionnelle. Cela comprendrait non seulement le développement et le déploiement d'outils de détection plus sophistiqués, mais aussi une collaboration étroite entre les acteurs de l'industrie, les chercheurs en IA et les régulateurs pour élaborer des politiques et des réglementations efficaces. De plus, il est crucial d'éduquer les utilisateurs sur la manière de reconnaître et d'éviter le spam, afin de réduire leur propagation et leur efficacité. Seulement en adoptant une approche holistique et coordonnée, il sera possible de réduire efficacement l'impact du spam par IA sur les moteurs de recherche et de restaurer la qualité des résultats.

Les dernières mesures de Google visant à améliorer la qualité des résultats en éliminant le contenu non original et en luttant contre les pratiques abusives sont certainement louables. Cependant, il reste à voir si ces mesures seront efficaces pour endiguer le flot de spam par IA et pour restaurer la confiance dans les moteurs de recherche.

Sources : Google, Jon Gillham, fondateur de la plateforme de détection de contenu AI Originality.ai

Et vous ?

Quel est votre avis sur le sujet ?

Google parviendra-t-il à gagner cette guerre contre le spam par IA ?

Les mesures et les réglementations actuelles en matière de spam et d'IA sont-elles adaptées pour faire face à ce problème émergent ?

Voir aussi :

Google estime que le contenu généré automatiquement par une IA est contraire à ses directives aux webmasters et est considéré comme du spam

Comment le contenu généré par l'IA pourrait favoriser une migration des médias sociaux vers un contenu indépendant « rédigé » par l'auteur, d'après Andrew Golis

90% du contenu en ligne pourrait être « généré par l'IA d'ici 2025 », selon une conférencière en IA. « Les choses qui nous émerveillent début 2023 vont sembler pittoresques d'ici la fin de l'année »

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de smarties
Expert confirmé https://www.developpez.com
Le 17/04/2024 à 11:56
Quel est votre avis sur le sujet ?
Quand je cherche de la doc technique, j'ai l'impression de tomber de plus en plus sur ce genre de contenu.

Google parviendra-t-il à gagner cette guerre contre le spam par IA ?
Ca va être compliqué.
Solutions ?
- être plus tracké par Google & les autres qui va calculer le temps que l'on reste sur un site et la fréquence à laquelle on visite celui-ci ? (si ce n'est pas déjà fait)
- noter les pages consultées ?
- autres ?
... mais des bots pourraient encore fausse ce système.

Les mesures et les réglementations actuelles en matière de spam et d'IA sont-elles adaptées pour faire face à ce problème émergent ?
La réglementation ne va rien changer car le contenu généré n'est pas forcément fait par un individu qui est dans le pays de cette réglementation.
0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 17/04/2024 à 14:52
Google parviendra-t-il à gagner cette guerre contre le spam par IA ?
peut être qu'il va falloir faire un système de notation collaborative par des humains de chaque site...
0  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 17/04/2024 à 18:52
Le retour aux "bons" vieux annuaires de liens.
0  0 
Avatar de youpimatos
Membre régulier https://www.developpez.com
Le 09/12/2024 à 10:27
Google est déjà (relativement) efficace si on sait chercher avec, par mots clefs. Mais même avec cette compétence, la qualité des résultats diminue encore et encore... Et cette annonce prévoit sûrement une suite similaire.

Mais au final, moi mes résultats par mots-clefs (du genre "windows no keyboard input") deviennent moins bon, mais les noobs de la recherche qui auraient cherché "mon clavier fonctionne plus" seront sûrement avantagés par le style de recherches que Google veut mettre place?

Wait and see. Si les utilisateurs lambdas sont contents... Ça nous économisera peut-être quelques dizaines de minutes au téléphone avec la famille pour les aider à réparer un truc tout con (sauf leur respect évidemment !)
0  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 20/12/2024 à 23:54
OpenAI vient de lancer ChatGPT Search dans le même ordre d'idée. Ils sont plus des moteurs de réponses que des moteurs de recherche.

Ils sont conçus pour offrir une expérience plus conversationnelle que Google. Contrairement aux moteurs de recherche traditionnels, ils se concentrent sur la fourniture de réponses concises avec des citations, souvent tirées du Web en temps réel.
Même qwant le fait, par défaut en ce moment (ils doivent brûler du cash). Maintenant que les moteurs de recherche sortent des fermes de contenu qui ont hacké le ranking, je dois dire que ça marche bien et que c'est difficile d'y résister pour une info courte.
0  0