Bien que des outils de reconnaissance comme celui d'Originality.ai offrent une aide, ils ne suffisent pas à résoudre entièrement le problème. Les dernières mesures de Google visent à améliorer la qualité des résultats en éliminant le contenu non original et en luttant contre les pratiques abusives, telles que l'utilisation de domaines expirés ou la création de contenu à grande échelle pour manipuler les classements. Cependant, il reste à voir si ces efforts seront suffisants pour endiguer le flot de spam par IA et restaurer la qualité des moteurs de recherche.
Dans les premières années 2000, Google a rapidement captivé les utilisateurs grâce à sa capacité à indexer efficacement n'importe quel site Web à travers le monde. Cet outil de recherche en ligne offrait un accès à tout ce que l'on pouvait espérer trouver sur Internet. Pour beaucoup, les termes « Internet » et « Google » étaient interchangeables, fusionnant ainsi en une seule entité. À cette époque, l'entreprise a connu un succès fulgurant et s'est rapidement développée. Aujourd'hui encore, pour la plupart des gens, l'idée d'Internet est étroitement liée au simple mot : « Google ». De plus en plus de personnes soutiennent que Google est en déclin. Selon leurs dires, les résultats de recherche de Google sont de plus en plus envahis par des publicités payantes, tandis que les sites Web indésirables parviennent de mieux en mieux à s'imposer dans les résultats en contournant les algorithmes de l'entreprise. En conséquence, l'expérience de recherche sur Google se dégrade progressivement, devenant moins pertinente et plus fastidieuse.
Des chercheurs allemands ont examiné cette problématique dans le cadre d'une étude, et leurs conclusions semblent confirmer les préoccupations des utilisateurs. Selon leur rapport, la qualité des résultats de Google et de ses concurrents est en baisse, et cette tendance risque de s'aggraver avec l'émergence de l'intelligence artificielle générative. L'étude souligne que le moteur de recherche Google est envahi par du spam SEO, ce qui dégrade la qualité de la recherche, tandis que ses concurrents comme Bing et DuckDuckGo ne font pas mieux.
Les chercheurs, issus de l'université de Leipzig, de l'université Bauhaus de Weimar et du Centre pour l'analyse des données évolutives et l'intelligence artificielle, ont passé un an à analyser les résultats de 7 392 requêtes d'évaluation de produits sur Google, Bing et DuckDuckGo. Cette étude, présentée comme la première du genre, confirme les inquiétudes quant à la détérioration de la qualité des résultats des moteurs de recherche. Alors que Google défend la qualité de ses résultats, l'étude contredit cette affirmation. Selon les chercheurs, une partie significative du problème réside dans ce qu'ils appellent le marketing d'affiliation. Ils notent que les pages les mieux classées sont en moyenne plus optimisées pour le marketing d'affiliation, ce qui se traduit par une qualité de texte moindre. De plus, ils soulignent que bien qu'une petite fraction des évaluations de produits utilise cette stratégie, la majorité des résultats des moteurs de recherche y recourent, exacerbant ainsi les problèmes de qualité des pages de résultats des moteurs de recherche (SERP).
La prolifération des contenus issus de l'IA perturbe les résultats de recherche de Google, malgré les efforts du géant du web pour endiguer cette croissance. Gillham qui est également PDG d'Originality.ai, souligne que Google semble perdre la bataille contre ce spam dans ses résultats de recherche. Selon lui, tous les spams actuels proviennent de l'IA, bien que tous les contenus d'IA ne soient pas du spam. Les rapports mensuels de l'équipe de Gillham montrent qu'environ 10 % des résultats de recherche Google contiennent du contenu généré par l'IA, malgré les promesses de Google de nettoyer ces contenus indésirables. Bien que des mesures manuelles aient été prises, l'algorithme de Google semble toujours dépassé par l'envahissement des contenus d'IA.
Cette prolifération soulève également des préoccupations quant à la qualité des données, car les IA absorbent et régurgitent d'autres contenus synthétiques de qualité médiocre. Bien que la technologie de reconnaissance de Gillham soit utile pour détecter ce type de contenu, il admet qu'elle ne constitue pas une solution complète. Ces efforts sont considérés comme un pas en avant pour réduire la corruption des données, mais selon Gillham, ils ne résolvent pas entièrement le problème.
Google dévoile de nouvelles stratégies pour combattre le spam
Chaque jour, les internautes se tournent vers le moteur de recherche pour trouver le meilleur de ce que le Web a à offrir. Google a depuis longtemps mis en place des politiques et des systèmes automatisés pour lutter contre les spammeurs. L’entreprise met régulièrement à jour ces politiques et ces systèmes afin de lutter contre cette tendance et à mettre en relation les internautes avec des sites web de qualité. Voici, ci-dessous, les principaux changements apportés par Google pour améliorer la qualité de la recherche et l'utilité des résultats :
- amélioration de la qualité du classement : des améliorations sont apportées aux algorithmes des principaux systèmes de classement ceci pour remettre les informations les plus utiles sur le web et réduire les contenus non originaux dans les résultats de recherche ;
- nouvelles politiques de lutte contre les spam améliorées : les politiques de lutte contre le spam sont mis à jour afin d'exclure de la recherche les contenus de qualité médiocre, tels que les sites web expirés transformés en dépôts de spam par leurs nouveaux propriétaires et les spams sur les notices nécrologiques.
Réduction des résultats de qualité médiocre et non originaux
En 2022, nous Google a commencé à ajuster ses systèmes de classement afin de réduire les contenus inutiles et non originaux dans le moteur de recherche et de les maintenir à des niveaux très bas.
Envoyé par Danny Sullivan,Chargé de liaison avec le public pour la recherche
La mise à jour de mars 2024 consiste à affiner certains les systèmes de classement de base pour aider Google à mieux comprendre si les pages web sont inutiles, offrent une mauvaise expérience utilisateur ou donnent l'impression d'avoir été créées pour les moteurs de recherche plutôt que pour les internautes. Il peut s'agir de sites créés principalement pour répondre à des requêtes de recherche très spécifiques. Selon Google, la combinaison de cette mise à jour et des efforts précédents permettra de réduire collectivement de 40 % le contenu de mauvaise qualité et non original dans les résultats de recherche.
De nos jours, les techniques de création de contenu à grande échelle sont devenues plus sophistiquées, rendant parfois difficile de déterminer si le contenu est généré uniquement par automatisation. Pour contrer ces pratiques, Google s'engage à renforcer sa politique en se concentrant spécifiquement sur le spam par l'IA. Cela permettra de cibler un éventail plus large de contenus à faible valeur ajoutée, tels que les pages prétendant répondre à des requêtes populaires mais ne fournissant pas de contenu réellement utile.
Elizabeth Tucker, Directrice de la Gestion des produits, a déclaré dans un post publié en mars de cette année : « Depuis des décennies, nous nous appuyons sur des systèmes avancés de lutte contre le spam et sur des politiques anti-spam pour empêcher les contenus de qualité médiocre d'apparaître dans les résultats de recherche - et ce travail se poursuit. Nous mettons régulièrement à jour nos politiques anti-spam pour mieux contrer les pratiques abusives, nouvelles et en constante évolution, qui entraînent l'apparition de contenus non originaux et de faible qualité dans les résultats de recherche. À partir d'aujourd'hui, nous prendrons des mesures contre un plus grand nombre de ces comportements manipulateurs. Bien que nos systèmes de classement empêchent de nombreux types de contenus de faible qualité d'être bien classés dans le moteur de recherche, ces mises à jour nous permettent de cibler plus précisément nos actions dans le cadre de nos politiques anti-spam ».
Il arrive que des sites web ayant leur propre contenu de qualité hébergent également du contenu de qualité médiocre fourni par des tiers dans le but de tirer parti de la bonne réputation du site hébergeur. Par exemple, un tiers peut publier des avis sur les prêts sur salaire sur un site web éducatif de confiance afin d'obtenir des avantages en termes de classement de la part du site. Ce type de contenu bien classé dans le moteur de recherche peut semer la confusion ou induire en erreur les visiteurs qui peuvent avoir des attentes très différentes quant au contenu d'un site web donné.
Google considère désormais comme du spam le contenu tiers de très faible valeur produit principalement à des fins de classement et sans surveillance étroite du propriétaire du site web. Il arrive que des domaines expirés soient achetés et réaffectés dans le but premier d'améliorer le classement dans les moteurs de recherche d'un contenu peu original ou de faible qualité. Cela peut induire les utilisateurs en erreur et leur faire croire que le nouveau contenu fait partie de l'ancien site, ce qui n'est pas forcément le cas. Les domaines expirés qui sont achetés et réaffectés dans le but d'améliorer le référencement de contenus de faible qualité sont désormais considérés comme du spam.
Défis et solutions face à la prolifération du spam en ligne à l'Ère de l'IA
L'avènement de l'intelligence artificielle dans la création de contenus n'est pas sans conséquences négatives, notamment en ce qui concerne la prolifération du spam sur les moteurs de recherche. Les affirmations de Jon Gillham, fondateur d'Originality.ai, selon lesquelles la majorité des spams sur Google sont désormais générés par l'IA, soulignent un problème croissant qui défie les efforts de Google pour maintenir la qualité des résultats.
La situation actuelle où environ 10 % des résultats de recherche sont inondés de spam d'IA est alarmante. Non seulement cela nuit à l'expérience utilisateur en fournissant des informations de faible qualité, voire trompeuses, mais cela risque également de compromettre la crédibilité et l'intégrité des moteurs de recherche eux-mêmes. L'utilisation d'IA pour générer du contenu de spam pose également des défis en termes de qualité des données, car cela peut entraîner une réutilisation et une régurgitation de contenus synthétiques de qualité médiocre, ce qui peut rendre difficile la distinction entre des informations légitimes et des contenus trompeurs.
La lutte contre le spam par IA sur les moteurs de recherche nécessite une approche multidimensionnelle. Cela comprendrait non seulement le développement et le déploiement d'outils de détection plus sophistiqués, mais aussi une collaboration étroite entre les acteurs de l'industrie, les chercheurs en IA et les régulateurs pour élaborer des politiques et des réglementations efficaces. De plus, il est crucial d'éduquer les utilisateurs sur la manière de reconnaître et d'éviter le spam, afin de réduire leur propagation et leur efficacité. Seulement en adoptant une approche holistique et coordonnée, il sera possible de réduire efficacement l'impact du spam par IA sur les moteurs de recherche et de restaurer la qualité des résultats.
Les dernières mesures de Google visant à améliorer la qualité des résultats en éliminant le contenu non original et en luttant contre les pratiques abusives sont certainement louables. Cependant, il reste à voir si ces mesures seront efficaces pour endiguer le flot de spam par IA et pour restaurer la confiance dans les moteurs de recherche.
Sources : Google, Jon Gillham, fondateur de la plateforme de détection de contenu AI Originality.ai
Et vous ?
Quel est votre avis sur le sujet ?
Google parviendra-t-il à gagner cette guerre contre le spam par IA ?
Les mesures et les réglementations actuelles en matière de spam et d'IA sont-elles adaptées pour faire face à ce problème émergent ?
Voir aussi :
Google estime que le contenu généré automatiquement par une IA est contraire à ses directives aux webmasters et est considéré comme du spam
Comment le contenu généré par l'IA pourrait favoriser une migration des médias sociaux vers un contenu indépendant « rédigé » par l'auteur, d'après Andrew Golis
90% du contenu en ligne pourrait être « généré par l'IA d'ici 2025 », selon une conférencière en IA. « Les choses qui nous émerveillent début 2023 vont sembler pittoresques d'ici la fin de l'année »