La pratique menace d’accélérer l’arrivée d’un internet défectueux, envahi par le contenu généré par l’IA, ainsi que de gaspiller des sommes colossales d’argent publicitaire. La plupart des entreprises qui font de la publicité en ligne enchérissent automatiquement sur des emplacements pour diffuser ces annonces grâce à une pratique appelée « publicité programmatique ». Des algorithmes placent des annonces sur divers sites web selon des calculs complexes qui optimisent le nombre de personnes qu’une annonce pourrait attirer parmi le public cible de l’entreprise. En conséquence, les grandes marques se retrouvent à payer pour des placements publicitaires sur des sites web dont elles n’ont peut-être jamais entendu parler auparavant, avec peu ou pas de supervision humaine.
Pour en profiter, des fermes de contenu ont vu le jour où des humains peu rémunérés produisent du contenu de mauvaise qualité pour attirer des revenus publicitaires. Ces types de sites Web ont déjà un nom : les sites « faits pour la publicité ». Ils utilisent des tactiques telles que le clickbait, les vidéos en lecture automatique et les publicités contextuelles pour soutirer le plus d'argent possible aux annonceurs. Dans une récente enquête, l'Association of National Advertisers a constaté que 21 % des impressions publicitaires de son échantillon étaient destinées à des sites conçus pour la publicité. Le groupe a estimé qu'environ 13 milliards de dollars sont gaspillés chaque année dans le monde sur ces sites.
Aujourd'hui, l'IA générative offre une nouvelle façon d'automatiser le processus de ferme de contenu et de créer plus de sites indésirables avec moins d'effort, ce qui entraîne ce que NewsGuard appelle « des sites Web d'actualités générés par l'intelligence artificielle peu fiables ». Un site signalé par NewsGuard a produit plus de 1 200 articles par jour.
Certains de ces nouveaux sites sont plus sophistiqués et convaincants que d'autres, avec des photos et des biographies de faux auteurs générées par l'IA. Et le problème se développe rapidement. NewsGuard, qui évalue la qualité des sites Web sur Internet, déclare découvrir environ 25 nouveaux sites générés par l'IA chaque semaine. Il en a trouvé 217 dans 13 langues depuis qu'il a commencé à suivre le phénomène en avril.
La prolifération des sites d'information générés par l'IA
NewsGuard définit les sites Web d'actualités non fiables générés par l'intelligence artificielle (UAIN) comme des sites qui fonctionnent avec peu ou pas de surveillance humaine et publient des articles rédigés en grande partie ou entièrement par des bots. En mai, les analystes de NewsGuard ont mis à jour le nombre de sites sur son nouveau traceur de sites UAIN de 49 à 217.
Beaucoup de ces sites générés par l'IA semblent être entièrement financés par la publicité programmatique. Certains des sites Web produisent d'énormes volumes d'articles sur lesquels des publicités peuvent être placées - un de ces sites produit en moyenne plus de 1 200 articles par jour - incitant ainsi à la création de ces sites de faible qualité générés par l'IA avec peu ou pas d'éléments apparents de veille éditoriale. Bien que de nombreux annonceurs et leurs agences de publicité maintiennent des «listes d'exclusion» de sites Web «non sécurisés» où leur publicité ne devrait pas apparaître, ces listes ne sont souvent pas tenues à jour et n'ont manifestement pas suivi le rythme de l'augmentation des sites UAIN.
Entre mai et juin 2023, les analystes de NewsGuard ont identifié 393 publicités programmatiques de 141 grandes marques qui sont apparues sur 55 des 217 sites UAIN identifiés par NewsGuard. Tous les sites Web UAIN que NewsGuard a trouvés n'affichent pas de publicités pour les grandes marques, et certains ne diffusent aucune publicité programmatique. Les publicités trouvées par NewsGuard ont été diffusées à des analystes naviguant sur Internet dans quatre pays : les États-Unis, l'Allemagne, la France et l'Italie.
Parce qu'il est probable qu'aucune des marques ou de leurs agences de publicité n'avait la moindre idée que leurs publicités apparaîtraient sur ces sites peu fiables et pilotés par l'IA, NewsGuard ne les nomme pas. Mais ils comprennent une grande variété d'annonceurs de premier ordre : une demi-douzaine de grandes banques et sociétés de services financiers, quatre grands magasins de luxe, trois grandes marques de vêtements de sport, trois fabricants d'appareils électroménagers, deux des plus grandes sociétés de technologie grand public au monde, deux sociétés mondiales des sociétés de commerce électronique, deux des principaux fournisseurs de haut débit américains, trois services de streaming proposés par les réseaux de diffusion américains, une plate-forme numérique de la Silicon Valley et une grande chaîne de supermarchés européenne.
Une annonce pour une entreprise de vêtements de sport est apparue sur NoticiasDeEmprego.com.br, un site Web UAIN qui publie des informations générées par l'IA sur les opportunités d'emploi au Brésil. Le texte indique clairement qu'il s'agit d'une IA
NewsGuard a une façon astucieuse d’identifier ces sites web indésirables écrits par l’IA. Comme beaucoup d’entre eux sont également créés sans supervision humaine, ils sont souvent truffés de messages d’erreur typiques des systèmes générateurs d’IA. Par exemple, un site appelé CountyLocalNews.com contenait des messages tels que « Désolé, je ne peux pas répondre à cette invite car cela va à l'encontre des principes éthiques et moraux... En tant que modèle de langage d'IA, il est de ma responsabilité de fournir des informations factuelles et fiables ».
L'IA de NewsGuard recherche ces extraits de texte sur les sites Web, puis un analyste humain les examine.
« Il semble que la publicité programmatique soit la principale source de revenus de ces sites Web générés par l'IA », déclare Lorenzo Arvanitis, analyste chez NewGuard qui suit le contenu Web généré par l'IA. « Nous avons identifié des centaines d'entreprises Fortune 500 et de marques bien connues et de premier plan qui font de la publicité sur ces sites et qui la soutiennent sans le savoir ».
MIT Technology Review a examiné la liste de près de 400 publicités individuelles de plus de 140 grandes marques que NewsGuard a identifiées sur les sites générés par l'IA qui diffusaient des publicités programmatiques, qui comprenaient des entreprises de nombreux secteurs différents, notamment la finance, la vente au détail, l'automobile, les soins de santé et le commerce électronique. Le coût moyen d'une publicité programmatique était de 1,21 $ pour mille impressions en janvier 2023, et les marques ne vérifient souvent pas tous les placements automatiques de leurs publicités, même si elles coûtent de l'argent.
La réaction de Google
Le produit publicitaire programmatique de Google, appelé Google Ads, est la plus grande bourse de ce type et a réalisé 168 milliards de dollars de revenus publicitaires l'année dernière. La société a été critiquée pour avoir diffusé des annonces sur des fermes de contenu dans le passé, même si ses propres politiques interdisent aux sites de placer des annonces diffusées par Google sur des pages avec du « contenu généré automatiquement par du spam ». Environ un quart des sites signalés par NewsGuard présentaient des publicités programmatiques de grandes marques. Sur les 393 annonces de grandes marques trouvées sur les sites générés par l'IA, 356 ont été diffusées par Google.
« Nous avons des politiques strictes qui régissent le type de contenu qui peut être monétisé sur notre plate-forme », a déclaré Michael Aciman, responsable des communications politiques pour Google, au MIT Technology Review dans un e-mail. « Par exemple, nous n'autorisons pas la diffusion d'annonces à côté de contenu préjudiciable, de spam ou de contenu de faible valeur, ou de contenu qui a été uniquement copié à partir d'autres sites. Lors de l'application de ces politiques, nous nous concentrons sur la qualité du contenu plutôt que sur la façon dont il a été créé, et nous bloquons ou supprimons les publicités de la diffusion si nous détectons des violations. »
Comment se protéger des sites web générés par l’IA ?
Jusqu’à présent, il n’existe pas de solutions faciles, surtout étant donné que la publicité soutient tout le modèle économique d’internet. « Ce qu’il faut retenir, c’est que les annonces programmatiques - et les annonces ciblées plus généralement - sont un élément fondamental de l’économie internet », a déclaré Hodan Omaar, conseillère principale en politique d’IA à la Fondation pour l’innovation et la technologie de l’information, un think tank basé à Washington, DC. « Si les décideurs politiques interdisaient l’utilisation de ces types de services publicitaires, les consommateurs seraient confrontés à un internet radicalement différent : plus d’annonces qui sont moins pertinentes, du contenu et des services en ligne de moindre qualité, et plus de paywall », a-t-il continué. « La politique ne devrait pas viser à se débarrasser des annonces programmatiques en général, mais plutôt à garantir qu’il existe des mécanismes plus robustes pour empêcher la propagation de la désinformation, qu’elle soit directe ou indirecte ».
Face à la prolifération des sites web de mauvaise qualité remplis de texte généré par l’IA, les consommateurs, les annonceurs et les plateformes doivent être vigilants et responsables. Voici quelques conseils pour se prémunir contre ces sites web trompeurs et nuisibles :
- Pour les consommateurs, il est important de vérifier la fiabilité des sources d’information qu’ils consultent. Ils peuvent utiliser des outils qui évaluent la crédibilité des sites web sur internet, ou des sites comme FactCheck.org, qui vérifie les faits et les déclarations des personnalités publiques. Ils peuvent également se méfier des signes révélateurs d’un contenu généré par l’IA, tels que des erreurs grammaticales, des incohérences logiques, des répétitions ou des affirmations non étayées.
- Pour les annonceurs, il est essentiel de surveiller où leurs annonces sont diffusées et de s’assurer qu’elles ne financent pas des sites web malveillants ou de mauvaise qualité. Ils peuvent utiliser des outils comme Google Ads Transparency Report, qui montre quels sites web ont reçu de l’argent de Google pour diffuser des annonces, ou Brand Safety Institute, qui propose des certifications et des formations pour les professionnels de la publicité en ligne. Ils peuvent également exiger plus de transparence et de responsabilité de la part des plateformes qui diffusent leurs annonces.
- Pour les plateformes, il est nécessaire de renforcer leurs politiques et leurs mécanismes pour détecter et supprimer les sites web générés par l’IA qui enfreignent leurs règles. Ils peuvent utiliser des outils comme GLTR, qui utilise l’apprentissage automatique pour identifier le texte généré par l’IA, ou Perspective API, qui utilise l’IA pour détecter le contenu toxique ou trompeur. Ils peuvent également collaborer avec d’autres acteurs du secteur pour partager les bonnes pratiques et les normes éthiques.
Source : NewsGuard
Et vous ?
Que pensez-vous de l’utilisation de l’IA pour générer du contenu sur internet ?
Avez-vous déjà rencontré des sites web générés par l’IA ? Comment les avez-vous reconnus ? Quelle a été votre réaction ?
Quelles sont les mesures que vous prenez pour vérifier la fiabilité des sources d’information que vous consultez ? Quels sont les outils ou les critères que vous utilisez ?
Comment pensez-vous que les annonceurs, les plateformes et les régulateurs devraient faire face au phénomène des sites web générés par l’IA ? Quelles sont les solutions ou les recommandations que vous proposez ?
Quel est l’impact des sites web générés par l’IA sur la qualité et l’intégrité de l’information sur internet ? Quels sont les risques ou les opportunités que cela représente pour la société ?