Wikipédia a interdit les textes générés par l'IA, après avoir été confrontée à des faits erronés, des citations invérifiables, des perturbations dans la collaboration et des exemples d'échecs liés à l'IA

Le 25 mars 2026 à 19:36, par Alex

25PARTAGES

Wikipédia a interdit les textes générés par l'IA, après avoir été confrontée à des faits erronés, des citations invérifiables, des perturbations dans la collaboration et des exemples d'échecs liés à l'IA

Wikipédia, l'encyclopédie en ligne tant appréciée, débat depuis un certain temps sur la manière de gérer l'utilisation des grands modèles de langage (LLM) dans ses articles. Désormais, cette pratique est officiellement interdite, à l'exception de quelques cas particuliers dans le cadre de la révision et de la traduction. Après de longs débats, la nouvelle politique est entrée en vigueur : les auteurs de Wikipédia ne sont pas autorisés à utiliser les LLM pour générer ou réécrire le contenu des articles. Il existe toutefois deux exceptions principales. Premièrement, les contributeurs peuvent utiliser les LLM pour suggérer des améliorations à leurs propres textes, à condition que l'exactitude des modifications soit vérifiée. La deuxième exception concernant les LLM concerne l’aide à la traduction.

Wikipédia est une encyclopédie en ligne gratuite rédigée et mise à jour par une communauté de bénévoles grâce à une collaboration ouverte et au logiciel wiki MediaWiki. Fondée par Jimmy Wales et Larry Sanger en 2001, Wikipédia est hébergée depuis 2003 par la Fondation Wikimedia, une organisation américaine à but non lucratif financée principalement par les dons des lecteurs. Wikipédia est l'ouvrage de référence le plus volumineux et le plus lu de l'histoire.

En mai 2025, la Fondation Wikimedia a annoncé utiliser l'IA pour rationaliser les opérations et améliorer l'expérience de l'utilisateur sur Wikipédia. « Nous utiliserons l'IA pour créer des fonctionnalités qui éliminent les obstacles techniques afin de permettre aux personnes qui sont au cœur de Wikipédia de consacrer leur temps précieux à ce qu'ils veulent accomplir, et non à la manière d'y parvenir techniquement. » La Fondation Wikimedia prévoyait d'utiliser l'IA pour automatiser les tâches fastidieuses, améliorer la recherche d'informations, faciliter les traductions et aider à l'intégration des nouveaux bénévoles.

Cependant, dans une annonce récente, la Fondation Wikimedia semble changer d'avis. Wikipédia, l'encyclopédie en ligne tant appréciée, débat depuis un certain temps sur la manière de gérer l'utilisation des grands modèles de langage (LLM) dans ses articles. Désormais, cette pratique est officiellement interdite, à l'exception de quelques cas particuliers dans le cadre de la révision et de la traduction.

L'administrateur de Wikipédia Chaotic Enby a expliqué dans la proposition initiale : « Les propositions antérieures visant à établir une ligne directrice communautaire immédiate et exhaustive sur les LLM ont échoué en raison des difficultés habituelles liées au traitement simultané de problèmes complexes et de grande envergure : les contributeurs, même ceux qui approuvaient globalement les objectifs de ces propositions, ont relevé des problèmes spécifiques dans certaines parties et ont critiqué le fait qu'elles étaient trop vagues ou trop précises. Un consensus existait sur l'idée du changement, mais pas sur sa mise en œuvre. »

Après de longs débats, la nouvelle politique est entrée en vigueur : les auteurs de Wikipédia ne sont pas autorisés à utiliser les LLM pour générer ou réécrire le contenu des articles. Il existe toutefois deux exceptions principales.

Premièrement, les contributeurs peuvent utiliser les LLM pour suggérer des améliorations à leurs propres textes, à condition que l'exactitude des modifications soit vérifiée. En d'autres termes, ces outils sont traités comme n'importe quel autre correcteur grammatical ou outil d'aide à la rédaction. La politique stipule : « Les LLM peuvent aller au-delà de ce que vous leur demandez et modifier le sens du texte de telle sorte qu’il ne soit plus étayé par les sources citées. »

La deuxième exception concernant les LLM concerne l’aide à la traduction. Les contributeurs peuvent utiliser des outils d’IA pour une première traduction du texte, mais ils doivent tout de même maîtriser suffisamment les deux langues pour repérer les erreurs. Comme pour les améliorations rédactionnelles habituelles, toute personne utilisant des LLM doit également vérifier qu’aucune information erronée n’a été introduite.

Il est important de noter que cette politique s'applique uniquement à Wikipédia en anglais (en.wikipedia.org). Chaque site Wikipédia dispose de ses propres règles et équipes de rédaction indépendantes, et d'autres sites peuvent décider d'adopter des règles différentes. Par exemple, Wikipédia en espagnol (es.wikipedia.org) interdit actuellement l'utilisation des LLM pour créer de nouveaux articles Wikipédia à partir de zéro ou pour développer des entrées existantes, sans exception spécifique pour la traduction ou l'aide à la rédaction.

Malheureusement, l'identification des textes rédigés à l'aide de LLM reste une science imparfaite, de sorte que certains textes de mauvaise qualité générés par l'IA peuvent encore apparaître sur des pages moins fréquemment modérées. Wikipédia propose quelques conseils pour repérer les textes générés par des LLM, mais la page de la politique précise également que « certains contributeurs peuvent avoir des styles d'écriture similaires à ceux des LLM ».

Ces problèmes représentent une partie des défis posés par l'IA. En avril 2025, la Fondation Wikimedia avait soulevé un autre problème. La fondation a annoncé que le scraping incessant de l'IA mettait à rude épreuve les serveurs de Wikipédia. Des robots automatisés à la recherche de données d'entraînement de modèles d'IA pour des LLM ont aspiré des téraoctets de données, augmentant de 50 % la bande passante utilisée par la fondation pour télécharger des contenus multimédias depuis janvier 2024. Cette croissance exponentielle du trafic non humain a imposé des coûts techniques et financiers considérables, souvent sans l'attribution qui aide à soutenir l'écosystème bénévole de Wikimedia.

Puis en octobre 2025, Wikipédia a alerté sur l'impact de l'IA sur la plateforme : l'encyclopédie en ligne est confrontée à une baisse significative du trafic humain. De plus en plus d'internautes obtiennent les informations contenues dans Wikipédia via des chatbots d'IA générative tels que ChatGPT et Gemini. Les chatbots répondent directement, en s’appuyant sur les contenus existants, sans rediriger vers les créateurs. L'IA ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des bots, sans originalité. La Fondation Wikimédia affirme que cela représente un risque pour la viabilité à long terme de Wikipédia.

Source : Wikipedia:Writing articles with large language models

Voici la traduction d'un essai humoristique qui montre la justesse de cette décision :

Wikipédia : Arguments contre les articles générés par les grands modèles de langage (LLM)

À l'ère des grands modèles de langage (LLM) tels que ChatGPT, il peut être tentant d'utiliser ces outils pour générer rapidement des articles Wikipédia. Leur style fluide et leur rapidité de production constituent un raccourci séduisant. Cependant, la communauté des contributeurs de Wikipédia s'oppose massivement à ce que les LLM rédigent notre contenu. La raison est simple : ces textes générés par l'IA menacent les principes fondamentaux qui font la fiabilité de Wikipédia. Nous avons constaté que demander à un LLM d’« écrire un article Wikipédia » peut aboutir à de pures inventions, accompagnées de références fictives. Des inexactitudes factuelles que les lecteurs pourraient ne jamais repérer aux citations qui ne mènent nulle part, le contenu créé par les LLM présente des risques que Wikipédia ne peut se permettre. Cet essai expose les préoccupations profondes de la communauté – inexactitudes factuelles et hallucinations, sources invérifiables et fausses citations, atteinte au modèle d'édition collaborative et érosion à long terme de l'intégrité du contenu – et soutient que Wikipédia doit rester un projet mené par des humains et fondé sur une vérité vérifiable.

Confier la rédaction d'un article à une IA, c'est comme demander à ces robots de labourer ce champ, mais en pire. Vous ne feriez pas ça, n'est-ce pas ?

Études de cas et défaillances hypothétiques

Les risques abstraits liés au contenu généré par l'IA apparaissent clairement lorsqu'on examine des exemples concrets. Ces dernières années, les contributeurs de Wikipédia ont mis au jour de nombreux cas où du contenu rédigé par l'IA s'était glissé sur le site, avec des conséquences problématiques. Voici quelques exemples illustrant comment un texte généré par un modèle de langage (LLM) peut se révéler désastreux :

- La forteresse imaginaire : un article de 2 000 mots sur une forteresse ottomane qui n’a jamais existé est apparu sur Wikipédia, accompagné de détails historiques et de citations élaborés. Ils étaient presque aussi détaillés que, peut-être, cet essai. Il s'est avéré qu'il s'agissait d'un canular généré par l'IA. Les références citées semblaient savantes mais étaient frauduleuses, étayant un récit entièrement inventé par un modèle linguistique. Il a fallu des contributeurs expérimentés pour se rendre compte que tout le sujet était inventé. Cet article canular, resté en ligne sans être vérifié, aurait pu induire les lecteurs en erreur et même être cité ailleurs comme un fait avéré. Il n'a été repéré que lorsque l'équipe du WikiProject AI Cleanup a remarqué la cohérence artificielle du texte et l'absence de sources authentiques.

- La confusion autour du coléoptère : dans un autre cas, un éditeur a ajouté un paragraphe en apparence anodin sur une espèce de coléoptère, Estola albosignata, accompagné de quelques citations en ligne – rien d’inhabituel à première vue. Pourtant, l’une de ces citations renvoyait à un article sans rapport, traitant d’un sujet totalement différent. Après enquête, il est apparu clairement que ce paragraphe était une fausse information générée par l'IA. L'IA avait probablement trouvé une source traitant d'un autre sujet et l'avait erronément associée à l'article sur le coléoptère. Ici, le contenu était subtilement erroné (les caractéristiques du coléoptère étaient incorrectes) et la source ne correspondait pas – une erreur plus subtile qu’un canular flagrant, mais potentiellement encore plus difficile à détecter. Cela nous rappelle que les résultats générés par l’IA peuvent s’écarter de la réalité de manière insidieuse, et sans une vérification minutieuse des faits par des humains, de telles erreurs pourraient persister pendant des mois.

- Brouillons promotionnels et biaisés : Des études ont montré que certains articles générés par l'IA ont été utilisés pour promouvoir des agendas. Par exemple, une analyse réalisée en 2024 par l'université de Princeton a révélé qu'environ 5 % des nouveaux articles publiés au cours d'un mois donné présentaient des signes de création par l'IA, certains d'entre eux ayant été rédigés pour promouvoir des entreprises ou d'autres intérêts. Lors de discussions communautaires, les contributeurs ont noté que ces brouillons ressemblaient souvent à des publireportages ou à des discours partisans – des textes qui respectaient superficiellement les directives de Wikipédia dans la forme, mais pas dans l'esprit. Un scénario hypothétique que nous redoutons est celui d'un LLM produisant en masse des articles élogieux pour une entreprise ou une idéologie, chacun mélangeant des faits à un langage promotionnel subtil. Les réviseurs bénévoles doivent alors les identifier et les supprimer, un jeu fastidieux de « tape-la-tête » pour préserver la neutralité. La communauté a en effet constaté des cas d’utilisateurs bannis employant l’IA pour mener des guerres d’édition ou insérer des biais (par exemple, une tentative de fausser des articles sur l’histoire nationale). Avec l’IA, un seul acteur malveillant pourrait générer des centaines d’entrées biaisées de ce type en peu de temps, dépassant de loin la capacité humaine à réagir.

- La fausse biographie : imaginez un scénario (tout à fait plausible) où un brouillon généré par l'IA est créé pour une personnalité publique relativement obscure – disons un politicien local ou un universitaire. L'article pourrait sembler bien structuré et même inclure des références pour étayer ses affirmations. Cependant, après un examen plus approfondi, il pourrait énumérer des récompenses que la personne n'a jamais reçues ou citer des déclarations qu'elle n'a jamais faites. Les citations fournies pourraient sembler fiables mais être totalement inexistantes – par exemple, une fausse « interview du Smithsonian Magazine, 2022 » et un « profil du Journal of Urban Politics, 2021 » inventé de toutes pièces. Dans un élan de bonne foi, un autre contributeur pourrait initialement accepter l'article, en supposant que les citations sont vérifiées. Cette biographie fictive pourrait rester en ligne pendant des jours, voire des semaines, diffusant de fausses informations sur une personne réelle, ce qui est absolument inacceptable. Ce n'est que plus tard, lorsque quelqu'un tenterait de vérifier une affirmation, que le château de cartes s'effondrerait. Cette hypothèse illustre le cauchemar que Wikipédia veut éviter à tout prix : un mélange des faits et de la fiction sous le vernis d'un article correctement référencé.

Une caricature du méchant typique, avec l'accent mis sur le « méchant ». Remarquez le sourire malicieux, la moustache et le sourcil arqué de méchant.

Ces cas et ces expériences de pensée mettent en évidence les raisons pour lesquelles la communauté a réagi si vivement contre les contenus générés par l'IA. Le canular de la « forteresse » a été supprimé selon les critères de suppression rapide dès qu'il a été identifié, ce qui a suscité des appels à un renforcement des contrôles. En effet, en 2025, Wikipédia en anglais a mis à jour sa politique de suppression pour permettre la suppression immédiate des pages générées par des modèles de langage (LLM) n'ayant pas fait l'objet d'une révision humaine. De même, la détection d'articles biaisés rédigés par l'IA a conduit à des patrouilles plus rigoureuses des nouveaux articles et à un examen minutieux des sources. Lorsque la Fondation Wikimedia a testé un outil d'IA appelé « Simple Article Summaries » (Résumés d'articles simples), qui faisait exactement ce que son nom suggérait, la réaction de la communauté a été rapide et négative : les contributeurs ont qualifié cette initiative d'« idée épouvantable » susceptible d'éroder la confiance, compte tenu de la tendance de l'IA à se tromper et à produire des hallucinations. Un article d'Ars Technica a cité la réaction viscérale d'un contributeur : « Beurk », qui résumait bien le sentiment général. L'essai a été suspendu presque immédiatement face à cette levée de boucliers. Le message qui se dégage de ces exemples est on ne peut plus clair : en matière de création de contenu, les contributeurs bénévoles de Wikipédia ont appris à leurs dépens que l'automatisation peut échouer de manière spectaculaire. Chaque échec, qu'il soit réel ou hypothétique, renforce la leçon selon laquelle, sans une compréhension de niveau humain et une vérification rigoureuse des sources, les articles Wikipédia générés par l'IA sont des bombes à retardement pour notre réputation.

Conclusion : préserver l'intégrité de Wikipédia

Après avoir examiné les problèmes – faits inventés de toutes pièces, citations invérifiables, perturbation de la collaboration et exemples concrets d'échecs générés par l'IA –, la conclusion est claire : Wikipédia doit privilégier la collaboration humaine et la vérifiabilité plutôt que de céder aux tentations de l'automatisation. L'intégrité de ce projet, construit depuis plus de deux décennies, repose sur l'exactitude des informations et l'authenticité des sources. Cette intégrité ne peut être maintenue si nous ouvrons les vannes à des textes générés par des machines que personne n'a entièrement vérifiés. En fin de compte, la valeur d'un article sur Wikipédia ne réside pas dans la rapidité avec laquelle il a été produit, mais dans sa véracité et sa fiabilité. Les LLM offrent de la rapidité, pas du jugement ; du volume, pas du discernement. Ils n'ont pas de réputation à défendre – c'est à nous de le faire.

La position de la communauté des contributeurs de Wikipédia ne découle pas d’une technophobie, mais de l’expérience et de notre dévouement à notre mission. Nous avons constaté les dangers de nos propres yeux. Nous savons qu’une fois la confiance brisée – si les lecteurs commencent à douter que le contenu de Wikipédia soit minutieusement vérifié et sourcé –, les dommages sont durables. Comme l’a fait remarquer un contributeur lors du débat sur les résumés générés par l’IA, le déploiement de contenu généré par l’IA non vérifié causerait « un préjudice immédiat et irréversible à nos lecteurs et à notre réputation de source sérieuse et digne de confiance ». Wikipédia est devenue synonyme d’un certain niveau de fiabilité (« une sobriété ennuyeuse », comme l’a ironiquement noté ce contributeur) et c’est une force que nous devons protéger.

En toute sincérité

En règle générale, vous ne devriez pas utiliser l'IA pour modifier Wikipédia. Cet essai, à l'exception de cette section, a été rédigé pour ressembler au résultat d'un chatbot IA (et pour être honnête, certaines parties ont été générées par l'IA). L'un des moyens les plus évidents de le repérer est le ton, ainsi que le fait que certains éléments sont en gras alors qu'ils ne devraient pas l'être. Les références qu'il contient ont été conçues pour donner l'impression, à première vue, qu'elles pourraient être réelles, mais en réalité, certaines d'entre elles sont manifestement fausses quand on y regarde de plus près. ChatGPT n'a aucune notion de ce qui constitue une source fiable, et il ne peut pas non plus distinguer facilement la vérité de la fiction. Cela vaut pour Bing, Gemini et tout autre chatbot IA qui pourrait être développé à l'avenir. Quant à moi, je ne l'ai personnellement utilisé que pour traduire en anglais certains articles rédigés dans une langue que je ne parle pas, ou peut-être pour m'aider à trouver des sources sur un sujet, et c'est en gros la seule utilisation vraiment acceptable. Si vous décidez malgré tout d'utiliser l'IA, vous le faites à vos propres risques. Il y a de fortes chances que les gens s'en rendent compte, et vous risquez même d'être bloqué. Vous finirez par nous donner beaucoup de travail, à nous les éditeurs humains, qui devrons passer tout cela au crible pour nettoyer derrière vous. Alors rendez-nous service à tous.

Ce texte est disponible sous licence Creative Commons Attribution-ShareAlike 4.0

Source de l'essai humoristique : Wikipedia:Case against LLM-generated articles

Et vous ?

Pensez-vous que cet essai est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les bénévoles de Wikipédia ont passé des années à répertorier les indices révélateurs de l'écriture générée par IA, un plugin se sert de ce guide comme manuel pour les dissimuler

Wikipedia suspend les résumés générés par IA suite à une série de réactions négatives des rédacteurs et une étude selon laquelle l'intelligence artificielle est pire que l'humain pour résumer l'information

La Fondation Wikimedia a officiellement demandé aux grandes entreprises d'IA de cesser de récupérer les données de Wikipédia et d'accéder plutôt à son contenu via l'API payante Wikimedia Enterprise

Vous avez lu gratuitement 37 097 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :