IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le créateur de PUBG tire la sonnette d'alarme : les LLM se nourrissent de leurs propres déchets et entraînent le web dans une spirale de dégradation sans fond
Qui va rendre internet de moins en moins fiable

Le , par Stéphane le calme

106PARTAGES

14  0 
Le créateur de PUBG tire la sonnette d'alarme : les LLM se nourrissent de leurs propres déchets et entraînent le web dans une spirale de dégradation sans fond,
l'IA générative risque de rendre internet de moins en moins fiable

Brendan Greene, père du genre battle royale avec PlayerUnknown's Battlegrounds, brise le silence sur l'intelligence artificielle générative. Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences. Derrière la formule-choc « une course vers le fond », se cache un problème scientifique documenté qui préoccupe jusqu'aux chercheurs de Nature et Harvard : le « model collapse », ou effondrement des modèles.

« Comment faire confiance à quelque chose qui vous dit de vérifier ses propres réponses ? »

La déclaration de Brendan Greene arrive dans un contexte de débat croissant sur la fiabilité des systèmes d'IA générative. Interrogé par le journaliste Joshua Wolens de PC Gamer sur l'avenir du calcul local face à la tendance généralisée vers le cloud, Greene a dévié sur un sujet qui lui tient manifestement à cœur. Son point de départ est le non-déterminisme des LLM : « comment faire confiance à quelque chose qui vous dit en bas de page de vérifier toutes les réponses qu'il vous donne ? Parce que ça peut halluciner, et ça hallucine », déclare-t-il.

Le créateur de PUBG ne s'arrête pas là. Il pointe du doigt une statistique qu'il juge alarmante : environ 20 % des interactions en ligne seraient désormais artificielles, et la quantité d'informations générées par des LLM serait « vertigineusement élevée ». Ces chiffres, difficiles à vérifier avec précision dans leur totalité, reflètent néanmoins une tendance documentée. Des données issues de trackers spécialisés indiquent que 74,2 % des pages web nouvellement créées contenaient une partie de texte généré par IA en avril 2025, et que la proportion de pages rédigées par IA dans les vingt premiers résultats Google est passée de 11 % à près de 20 % entre mai 2024 et juillet 2025.


La boucle infernale : quand l'IA se nourrit de ses propres déchets

C'est là que le propos de Greene prend toute sa dimension technique. Il décrit la situation comme « une boucle auto-alimentée » : les LLM ingèrent ce contenu de mauvaise qualité, qui devient alors « vérité », ce qui ressemble selon lui à « une course vers le fond ». L'expression peut paraître provocatrice, mais elle recouvre un phénomène bien réel que les chercheurs nomment model collapse (l'effondrement des modèles).

Une étude publiée dans Nature a démontré que l'entraînement de modèles d'IA générative sur des données réelles et générées de façon indiscriminée, pratique courante via le scraping du web, conduit à un effondrement de leur capacité à produire des résultats diversifiés et de qualité. Autrement dit, plus les modèles consomment leur propre production, moins ils sont capables d'originalité ou de précision.

La Harvard Journal of Law & Technology explique le mécanisme par une analogie parlante : c'est similaire à photocopier une photocopie plusieurs fois: chaque itération dégrade un peu plus le signal d'origine. Les chercheurs y soulignent également une conséquence économique structurelle : les données non contaminées, collectées avant la généralisation de l'IA générative en 2022, pourraient devenir un actif stratégique, creusant un fossé entre les acteurs déjà établis (qui les possèdent) et les nouveaux entrants.

Le problème est encore plus préoccupant qu'il n'y paraît. Des travaux présentés à l'ICLR 2025 ont établi qu'une proportion infime de données synthétiques dans un corpus d'entraînement (aussi faible qu'un sur mille) peut suffire à provoquer un effondrement des performances, et que des modèles plus grands amplifient ce phénomène plutôt qu'ils ne le résolvent. La promesse que l'augmentation d'échelle (scaling) résout tous les problèmes se heurte ici à un mur.

« Le scaling ne résoudra pas le problème de l'intelligence »

Greene s'attaque directement à ce dogme du secteur. Il dénonce l'absurdité d'exploiter des centres de données alimentés aux turbines à gaz ou au méthane uniquement pour obtenir plus de puissance de calcul, en affirmant que « le scaling ne résoudra pas le problème de l'intelligence ». Une prise de position directement dirigée vers l'obsession de l'industrie pour l'AGI (l'Intelligence Artificielle Générale), ce Graal perpétuellement annoncé à deux ans d'échéance, et perpétuellement repoussé.

Pour lui, les LLM actuels ne sont que « des modèles statistiques qui donnent le mot suivant », des outils certes utiles dans des domaines spécifiques, mais qui ne « scalent pas » lorsqu'on tente d'en faire des services généraux via des surcouches et des GPT. Sa conclusion sur l'AGI est tranchée : nous n'y sommes pas près.

Ce constat rejoint une inquiétude plus large documentée en février 2026. Un article paru dans les Communications of the ACM a observé que l'effondrement des modèles n'est plus un risque théorique mais un phénomène déjà présent dans des systèmes en production, avec des dégradations mesurées dans des outils commerciaux, comme un suppresseur de fond qui a commencé à échouer sur certaines textures de cheveux, ou des générateurs d'images produisant des résultats de plus en plus homogènes.


La distinction que Greene tient à préserver : ML versus IA générative

Habile communicant, Greene prend soin de ne pas se laisser enfermer dans une posture anti-IA globale. Son studio PlayerUnknown Productions, basé à Amsterdam et actuellement en développement sur le jeu de survie Prologue: Go Wayback, utilise bel et bien des techniques d'apprentissage automatique, mais dans un cadre radicalement différent.

Il insiste sur le fait que son usage est « très spécifique au domaine » : appliqués à un ensemble de données restreint et maîtrisé, les modèles sont efficaces, peu sujets aux hallucinations, et surtout déterministes. C'est la condition sine qua non à ses yeux. Ce qui l'agace, en revanche, c'est la confusion entretenue entre apprentissage automatique ciblé et IA générative grand public : Apple a parlé de ML pendant des années sans déclencher de réactions, puis dès que le mot « IA » a été prononcé, tout le monde s'est mis à s'enflammer alors que c'est le même champ, et que ça exploite les mêmes mécanismes, ironise-t-il.

Cette position tranche avec celle de Krafton, l'éditeur coréen qui détient encore PUBG et une participation minoritaire dans PlayerUnknown Productions, et qui a adopté une stratégie délibérément « AI-first », allant jusqu'à proposer des départs volontaires à ses équipes. Greene, lui, a fermement réaffirmé l'indépendance de son studio vis-à-vis des orientations stratégiques de son investisseur.

La décentralisation comme réponse ?

Fidèle à sa vision à long terme de mondes virtuels planétaires et d'une informatique distribuée, Greene réaffirme sa conviction que l'avenir passe par le calcul local plutôt que par des mega data centers. Il s'inquiète notamment des expulsions de résidents causées par l'implantation forcée de ces infrastructures en Géorgie, et estime que la puissance de calcul à grande échelle ne peut pas reposer uniquement sur des serveurs centralisés.

Cette position rejoint un débat plus large sur la soutenabilité écologique et sociale du modèle d'IA générative dominant. Pendant que les grands acteurs se livrent à une course aux armements computationnels, la qualité intrinsèque du web (ce vaste corpus sur lequel repose toute l'économie de l'entraînement des LLM) se dégrade. Et si personne ne protège activement la donnée humaine originale, le résultat risque d'être une « spirale entropique » où les erreurs se cumulent et où les modèles produisent des résultats de plus en plus incohérents, répétitifs ou incorrects.

Le paradoxe est cruel : l'industrie de l'IA déploie des ressources colossales pour produire toujours plus de contenu, qui finit par empoisonner les données nécessaires à son propre développement futur. Brendan Greene n'est pas chercheur, mais sa métaphore de la « course vers le fond » a le mérite de nommer le phénomène avec une clarté que beaucoup de communiqués de presse corporate évitent soigneusement.

Sources : interview de Brendan Greene, étude publiée dans Nature sur le model colapse, Harvard Journal of Law & Technology , OpenReview

Et vous ?

La donnée humaine est-elle vouée à devenir une ressource rare ? Si les contenus générés par IA contaminent progressivement le web, les corpus pré-2022 pourraient devenir des actifs stratégiques que seules les grandes entreprises déjà établies contrôlent, creusant encore davantage les inégalités dans la course à l'IA.

Le calcul local est-il une réponse réaliste à la crise des LLM centralisés ? Greene milite pour une informatique distribuée et déterministe. Mais à l'heure où les modèles les plus performants nécessitent des dizaines de milliers de GPU, cette vision est-elle techniquement atteignable à court terme ?

Peut-on réguler la production de contenu IA avant que la boucle ne devienne irréversible ? Des mécanismes comme le filigranage (watermarking) ou le marquage de provenance des données sont évoqués, mais aucune norme contraignante n'existe encore. Qui devrait imposer ces règles ? Les États, les plateformes, les développeurs de modèles ?

La distinction entre ML spécialisé et IA générative est-elle comprise du grand public ? Greene déplore que son usage ciblé de l'apprentissage automatique soit amalgamé avec le tout-venant de l'IA générative. Comment l'industrie peut-elle rétablir une distinction claire sans perdre ceux qui ne font pas la différence entre ChatGPT et un algorithme de recommandation ?

Voir aussi :

L'IA est en train de tuer le Web. Elle ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des machines sans originalité

Cloudflare exige que Google modifie la façon dont ses outils IA explorent le web : « Nous obtiendrons de Google un moyen de bloquer les IA Overviews sans bloquer l'indexation de la recherche classique »

SocialAI : la «théorie de l'Internet mort» prend vie avec l'app de médias sociaux alimentée par l'IA, suggérant que la majorité des activités sociales en ligne sont artificielles et manipulent les utilisateurs

DuckDuckGo dit stop à l'invasion des images générées par IA dans les résultats de recherche en introduisant une fonctionnalité permettant de les masquer : une petite option, un grand signal pour le web
Vous avez lu gratuitement 377 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 14/03/2026 à 13:51
Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences.
Nous avons un bel exemple avec youtube: Les vidéo IA complètement délirantes sont en train d'envahir la plateforme...

Vous avez un doute sur l'origine IA de la video? Le plus souvent vous allez avoir un agent IA qui se fait passer pour l'auteur de la video qui répond aux commentaires des internautes et la réponse prend toujours la même forme: Quelque soit la position de l'internaute, l'IA le remercie et lui dit qu'il a raison

Exemple réel sur youtube:

Commentaire d'un internaute sur une video IA présentant un évènement historique : "Cette video est nulle et ne correspond pas du tout à la réalité historique"

Diverses réponses de l'IA répondant aux commentaires critiques des internautes (Attention, il s'agit de vraies réponses de l'IA sur youtube!):

"Je vois ce que vous voulez dire. Mon objectif reste de raconter les mecanismes historiques et les lecons humaines, et je suis partant pour en discuter sous l angle des faits et du contexte." (on remarquera que l'IA a des problèmes à gérer les accents de la langue française: mécanisme, leçon, l'angle? Et l'apostrophe entre le "l" et "angle", l'IA connait pas?)

"Votre témoignage apporte un éclairage humain intéressant. Ces perceptions sociales et nationales aident aussi à comprendre certains choix historiques."

"Votre précision est pertinente. Les chiffres et la terminologie font encore débat selon les sources, et le format impose parfois des simplifications qu’il est important de discuter."

"Merci pour cette précision. Tu as raison de souligner le terrain réel et son importance stratégique, qui est parfois simplifié dans les représentations visuelles."

"Merci, bonne observation. Les noms et appellations changent selon les sources et les époques, donc ça mérite d’être expliqué plus proprement. Je vais faire plus attention à la formulation."
3  1 
Avatar de stigma
Membre expérimenté https://www.developpez.com
Le 14/03/2026 à 8:22
j'utilise l'IA pour des aides à la programmation mais elle fait de plus en plus d'erreurs.
1  0