Brendan Greene, père du genre battle royale avec PlayerUnknown's Battlegrounds, brise le silence sur l'intelligence artificielle générative. Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences. Derrière la formule-choc « une course vers le fond », se cache un problème scientifique documenté qui préoccupe jusqu'aux chercheurs de Nature et Harvard : le « model collapse », ou effondrement des modèles.« Comment faire confiance à quelque chose qui vous dit de vérifier ses propres réponses ? »
La déclaration de Brendan Greene arrive dans un contexte de débat croissant sur la fiabilité des systèmes d'IA générative. Interrogé par le journaliste Joshua Wolens de PC Gamer sur l'avenir du calcul local face à la tendance généralisée vers le cloud, Greene a dévié sur un sujet qui lui tient manifestement à cœur. Son point de départ est le non-déterminisme des LLM : « comment faire confiance à quelque chose qui vous dit en bas de page de vérifier toutes les réponses qu'il vous donne ? Parce que ça peut halluciner, et ça hallucine », déclare-t-il.
Le créateur de PUBG ne s'arrête pas là. Il pointe du doigt une statistique qu'il juge alarmante : environ 20 % des interactions en ligne seraient désormais artificielles, et la quantité d'informations générées par des LLM serait « vertigineusement élevée ». Ces chiffres, difficiles à vérifier avec précision dans leur totalité, reflètent néanmoins une tendance documentée. Des données issues de trackers spécialisés indiquent que 74,2 % des pages web nouvellement créées contenaient une partie de texte généré par IA en avril 2025, et que la proportion de pages rédigées par IA dans les vingt premiers résultats Google est passée de 11 % à près de 20 % entre mai 2024 et juillet 2025.
La boucle infernale : quand l'IA se nourrit de ses propres déchets
C'est là que le propos de Greene prend toute sa dimension technique. Il décrit la situation comme « une boucle auto-alimentée » : les LLM ingèrent ce contenu de mauvaise qualité, qui devient alors « vérité », ce qui ressemble selon lui à « une course vers le fond ». L'expression peut paraître provocatrice, mais elle recouvre un phénomène bien réel que les chercheurs nomment model collapse (l'effondrement des modèles).
Une étude publiée dans Nature a démontré que l'entraînement de modèles d'IA générative sur des données réelles et générées de façon indiscriminée, pratique courante via le scraping du web, conduit à un effondrement de leur capacité à produire des résultats diversifiés et de qualité. Autrement dit, plus les modèles consomment leur propre production, moins ils sont capables d'originalité ou de précision.
La Harvard Journal of Law & Technology explique le mécanisme par une analogie parlante : c'est similaire à photocopier une photocopie plusieurs fois: chaque itération dégrade un peu plus le signal d'origine. Les chercheurs y soulignent également une conséquence économique structurelle : les données non contaminées, collectées avant la généralisation de l'IA générative en 2022, pourraient devenir un actif stratégique, creusant un fossé entre les acteurs déjà établis (qui les possèdent) et les nouveaux entrants.
Le problème est encore plus préoccupant qu'il n'y paraît. Des travaux présentés à l'ICLR 2025 ont établi qu'une proportion infime de données synthétiques dans un corpus d'entraînement (aussi faible qu'un sur mille) peut suffire à provoquer un effondrement des performances, et que des modèles plus grands amplifient ce phénomène plutôt qu'ils ne le résolvent. La promesse que l'augmentation d'échelle (scaling) résout tous les problèmes se heurte ici à un mur.
« Le scaling ne résoudra pas le problème de l'intelligence »
Greene s'attaque directement à ce dogme du secteur. Il dénonce l'absurdité d'exploiter des centres de données alimentés aux turbines à gaz ou au méthane uniquement pour obtenir plus de puissance de calcul, en affirmant que « le scaling ne résoudra pas le problème de l'intelligence ». Une prise de position directement dirigée vers l'obsession de l'industrie pour l'AGI (l'Intelligence Artificielle Générale), ce Graal perpétuellement annoncé à deux ans d'échéance, et perpétuellement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
