Les algorithmes d'IA générative ont besoin d'énormes quantités de données de formation pour effectuer des tâches, car ils combinent le contenu qu'ils connaissent déjà, ce qui se fait principalement par l'annotation des données. Les données d'entraînement des modèles de langage tels que ChatGPT, Stable Diffusion et Midjourney proviennent initialement de sources humaines (livres, articles, photographies…). Mais aujourd'hui, alors que de plus en plus de personnes utilisent l'IA pour produire et publier du contenu, l'on craint que le contenu généré par l'IA devienne omniprésent sur le Web et se confonde avec les données provenant de sources humaines.
Ainsi, une question évidente se pose : que se passerait-il si le contenu généré par l'IA prolifère sur Internet et que les modèles d'IA commençaient à s'entraîner sur ce contenu, plutôt que sur le contenu généré par l'homme ? Un groupe de chercheurs du Royaume-Uni et du Canada s'est penché sur ce problème et a récemment publié un article sur ses travaux dans la revue en libre accès arXiv. Ce qu'ils ont découvert semble inquiétant pour la technologie actuelle de l'IA générative et son avenir : « nous constatons que l'utilisation d'un contenu généré par un modèle d'IA dans la formation entraîne des défauts irréversibles dans les modèles qui en résultent ».
Le rapport d'étude, intitulé "The Curse of Recursion : Training on Generated Data Makes Models Forget", le groupe de chercheurs a lancé une mise en garde contre ce qu'il a appelé "l'effondrement du modèle". Ils décrivent cela comme un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données. Autrement dit, les contenus générés par l'IA et publiés en ligne pourraient être réintroduits dans les modèles d'IA, ce qui entraînerait des distorsions et des inexactitudes. Selon eux, ce processus est inévitable, même dans les cas où les conditions d'apprentissage à long terme sont presque idéales.
« Au fil du temps, les erreurs dans les données générées s'accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris d'observer la rapidité avec lequel l'effondrement du modèle se produit : les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris », a écrit l'un des principaux auteurs de l'étude, Ilia Shumailov, dans un courriel adressé à VentureBeat. Shumailov a expliqué que lorsqu'un modèle d'IA est exposé à davantage de données générées par l'IA, ses performances se dégradent.
Et il produit davantage d'erreurs dans les réponses et le contenu qu'il génère. Un autre des auteurs de l'article, Ross Anderson, professeur d'ingénierie de la sécurité à l'université de Cambridge et à l'université d'Édimbourg, a écrit dans un billet de blogue consacré : « tout comme nous avons jonché les océans de déchets plastiques et rempli l'atmosphère de dioxyde de carbone, nous sommes sur le point de remplir Internet de bla-bla. Il sera donc plus difficile de former de nouveaux modèles en exploitant le Web, ce qui donnera un avantage aux entreprises qui le font déjà ou qui contrôlent l'accès aux interfaces humaines à grande échelle ».
« En effet, nous voyons déjà des startups spécialisées dans l'IA s'attaquer à l'Internet Archive pour obtenir des données d'entraînement », a-t-il ajouté. Une autre façon de voir le problème est de le comparer au film de science-fiction Multiplicity (1996) avec Michael Keaton, dans lequel un homme humble se clone lui-même, puis clone les clones, chacun d'entre eux entraînant une diminution exponentielle des niveaux d'intelligence et une augmentation de la stupidité. Il existe déjà des cas où des modèles ont été formés sur des données générées par l'IA. Par exemple, des modèles sont intentionnellement formés sur les données générées par GPT-4.
De même, DeviantArt, la plateforme d'IA en ligne pour les artistes, permet de publier des œuvres d'art créées par l'IA et de les utiliser comme données d'entraînement pour de nouveaux modèles d'IA. Tout comme la tentative de copier ou de cloner indéfiniment quelque chose, le rapport indique que ces pratiques pourraient conduire à un plus grand nombre de cas d'effondrement du modèle. Compte tenu des graves implications de l'effondrement des modèles, l'accès à la distribution des données d'origine est essentiel. Les modèles d'IA ont besoin de données réelles, produites par l'homme, pour comprendre et simuler notre monde avec précision.
Alors, comment prévenir l'effondrement du modèle ? Selon le document de recherche, l'effondrement du modèle a deux causes principales. La première est l'"erreur d'approximation statistique", liée au nombre limité d'échantillons de données. La seconde est l'"erreur d'approximation fonctionnelle", qui découle du fait que la marge d'erreur utilisée lors de l'apprentissage de l'IA n'est pas correctement configurée. Ces erreurs peuvent s'accumuler au fil des générations, provoquant un effet en cascade d'inexactitudes croissantes. L'article publié par les chercheurs présente un "avantage du premier arrivé" pour la formation des modèles d'IA.
Si l'on peut conserver l'accès à la source originale de données générées par l'homme, l'on peut éviter un changement de distribution préjudiciable et, par conséquent, l'effondrement du modèle. Distinguer le contenu généré par l'IA à grande échelle est toutefois un défi de taille, qui pourrait nécessiter une coordination à l'échelle de la communauté. L'état actuel du Web inquiète déjà les experts, y compris son créateur Tim Berners-Lee. Mais les nouveaux outils d'IA d'aide à la rédaction de contenu, tel que le nouvel assistant Jetpack AI de WordPress, risquent de dégrader davantage l'état du Web, avec de fausses informations générées par l'IA.
En fin de compte, l'importance de l'intégrité des données et l'influence de l'information humaine sur l'IA ne valent que ce que valent les données dont elles sont issues, et l'explosion du contenu généré par l'IA pourrait finir par être une arme à double tranchant pour l'industrie. C'est le principe du "garbage in, garbage out" (GIGO) - l'IA basée sur le contenu de l'IA conduira à un grand nombre de machines "très intelligentes, mais délirantes".
Sources : rapport de l'étude, billet de blogue
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des conclusions de l'étude ?
Comment peut-on prévenir le phénomène décrit par les chercheurs ?
Voir aussi
WordPress pourra bientôt générer des articles et des blogues entiers grâce à un nouvel outil piloté par l'IA, mais les critiques craignent que l'outil dégrade davantage l'état du Web
OpenAI propose aux développeurs d'importantes mises à jour pour ses modèles d'IA et réduit les coûts d'accès à ses API, afin de faire face à l'émergence des modèles d'IA concurrents Bard et Claude
Un rédacteur de contenu a confié que tous ses clients l'ont remplacé par ChatGPT : « ça m'a anéanti ». Les craintes de voir l'IA générative conduire à un chômage généralisé s'amplifient