Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles. Alors que les textes générés par l'IA prolifèrent en ligne, les chercheurs estiment qu'il est essentiel de garantir l'accès à des données humaines authentiques pour l'entraînement des futurs modèles d'IA et le maintien de l'intégrité des contenus en ligne.
Stable diffusion a révolutionné la création d'images à partir d'un texte descriptif. Les modèles GPT-2, GPT-3(.5) et GPT-4 ont démontré des performances élevées dans toute une série de tâches linguistiques. ChatGPT a présenté de tels modèles de langage au grand public. Il est désormais clair que l'intelligence artificielle générative (IA) telle que les grands modèles de langage (LLM) est là pour durer et qu'elle modifiera considérablement l'écosystème du texte et des images en ligne.
Dans cette étude de l'Université d'Oxford, en partenariat avec d'autres établissements de recherche britanniques et canadiens, les auteurs examinent ce qui pourrait arriver à GPT-{n} une fois que les LLMs contribueront à une grande partie du texte trouvé en ligne. Ils constatent que l'utilisation sans discernement du contenu généré par les modèles d'IA dans la formation entraîne des défauts irréversibles dans les modèles résultants, dans lesquels les queues de la distribution du contenu d'origine disparaissent. Les chercheurs appellent cet effet « effondrement du modèle » et montrent qu'il peut se produire dans les LLM ainsi que dans les auto-encodeurs variationnels (VAE) et les modèles de mélange gaussien (GMM).
Les auteurs ont développé une intuition théorique derrière le phénomène et décrivent son omniprésence parmi tous les modèles génératifs appris. Ils démontrent que ce phénomène doit être pris au sérieux si l'on veut conserver les avantages de la formation à partir de données à grande échelle extraites du web. En effet, la valeur des données collectées sur les interactions humaines authentiques avec les systèmes sera de plus en plus précieuse en présence de contenu généré par les LLM dans les données extraites de l'Internet.
En ce qui concerne les implications de l'effondrement du modèle sur la dynamique d'apprentissage sous-jacente des LLM, les attaques d'empoisonnement à long terme sur les modèles de langage ne sont pas nouvelles. Par exemple, il est possible de constater la création de fermes à clics, à contenu et à trolls, une forme de « modèles de langage » humains, dont le rôle est d'induire en erreur les réseaux sociaux et les algorithmes de recherche. L'effet négatif de ces attaques d'empoisonnement sur les résultats de recherche a conduit à des changements dans les algorithmes de recherche. Par exemple, Google a rétrogradé les articles issus d'exploitations agricoles, en mettant davantage l'accent sur le contenu produit par des sources dignes de confiance, telles que les domaines éducatifs, tandis que DuckDuckGo les a complètement supprimés.
Ce qui est différent avec l'arrivée des LLM, c'est l'échelle à laquelle un tel empoisonnement peut se produire une fois qu'il est automatisé. Préserver la capacité des LLM à modéliser des événements à faible probabilité est essentiel pour l'équité de leurs prédictions : ces événements sont souvent pertinents pour les groupes marginalisés. Les événements à faible probabilité sont également essentiels pour comprendre les systèmes complexes.
L'évaluation des chercheurs suggère un « avantage du premier arrivé » lorsqu'il s'agit de former des modèles tels que les LLM. Dans leurs travaux, les scientifiques démontrent que la formation sur des échantillons provenant d'un autre modèle génératif peut induire un changement de distribution qui, avec le temps, provoque l'effondrement du modèle. Cela entraîne à son tour une mauvaise perception par le modèle de la tâche d'apprentissage sous-jacente.
Pour soutenir l'apprentissage sur une longue période, il faudra donc s'assurer que l'accès à la source de données d'origine est préservé et que d'autres données non générées par les LLM restent disponibles au fil du temps.
La nécessité de distinguer les données générées par les LLM des autres données soulève des questions sur la provenance du contenu qui est extrait de l'Internet : la manière dont le contenu généré par les LLM peut être suivi à l'échelle n'est pas claire. Une option est la coordination à l'échelle de la communauté pour s'assurer que les différentes parties impliquées dans la création et le déploiement des LLM partagent les informations nécessaires pour résoudre les questions de provenance. Dans le cas contraire, il pourrait devenir de plus en plus difficile de former les nouvelles versions des LLM sans accès aux données qui ont été extraites de l'internet avant l'adoption massive de la technologie ou sans accès direct aux données générées par les humains à l'échelle.
Source : "AI models collapse when trained on recursively generated data" (étude de l'université d'Oxford)
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette étude de l'université d'Oxford crédibles ou pertinentes ?
Voir aussi :
Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité
Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données
L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme
Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA
Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA
Le , par Anthony
Une erreur dans cette actualité ? Signalez-nous-la !