IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA

Le , par Anthony

56PARTAGES

14  0 
Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles. Alors que les textes générés par l'IA prolifèrent en ligne, les chercheurs estiment qu'il est essentiel de garantir l'accès à des données humaines authentiques pour l'entraînement des futurs modèles d'IA et le maintien de l'intégrité des contenus en ligne.

Stable diffusion a révolutionné la création d'images à partir d'un texte descriptif. Les modèles GPT-2, GPT-3(.5) et GPT-4 ont démontré des performances élevées dans toute une série de tâches linguistiques. ChatGPT a présenté de tels modèles de langage au grand public. Il est désormais clair que l'intelligence artificielle générative (IA) telle que les grands modèles de langage (LLM) est là pour durer et qu'elle modifiera considérablement l'écosystème du texte et des images en ligne.

Dans cette étude de l'Université d'Oxford, en partenariat avec d'autres établissements de recherche britanniques et canadiens, les auteurs examinent ce qui pourrait arriver à GPT-{n} une fois que les LLMs contribueront à une grande partie du texte trouvé en ligne. Ils constatent que l'utilisation sans discernement du contenu généré par les modèles d'IA dans la formation entraîne des défauts irréversibles dans les modèles résultants, dans lesquels les queues de la distribution du contenu d'origine disparaissent. Les chercheurs appellent cet effet « effondrement du modèle » et montrent qu'il peut se produire dans les LLM ainsi que dans les auto-encodeurs variationnels (VAE) et les modèles de mélange gaussien (GMM).


Les auteurs ont développé une intuition théorique derrière le phénomène et décrivent son omniprésence parmi tous les modèles génératifs appris. Ils démontrent que ce phénomène doit être pris au sérieux si l'on veut conserver les avantages de la formation à partir de données à grande échelle extraites du web. En effet, la valeur des données collectées sur les interactions humaines authentiques avec les systèmes sera de plus en plus précieuse en présence de contenu généré par les LLM dans les données extraites de l'Internet.

En ce qui concerne les implications de l'effondrement du modèle sur la dynamique d'apprentissage sous-jacente des LLM, les attaques d'empoisonnement à long terme sur les modèles de langage ne sont pas nouvelles. Par exemple, il est possible de constater la création de fermes à clics, à contenu et à trolls, une forme de « modèles de langage » humains, dont le rôle est d'induire en erreur les réseaux sociaux et les algorithmes de recherche. L'effet négatif de ces attaques d'empoisonnement sur les résultats de recherche a conduit à des changements dans les algorithmes de recherche. Par exemple, Google a rétrogradé les articles issus d'exploitations agricoles, en mettant davantage l'accent sur le contenu produit par des sources dignes de confiance, telles que les domaines éducatifs, tandis que DuckDuckGo les a complètement supprimés.

Ce qui est différent avec l'arrivée des LLM, c'est l'échelle à laquelle un tel empoisonnement peut se produire une fois qu'il est automatisé. Préserver la capacité des LLM à modéliser des événements à faible probabilité est essentiel pour l'équité de leurs prédictions : ces événements sont souvent pertinents pour les groupes marginalisés. Les événements à faible probabilité sont également essentiels pour comprendre les systèmes complexes.


L'évaluation des chercheurs suggère un « avantage du premier arrivé » lorsqu'il s'agit de former des modèles tels que les LLM. Dans leurs travaux, les scientifiques démontrent que la formation sur des échantillons provenant d'un autre modèle génératif peut induire un changement de distribution qui, avec le temps, provoque l'effondrement du modèle. Cela entraîne à son tour une mauvaise perception par le modèle de la tâche d'apprentissage sous-jacente.

Pour soutenir l'apprentissage sur une longue période, il faudra donc s'assurer que l'accès à la source de données d'origine est préservé et que d'autres données non générées par les LLM restent disponibles au fil du temps.

La nécessité de distinguer les données générées par les LLM des autres données soulève des questions sur la provenance du contenu qui est extrait de l'Internet : la manière dont le contenu généré par les LLM peut être suivi à l'échelle n'est pas claire. Une option est la coordination à l'échelle de la communauté pour s'assurer que les différentes parties impliquées dans la création et le déploiement des LLM partagent les informations nécessaires pour résoudre les questions de provenance. Dans le cas contraire, il pourrait devenir de plus en plus difficile de former les nouvelles versions des LLM sans accès aux données qui ont été extraites de l'internet avant l'adoption massive de la technologie ou sans accès direct aux données générées par les humains à l'échelle.

Source : "AI models collapse when trained on recursively generated data" (étude de l'université d'Oxford)

Et vous ?

Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette étude de l'université d'Oxford crédibles ou pertinentes ?

Voir aussi :

Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 25/07/2024 à 15:12
On s'en serait douté, nous sommes nous même devenus tous un peu plus débile depuis qu'on fait nos vie en regardant celle des autres récursivement sur les réseaux sociaux

On sait tout ça depuis la vache folle.
8  0 
Avatar de ciola
Membre régulier https://www.developpez.com
Le 26/07/2024 à 23:42
Tout cela est tellement évident et prévisible.
Sachant que les LLM ne comprennent pas ce qu'elles écrivent et qu'elles font, ce que les chercheurs appellent pudiquement, des hallucinations, on ne pouvait s'attendre à autre chose. Comment un savoir peut-il progresser quand on le dégrade à chaque itération? Intelligence artificielle ou pas !
6  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 03/10/2024 à 17:43
Citation Envoyé par Stéphane le calme Voir le message
Wordfreq : « l'IA générative a pollué les données ». Le projet qui analyse l'évolution de l'utilisation des mots dans plus de 40 langues s'arrête,
à cause de la prolifération des textes générés par IA

Le projet open-source Wordfreq, qui analysait l’évolution de l’utilisation des mots dans plus de 40 langues, a récemment été arrêté. La raison ? La prolifération des textes générés par l’intelligence artificielle (IA) a rendu les données inutilisables. Robyn Speer, la créatrice du projet, a annoncé cette décision en soulignant que l’IA générative a « pollué les données » à un point tel que l’analyse linguistique fiable est devenue impossible.

Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.

En janvier, certains médias ont remarqué que Google Actualités favorisait les sites qui piratent d'autres médias en utilisant l'IA pour produire rapidement du contenu. Google a expliqué que, bien qu'elle tente de lutter contre le spam sur Google Actualités, la société ne se préoccupe pas de savoir si un article a été rédigé par une IA ou par un humain, ce qui ouvre la voie à l'apparition d'un plus grand nombre de contenus générés par l'IA sur Google Actualités.

La présence de contenus générés par l'IA dans Google Actualités est révélatrice de deux choses : tout d'abord, la nature « boîte noire » de Google Actualités, l'entrée dans les classements de Google Actualités étant un système opaque, mais apparemment jouable. Deuxièmement, Google n'est peut-être pas prêt à modérer son service d'actualités à l'ère de l'IA accessible au grand public, où n'importe qui peut produire une masse de contenu sans se soucier de sa qualité ou de son originalité.

Tandis que les textes générés par l'IA prolifèrent en ligne, le spam généré par l'IA pollue l'internet et est difficile à filtrer, ce qui rend la découverte, la recherche et l'internet humain beaucoup plus difficiles à trouver.


La fin de Wordfreq

Le créateur d'un projet open source qui analysait l'internet pour déterminer la popularité en constante évolution de différents mots dans l'usage du langage humain a annoncé qu'il mettait fin au projet parce que le spam de l'IA générative a empoisonné l'internet à un point tel que le projet n'a plus d'utilité.

Wordfreq est un programme qui suit l'évolution de l'utilisation de plus de 40 langues différentes en analysant des millions de sources telles que Wikipédia, les sous-titres de films et d'émissions télévisées, les articles de presse, les livres, les sites web, Twitter et Reddit. Le système peut être utilisé pour analyser l'évolution des habitudes linguistiques au fur et à mesure que l'argot et la culture populaire changent et que la langue évolue, et constitue une ressource pour les universitaires qui étudient ce genre de choses. Dans une note sur GitHub, la créatrice Robyn Speer a écrit que le projet « ne sera plus mis à jour ».

« L'IA générative a pollué les données », écrit-elle. « Je ne pense pas que quiconque dispose d'informations fiables sur l'utilisation des langues par les humains après 2021 ».

Elle a ajouté que le scraping de sites web ouverts constituait une part importante des sources de données du projet et que « maintenant, le web dans son ensemble est plein de déchets générés par de grands modèles de langage, écrits par personne pour ne rien communiquer. L'inclusion de ces erreurs dans les données fausse la fréquence des mots ».

Bien qu'il y ait toujours eu du spam sur l'internet et dans les ensembles de données utilisés par Wordfreq, « il était gérable et souvent identifiable. Les grands modèles de langage génèrent des textes qui se font passer pour du vrai langage avec une intention derrière, même s'il n'y en a pas, et leurs résultats apparaissent partout », écrit-elle. Elle donne l'exemple du ChatGPT qui utilise le mot « delve » (creuser, fouiller, plonger, suivant le contexte) à outrance, ce que les gens ne font pas, ce qui a perturbé la fréquence de ce mot spécifique.

Elle a également indiqué que le projet Wordfreq porte fondamentalement sur le traitement du langage naturel, qui est devenu inextricablement lié au développement de grands modèles de langage et à l'IA générative :

« Le domaine que je connais sous le nom de "traitement du langage naturel" est difficile à trouver de nos jours. Il est en train d'être dévoré par l'IA générative. D'autres techniques existent encore, mais l'IA générative aspire tout l'air de la pièce et reçoit tout l'argent. Il est rare de voir des recherches sur le NLP qui ne dépendent pas de données fermées contrôlées par OpenAI et Google, deux entreprises que je méprise déjà.

« Wordfreq a été construit en collectant un grand nombre de textes dans un grand nombre de langues. Auparavant, il s'agissait d'une pratique assez raisonnable, à laquelle personne ne s'opposerait. Aujourd'hui, les outils de collecte de texte sont principalement utilisés pour former l'IA générative, et les gens sont à juste titre sur la défensive. Si quelqu'un collecte tous les textes de vos livres, articles, sites web ou messages publics, c'est très probablement parce qu'il est en train de créer une machine à plagier qui revendiquera vos mots comme étant les siens ».

Speer souligne également le fait que les données relatives au web scraping sont plus difficiles à obtenir depuis que Twitter et Reddit, qui sont des sites inclus dans Wordfreq, ont commencé à faire payer l'accès à leurs API.


Conséquences pour la recherche

La fermeture de Wordfreq est un coup dur pour les chercheurs et les universitaires qui s’appuyaient sur ces données pour étudier les évolutions linguistiques. Speer a également mentionné que les changements dans l’accès aux données en ligne, notamment les restrictions imposées par Twitter et Reddit, ont contribué à cette décision. Ces plateformes, autrefois sources de données gratuites, sont désormais payantes, compliquant encore plus la collecte de données pour des projets open-source.

« L'information qui était gratuite est devenue chère », a écrit Speer. Elle a terminé sa note en disant qu'elle ne voulait plus faire partie de l'industrie.

« Je ne veux pas travailler sur quoi que ce soit qui puisse être confondu avec l'IA générative, ou qui puisse bénéficier à l'IA générative », a-t-elle écrit. « OpenAI et Google peuvent collecter leurs propres données. J'espère qu'ils devront payer un prix très élevé pour cela, et j'espère qu'ils maudissent constamment le gâchis qu'ils ont eux-mêmes créé. »

Les réactions de la communauté scientifique

La communauté scientifique a réagi avec inquiétude à cette nouvelle. De nombreux chercheurs soulignent que la fermeture de Wordfreq pourrait ralentir les progrès dans le domaine de la linguistique computationnelle. Certains proposent des solutions potentielles, comme le développement de nouveaux algorithmes capables de détecter et de filtrer les contenus générés par l’IA. D’autres appellent à une régulation plus stricte de l’utilisation de l’IA dans la création de contenus textuels.

Les implications éthiques

L’impact de l’IA générative sur les projets d’analyse linguistique soulève également des questions éthiques. La capacité de ces modèles à produire des textes indiscernables de ceux écrits par des humains pose des défis en termes de transparence et d’authenticité. Les chercheurs et les développeurs de technologies doivent trouver un équilibre entre l’innovation et la préservation de l’intégrité des données.

Un impact plus large

À une époque où l'intelligence artificielle est devenue un mot à la mode dans divers secteurs, son incursion dans le domaine de la littérature a suscité un mélange d'intrigue et d'inquiétude. Une enquête récente, axée sur le contenu de Google Books, a mis en lumière la présence potentielle de livres générés par des technologies d'IA.

L'enquête du journaliste s'est appuyée sur une approche permettant d'identifier les éventuels contenus générés par l'IA dans Google Books. En recherchant l'expression « Depuis la dernière mise à jour de mes connaissances » - une expression communément associée à des programmes d'IA tels que ChatGPT - le journaliste a découvert un nombre surprenant de livres contenant cette expression et d'autres phrases similaires. Si certains de ces livres évoquent explicitement l'IA, notamment ChatGPT et les technologies connexes, ce qui indique qu'ils ont été écrits par des humains, une grande partie d'entre eux suscite des soupçons quant à leur origine.

Un exemple notable est « Bears, Bulls, and Wolves : Stock Trading for the Twenty-Year-Old » de Tristan MacIver, publié en janvier 2024. Le langage et les explications de ce livre, en particulier en ce qui concerne les événements financiers complexes, semblent rappeler le contenu généralement généré par l'IA, à l'instar des niveaux de synthèse que l'on trouve dans les entrées de Wikipédia. Cette découverte et d'autres similaires suggèrent une tendance florissante à l'implication de l'IA dans la création littéraire, ce qui soulève des questions sur la nature de la paternité et l'authenticité du contenu dans les bibliothèques numériques.

L'inclusion par Google de livres générés par l'IA dans Google Books polluerait les données utilisées dans Google Ngram viewer, un outil important utilisé par les chercheurs pour suivre l'utilisation de la langue à travers l'histoire. Ngram Viewer est une application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupes de mots à travers le temps dans les sources imprimées. L’outil est entré en service en 2010.

Par ailleurs, le comportement terrible des entreprises d'IA générative, qui récupèrent le contenu disponible sur internet à des fins lucratives pour créer des machines à plagier, a naturellement incité les propriétaires de sites web à tenter de bloquer les robots d'exploration qui lisent leur site pour quelque raison que ce soit. Cela a eu pour effet de rendre beaucoup plus difficile le fonctionnement de projets de recherche et d'outils tels que Wordfreq, car les propriétaires de domaines modifient leurs règles robots.txt pour interdire le scraping.

Conclusion

La fin de Wordfreq illustre un défi majeur posé par l’IA générative : la pollution des données. Alors que ces technologies continuent de se développer, il devient crucial de trouver des moyens de distinguer les contenus générés des contenus authentiques pour préserver la qualité des analyses linguistiques. La communauté scientifique doit collaborer pour développer des solutions innovantes et garantir que les progrès technologiques ne compromettent pas la recherche académique.

Source : note du projet

Et vous ?

Pensez-vous que l’IA générative devrait être davantage régulée pour éviter la pollution des données linguistiques ? Pourquoi ou pourquoi pas ?
Quelles solutions proposez-vous pour distinguer les contenus générés par l’IA des contenus authentiques dans les bases de données linguistiques ?
Croyez-vous que la fermeture de projets comme Wordfreq est une perte significative pour la recherche linguistique ?
Comment les chercheurs peuvent-ils s’adapter à l’augmentation des contenus générés par l’IA dans leurs études ?
Voyez-vous des avantages à l’utilisation de l’IA générative dans l’analyse linguistique, malgré les défis qu’elle pose ?
Pensez-vous que les plateformes en ligne devraient offrir un accès gratuit aux données pour les projets de recherche open-source ?
Selon vous, quelles sont les implications éthiques de l’utilisation de l’IA générative dans la création de contenus textuels ?
Comment les institutions académiques et les chercheurs peuvent-ils collaborer pour surmonter les obstacles posés par l’IA générative ?
Je vais certainement être pris pour un vieux réactionnaire, mais il suffit de regarder en arrière sur ce qu'est devenu le Web. Au début du web grand public, Internet était un espace qui permettait de s'informer, de partager un savoir. C'était une sorte de gigantesque encyclopédie, avec des informations de qualités.

Depuis, petit à petit, on est passé de cette encyclopédie, à un grand bazar où on trouve tout et n'importe quoi. L'usage du smartphone a été le dernier clou du cerceuil du Web. Le smartphone a été la porte d'entrée à une publicité de plus en plus présente et de plus en plus ciblée.

Le web est passé d'une information gratuite et de qualité, en un espace payant pour de la mauvaise qualité. Il y a bien quelques ilots qui résistent mais il sont de plus en plus rare.

Le mieux qui pourrait arriver au web, c'est de le scinder en 2 avec d'un côté un web "de la connaissance" (ce qu'il était à son origine) et de laisser tout le reste dans le web tel qu'il est aoujourd'hui. C'est malheureusement une utopie, mais dans d'autres domaines (l'alimentation par exemple), on a créé des "labels de qualité", des "AOC", etc. Ce serait un travail de fourmis immense, car on part de loin, mais c'est la seule issue.

Et l'IA, comme dit dans l'article, ne fait qu'aggraver le problème.

BàV et Peace & Love.
4  0 
Avatar de bmayesky
Membre régulier https://www.developpez.com
Le 30/07/2024 à 16:00
C'est aussi actuellement l'âge d'or de la disponibilité des connaissances humaines sur le web et le déclin sera aussi rapide que l'utilisation des IA se généralisera.

Pourquoi demain écrire un long article sur un sujet important et le mettre à disposition sur le web ? Aujourd'hui il est référencé, vu et cela génère des revenus, de la visibilité, de la réputation alors que demain, il sera intégré par des IA qui ne renverront rien à l'auteur. Au contraire, mettre des contenus utiles sur le web ne feront que permettre à l'IA de remplacer ceux qui produisent ce contenu.

Demain, le web sera bien moins instructif qu'aujourd'hui et c'est normal. La logique de cette évolution sera peut-être la mise en ligne de l'intelligence humaine à un niveau plus bas: aujourd'hui pour les tâches complexes, on embauche un consultant pendant quelques jours. Peut-être demain, avec la raréfaction de l'information en ligne, paiera t-on des services d'assistances simples sur les sujets complexes. Une forme d'adaptation des gens du commun aux IA en quelque sorte. Ça nous promet un web beaucoup plus pauvre, c'est dommage.

Le modèle de l'IA se base sur la disponibilité infinie et permanente de toutes les connaissances utiles pour les digérer sans les rémunérer et se mettre en interface devant les producteurs du savoir. Ce modèle est visiblement sa propre faiblesse puisqu'il s'empoisonne de ses propres créations et va créer une diminution notable de mise à disposition du savoir qui va miner aussi sûrement les bases de construction de l'IA. Enfin, ce sont mes deux cents, parce que si l'AGI arrive dans moins de 5 ans, tout ceci sera du blabla.
2  0 
Avatar de mach1974
Membre averti https://www.developpez.com
Le 30/07/2024 à 16:29
Etonnant que l'IA n'utilise pas les algos de sérialisation comme pour les PID pour les poids des tokens
0  0 
Avatar de eric44000
Membre averti https://www.developpez.com
Le 31/07/2024 à 13:20
Trouvez-vous les conclusions de cette étude de l'université d'Oxford crédibles ou pertinentes ?
Non. Ces chercheurs ne tiennent compte que la multiplication des textes générés par les IA. Meta a déjà prouvé que la qualité des données d'entrainement prévaut sur la quantité.
Donc il faudrait vraiment que OpenAI, Google, Meta, Mistral... soient devenus complètement cinglés pour faire ingurgiter à leur modèle un corpus brut, sans curation.

De plus le contenu évolu. Le savoir n'est pas immuable et la nouveauté est quotidien. Découvertes archéologiques, nouvelles théories scientifiques, nouveaux concepts... vont à l'encontre des conclusions des chercheurs de l'Université d'Oxford et de Cambridge.

Je pourrai même ajouter qu'ils ne font pas état du corpus mondial. En effet, les data d'entrainement représentent essentiellement la culture américaine, hors l'histoire culturel mondial dépasse de loin le jour de la Déclaration d'indépendance américaine. Par exemple les textes du moyen âge croupissent dans des armoires dont la plupart n'ont pas étés traduits.
0  0 
Avatar de geeknick
Nouveau Candidat au Club https://www.developpez.com
Le 14/08/2024 à 15:49
"Par exemple, Google a rétrogradé les articles issus d'exploitations agricoles, en mettant davantage l'accent sur le contenu produit par des sources dignes de confiance"
Je me riz à l'interprétation de cette traduction automatique dans une requête future concernant le monde agricole et les sources d'eaux potables.
J'en profite pour faire un petit empoisonnement (des sources) pour cultiver nos Intelligences Artificielles paysannes.
0  0