Les LLM réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne : il y a moins de contenu valable pour former les IA, qui finissent donc par s'auto-empoisonner

Le 14 octobre 2024 à 16:32, par Jade Emy

78PARTAGES

Les LLM réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne : il y a moins de contenu valable pour former les LLM, qui finissent donc par s'auto-empoisonner

Les grands modèles de langage réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne. L'impact de ChatGPT sur Stack Overflow en est le parfait exemple. Mais cette tendance représente un danger pour les modèles eux-mêmes : il y a moins de contenu valable pour former les LLM, qui finissent donc par s'auto-empoisonner. Une nouvelle étude lève le voile sur cette situation.

Les programmeurs peuvent poser des questions et trouver des réponses sur Stack Overflow, un site web communautaire pour les développeurs. Toutefois, les développeurs obtiennent de plus en plus de conseils auprès des chatbots d'IA et de GitHub CoPilot plutôt que sur les tableaux de messages de Stack Overflow. Un rapport de mai 2023 révèle que le trafic de Stack Overflow a baissé de 14 % en mars 2023, tandis que ChatGPT a attiré 1,6 milliard de visites le même mois.

Ce rapport présentait une nouvelle situation : les chatbot d'intelligence artificielle (IA) alimentés par les grands modèles de langage (LLM) devenaient un substitut potentiel aux données et aux ressources de connaissances générées par l'homme. Pour rappel, un LLM est un modèle informatique capable de générer du langage ou d'effectuer d'autres tâches de traitement du langage naturel. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé.

Toutefois, cette substitution peut poser un problème important pour les données d'entraînement nécessaires au développement de futurs modèles si elle entraîne une réduction du contenu généré par l'homme. Des chercheurs ont donc étudié la réduction de l'activité sur Stack Overflow coïncidant avec la publication de ChatGPT. Les résultats montrent l'impact de ChatGPT sur Stack Overflow, mais surtout l'impact de l'IA sur les contenus en ligne générés par les humains.

Pour vérifier si la réduction d'activité de Stack Overflow est spécifique à l'introduction de ChatGPT, ils ont utilisé des contrefactuels impliquant des ressources de connaissances similaires générées par l'homme qui ne devraient pas être affectées par l'introduction de ChatGPT dans une telle mesure. Dans les six mois qui ont suivi la sortie de ChatGPT, l'activité sur Stack Overflow a diminué de 25 % par rapport à ses homologues russes et chinois, où l'accès à ChatGPT est limité, et à des forums similaires pour les mathématiques, où ChatGPT est moins performant.

Cette estimation serait ainsi une limite inférieure de l'impact réel de ChatGPT sur Stack Overflow. Le déclin est plus important pour les messages liés aux langages de programmation les plus utilisés. Parmi les observations : aucun changement significatif n'est constaté dans la qualité des messages mesurée par les commentaires des pairs, mais des diminutions dans la création de contenu par les utilisateurs les plus expérimentés et les moins expérimentés.

Toutefois, les LLM ne remplacent pas seulement les contenus dupliqués, de faible qualité ou de niveau débutant. Les résultats suggèrent que l'adoption rapide des LLM réduit la production de données publiques nécessaires à leur formation, ce qui a des conséquences significatives. Notamment par le fait qu'avec moins de données disponibles, les LLM génèrent ses propres données d'entrainement et s'auto-empoisonnent en même temps.

L'impact de ChatGPT sur Stack Overflow

La vitesse à laquelle les gens ont adopté ChatGPT est l'une des plus rapides de l'histoire de la technologie. Il est essentiel de mieux comprendre les activités que cette nouvelle technologie déplace et les effets de second ordre que cette substitution peut avoir. Après l'introduction de ChatGPT, il y a eu une forte diminution de la création de contenu humain sur Stack Overflow.

L'étude compare donc la diminution de l'activité sur Stack Overflow avec d'autres plateformes Stack Exchange où les LLM actuels sont moins susceptibles d'être utilisés. À l'aide d'un modèle de différence, ils ont estimé la diminution des messages sur Stack Overflow par rapport aux plateformes contrefactuelles dans les 6 mois suivant la publication de ChatGPT.

Pour les chercheurs, les résultats sont une limite inférieure, car ChatGPT est susceptible d'avoir eu un impact faible mais croissant sur les plateformes contrefactuelles également. L'enquête auprès des développeurs de Stack Overflow confirme que les personnes utilisant ChatGPT étaient moins susceptibles de poster des questions ou des réponses sur Stack Overflow.

Ils n'ont pas observé de changement important dans le retour social sur les messages, mesuré à l'aide des votes, ni dans la composition de l'expérience des utilisateurs qui publient des messages après la publication de ChatGPT. Ces résultats suggèrent que la qualité moyenne des messages n'a pas changé et que ChatGPT n'a pas remplacé uniquement les nouveaux utilisateurs inexpérimentés.

L'activité de publication liée aux langages de programmation les plus populaires a diminué davantage en moyenne que celle liée aux langages de niche. Étant donné que la performance des LLM dépend de la quantité de données de formation, ce résultat suggère que les utilisateurs sont plus susceptibles de remplacer Stack Overflow par ChatGPT en ce qui concerne les langages que les LLM connaissent mieux. Par conséquent, l'adoption généralisée des LLM diminuera probablement la fourniture de biens publics numériques, y compris les données ouvertes précédemment générées par les interactions sur le web.

Les chercheurs commentent ces résultats :

Deux de nos résultats offrent quelques raisons limitées d'être optimistes. Alors que l'activité de publication sur Stack Overflow a diminué parmi les utilisateurs inexpérimentés, expérimentés et experts par rapport aux plateformes de contrôle, le contenu créé par les nouveaux utilisateurs est resté relativement stable. On sait que les nouveaux utilisateurs sont essentiels à la santé à long terme des communautés en ligne.

Toutefois, cet optimisme doit être nuancé car, si les nouveaux utilisateurs commencent à se comporter comme les utilisateurs inexpérimentés, alors les nouveaux utilisateurs seront également plus susceptibles de réduire leur activité sur Stack Overflow. Deuxièmement, l'impact de ChatGPT a été moindre sur les langages de niche utilisés par un plus petit nombre de personnes, ce qui suggère que les conversations en ligne autour de ces langages et les informations précieuses qu'ils génèrent se poursuivront.

Les travaux récents de Burtch et al., qui étudient l'évolution de l'activité sur Stack Overflow et Reddit, ont abouti à des résultats similaires aux nôtres. En utilisant une méthode de contrôle synthétique pour tenir compte de la saisonnalité, les auteurs signalent une diminution d'environ 20 % de l'activité de publication sur Stack Overflow dans les 15 semaines qui ont suivi la publication de ChatGPT, et constatent des hétérogénéités similaires entre les langages de programmation.

Ces résultats complètent les nôtres, qui proviennent d'une analyse plus prudente utilisant des plateformes contrefactuelles. Une différence dans nos résultats est que leur méthode constate une forte diminution des messages des nouveaux utilisateurs, alors que nous observons moins de messages d'utilisateurs plus expérimentés sur Stack Overflow par rapport aux plates-formes contrefactuelles. Il serait utile de résoudre cette ambiguïté dans le cadre de travaux futurs, compte tenu de l'importance des nouveaux utilisateurs pour la santé des plateformes, comme nous l'avons vu plus haut.

Limites et implications de l'étude

Les résultats et les données de l'étude présentent certaines lacunes qui mettent en évidence d'autres questions ouvertes sur l'utilisation et l'impact des LLM. Premièrement, bien que l'étude présente des preuves solides que ChatGPT a diminué l'activité de publication sur Stack Overflow, les chercheurs ne pouvent que partiellement évaluer la qualité de l'activité de publication à l'aide des données sur les mentions positives et les mentions négatives.

Il est possible que les utilisateurs publient des questions plus difficiles, que les LLM ne peuvent pas (encore) traiter, sur Stack Overflow. Les travaux futurs devraient examiner si l'activité continue sur Stack Overflow est plus complexe ou sophistiquée en moyenne que les posts antérieurs à la publication de ChatGPT. De même, ChatGPT peut avoir réduit le volume de questions dupliquées sur des sujets simples, bien qu'il soit peu probable que cela ait un impact sur les principaux résultats.

Une deuxième limite est que l'étude ne peut pas observer dans quelle mesure les utilisateurs russes et chinois des plateformes de questions et réponses correspondantes sont réellement empêchés d'accéder à ChatGPT. En effet, des travaux récents ont montré un pic d'activité VPN et Tor à la suite du blocage de ChatGPT en Italie.

Bien que les résultats soient robustes à l'exclusion des contrefactuels chinois et russe, étant donné l'importance économique potentielle de ChatGPT et des LLM similaires, il est essentiel que nous comprenions mieux comment de telles interdictions et de tels blocages ont un impact sur l'accessibilité de ces outils.

Enfin, l'étude n'aborde pas la question de l'utilisation possible de ChatGPT pour générer le contenu de Stack Overflow. La politique de Stack Overflow a effectivement interdit les messages rédigés par ChatGPT dans la semaine qui a suivi sa publication. Quoi qu'il en soit, une quantité importante de contenu généré par ChatGPT sur Stack Overflow signifierait que les mesures sous-estiment l'ampleur de l'effet ChatGPT.

Malgré ces lacunes, les résultats ont des implications importantes pour l'avenir des biens publics numériques. Avant l'introduction de ChatGPT, davantage de contenu généré par l'homme était posté sur Stack Overflow, formant un bien public numérique collectif en raison de leur nature non rivale et non exclusive - toute personne ayant accès à Internet peut voir, absorber et étendre ces informations, sans diminuer la valeur de la connaissance. Aujourd'hui, une partie de ces informations est plutôt introduite dans des LLM privés tels que ChatGPT. Il s'agit d'un transfert important de connaissances du domaine public vers le domaine privé.

Cette tendance menace également les futurs modèles

Cet effet de substitution observé pose également plusieurs problèmes pour l'avenir de l'IA. Tout d'abord, si les modèles de langage évincent la création de données ouvertes, ils limiteront leurs propres données de formation et leur efficacité futures. Deuxièmement, les propriétaires des principaux modèles actuels ont un accès exclusif aux données et aux commentaires des utilisateurs, ce qui, avec un réservoir de données ouvertes relativement plus petit, leur donne un avantage significatif par rapport aux nouveaux concurrents pour la formation des futurs modèles.

Troisièmement, le déclin des ressources publiques sur le web inverserait les progrès réalisés par le web dans la démocratisation de l'accès à la connaissance et à l'information. Enfin, la consolidation des humains qui recherchent des informations autour d'un ou de quelques modèles de langage pourrait restreindre nos explorations et concentrer notre attention sur les sujets les plus courants.

Les résultats suggèrent que l'adoption généralisée de ChatGPT pourrait ironiquement rendre difficile la formation de futurs modèles. Bien que les chercheurs aient déjà exprimé leur inquiétude quant à l'épuisement des données pour l'entraînement des modèles d'IA, les résultats montrent que l'utilisation de LLM peut ralentir la création de nouvelles données (ouvertes). Étant donné les preuves croissantes que les données générées par les LLM ne sont pas susceptibles de former efficacement de nouveaux LLM, les modélisateurs sont confrontés au problème réel de l'épuisement des données utiles.

Alors que la recherche sur l'utilisation de données synthétiques et de données mixtes pour former les LLM est toujours en cours, les résultats actuels montrent que l'utilisation de données de formation synthétiques peut dégrader la performance et peut même amplifier les biais dans les modèles. L'apport humain et l'orientation peuvent atténuer ces problèmes dans une certaine mesure, mais en général, il n'est pas encore clair si les données synthétiques peuvent permettre des progrès continus dans les capacités LLM.

À long terme, ChatGPT ne peut pas remplacer efficacement l'apport le plus important du web : les données dérivées de l'activité humaine. En effet, les récents partenariats stratégiques d'OpenAI avec Stack Overflow et Reddit démontrent la valeur de ce type de données pour la formation continue des LLM. La prolifération des LLM a déjà eu un impact sur d'autres formes de création de données : de nombreux travailleurs d'Amazon Mechanical Turk génèrent maintenant du contenu (c'est-à-dire qu'ils répondent à des enquêtes, évaluent des textes) à l'aide de ChatGPT. Et bien que les filigranes puissent aider les humains et les modèles à identifier les créateurs de données, le problème général consistant à déterminer si, par exemple, un texte a été écrit par un humain ou un LLM est difficile à l'échelle.

Les chercheurs commentent :

L'avantage précoce d'une entreprise en matière d'innovation technologique conduit souvent à une part de marché importante par le biais de divers mécanismes de dépendance à l'égard du chemin parcouru. L'utilisation de ChatGPT est de plus en plus rentable au fur et à mesure que les utilisateurs l'utilisent, car elle peut apprendre à partir des commentaires des utilisateurs.

Nos résultats indiquent que ChatGPT réduit simultanément la quantité de données d'entraînement ouvertes que les concurrents pourraient utiliser pour construire des modèles concurrents, tout en capturant des données d'utilisateurs pour lui-même, ce qui peut conduire à un verrouillage technologique. Contrairement aux données synthétiques, les données sur les interactions des utilisateurs avec les LLM peuvent être utilisées pour améliorer et régler leur performance de manière significative.

Nous suggérons qu'en plus de l'augmentation des rendements d'échelle provenant des effets de réseau, la transformation des données publiques communes en bases de données privées présente un autre mécanisme par lequel le secteur technologique peut devenir encore plus concentré.

Valeur économique perdue

Les biens publics numériques génèrent de la valeur de bien d'autres manières que l'alimentation des LLM et autres algorithmes. Par exemple, Wikipédia est une source d'information importante dans le monde entier, mais dans les pays en développement, les lecteurs sont plus souvent motivés par des objectifs d'apprentissage intrinsèques et ont tendance à lire les articles plus en détail. L'inégalité d'accès à l'IA peut également aggraver les inégalités de croissance et d'innovation entre les pays.

Les biens publics numériques apportent également une valeur directe aux nombreux sites web qui extraient des données de l'open data pour compléter leurs services de base par des informations supplémentaires. Par exemple, il existe une interdépendance substantielle entre des sites tels que Wikipedia, Reddit et Stack Overflow et les moteurs de recherche qui les utilisent pour enrichir les réponses aux requêtes des utilisateurs au moyen d'infobox, ce que l'on appelle parfois le "paradoxe de la réutilisation".

Dans le cas des moteurs de recherche, l'insertion de liens vers les sources de connaissances dans les infobox a permis d'atténuer le problème dans une certaine mesure, mais les LLM tels que ChatGPT remplacent les moteurs de recherche et sont beaucoup moins susceptibles d'établir des liens vers les sources. Leur adoption généralisée représente une menace importante pour la viabilité globale du web.

Les créateurs de biens publics numériques peuvent également être perdants. Les contributeurs à Stack Overflow ou aux logiciels libres (OSS) bénéficient souvent d'avantages indirects. Par exemple, alors que les logiciels libres eux-mêmes apportent une valeur significative à l'économie mondiale, les contributions aux logiciels libres sont des signaux précieux des capacités d'une entreprise pour les investisseurs.

Les contributions individuelles à Stack Overflow sont utilisées pour signaler les capacités sur le marché du travail. Toute tendance générale de ChatGPT à évincer les contributions aux biens publics numériques peut limiter ces signaux précieux qui réduisent les frictions économiques. D'un autre côté, cette activité de signalisation peut constituer une incitation puissante à maintenir les contributions.

Les chercheurs concluent :

L'effet de substitution a probablement d'importants effets de second ordre sur la manière dont les gens recherchent des informations et sur leur exposition à de nouvelles idées. Les LLM favorisent probablement des perspectives bien établies et, en raison de leur efficacité, réduisent la nécessité pour les utilisateurs de rechercher des informations.

Ces caractéristiques des LLM peuvent renforcer une tendance observée précédemment dans le contexte du web. Plus précisément, on pense que les moteurs de recherche Internet ont poussé la science vers le consensus et des sujets plus étroits en améliorant l'efficacité de la recherche d'informations et en améliorant la visibilité de l'information principale.

Les LLM peuvent également décourager l'utilisation d'outils nouveaux ou de niche parce qu'ils amplifient le plus notre productivité avec les outils pour lesquels il y a beaucoup de données d'entraînement. Par exemple, ChatGPT peut ne pas être en mesure d'aider les utilisateurs d'un nouveau langage de programmation dont il n'a pas vu beaucoup d'exemples. Étant donné que les LLM sont sur le point de changer notre façon de faire de la recherche, qu'ils représentent un concurrent de taille pour les moteurs de recherche (57) et qu'ils influenceront probablement notre consommation d'informations, nous devons comprendre ce que l'efficacité des LLM implique pour notre contact avec diverses sources d'information et nos incitations à essayer de nouvelles choses.

Plus généralement, les modèles tels que ChatGPT vont générer des gagnants et des perdants sur le plan politique et économique, comme c'est le cas pour de nombreuses technologies révolutionnaires antérieures. Si les premières données montrent que ces modèles améliorent la productivité, en particulier chez les travailleurs nouveaux et inexpérimentés, ils peuvent aussi contribuer à l'inégalité entre les personnes et les entreprises, par exemple par le biais des effets secondaires négatifs potentiels de l'automatisation.

Les résultats de l'étude suggèrent que l'économie de la création et de la propriété des données deviendra plus importante : à mesure que les données prendront de la valeur, on s'intéressera de plus en plus à la manière dont les créateurs de données pourront s'approprier une partie de cette valeur. Ces aspects multiples de l'impact des LLM suggèrent que l'économie politique des données et de l'IA sera particulièrement importante dans les années à venir.

Dans ce contexte, notre travail met en évidence le fait que des biens publics numériques de grande valeur peuvent être sous-produits en raison de la prolifération de l'IA. Une question complémentaire naturelle est de savoir comment nous pouvons encourager la création de ces biens. Bien que l'on sache que les chocs liés au chômage augmentent la fourniture de biens publics numériques, ce serait une solution insatisfaisante que de suggérer que les personnes mises au chômage par l'automatisation combleront cette lacune.

Dans le cas de plateformes comme Stack Overflow, les utilisateurs actifs sont souvent motivés par le feedback social et la gamification, mais l'intégration continue de nouveaux utilisateurs est ce qui permet à ces plateformes de rester pertinentes à long terme (36). Dans l'intérêt d'un web ouvert durable et d'un écosystème d'IA qui s'appuie sur ses données, nous devrions réfléchir à la manière de maintenir les échanges d'informations et de connaissances en ligne.

Conclusion

Les grands modèles de langage réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne. L'impact de ChatGPT sur Stack Overflow en est le parfait exemple. L'étude confirme que l'IA devient une nouvelle source d'information, mais cette tendance représente une menace pour les futurs modèles, mais également sur la connaissance publique.

Récemment, le projet open-source Wordfreq, qui analysait l’évolution de l’utilisation des mots dans plus de 40 langues, a été arrêté. La raison ? La prolifération des textes générés par l’intelligence artificielle (IA) a rendu les données inutilisables. Robyn Speer, la créatrice du projet, a annoncé cette décision en soulignant que l’IA générative a "pollué les données" à un point tel que l’analyse linguistique fiable est devenue impossible. Cette situation confirme ainsi les craintes des chercheurs.

Du coup l'IA en provoquant la diminution du contenu pertinent sur le web provoque sa propre auto destruction, puisqu'elle n’a plus assez de données pertinentes pour évoluer, et s'empoisone en aspirant son propre contenu.
Les Chroniqueurs Judith Donath, Bruce Schneier et Christopher Mims alertent sur les menaces croissantes que représente l'intelligence artificielle (IA) pour l'écosystème en ligne. Ils soulignent comment les modèles de langage de grande envergure (LLM) et les éditeurs algorithmiques, notamment incarnés par Google, bouleversent notre accès et notre production de contenu en ligne, menaçant la qualité des informations disponibles. Est-ce la fin du Web tel que nous le connaissons ? Les détracteurs de l'IA craignent la destruction d'une précieuse ressource publique.

Source : "Large language models reduce public knowledge sharing on online Q&A platforms"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Stack Overflow bannit massivement les utilisateurs qui se rebellent contre son partenariat avec OpenAI en supprimant des réponses afin d'éviter qu'elles ne soient utilisées pour former ChatGPT

Le contenu en ligne généré par des non-humains dépassera largement celui produit par des humains d'ici 2026, d'après des études qui tirent la sonnette d'alarme sur la désinformation due à l'IA

L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA

Vous avez lu gratuitement 4 280 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :