Les grands modèles de langage réduisent le partage des connaissances publiques sur les plateformes de questions-réponses en ligne. L'impact de ChatGPT sur Stack Overflow en est le parfait exemple. Mais cette tendance représente un danger pour les modèles eux-mêmes : il y a moins de contenu valable pour former les LLM, qui finissent donc par s'auto-empoisonner. Une nouvelle étude lève le voile sur cette situation.Les programmeurs peuvent poser des questions et trouver des réponses sur Stack Overflow, un site web communautaire pour les développeurs. Toutefois, les développeurs obtiennent de plus en plus de conseils auprès des chatbots d'IA et de GitHub CoPilot plutôt que sur les tableaux de messages de Stack Overflow. Un rapport de mai 2023 révèle que le trafic de Stack Overflow a baissé de 14 % en mars 2023, tandis que ChatGPT a attiré 1,6 milliard de visites le même mois.
Ce rapport présentait une nouvelle situation : les chatbot d'intelligence artificielle (IA) alimentés par les grands modèles de langage (LLM) devenaient un substitut potentiel aux données et aux ressources de connaissances générées par l'homme. Pour rappel, un LLM est un modèle informatique capable de générer du langage ou d'effectuer d'autres tâches de traitement du langage naturel. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé.
Toutefois, cette substitution peut poser un problème important pour les données d'entraînement nécessaires au développement de futurs modèles si elle entraîne une réduction du contenu généré par l'homme. Des chercheurs ont donc étudié la réduction de l'activité sur Stack Overflow coïncidant avec la publication de ChatGPT. Les résultats montrent l'impact de ChatGPT sur Stack Overflow, mais surtout l'impact de l'IA sur les contenus en ligne générés par les humains.
Pour vérifier si la réduction d'activité de Stack Overflow est spécifique à l'introduction de ChatGPT, ils ont utilisé des contrefactuels impliquant des ressources de connaissances similaires générées par l'homme qui ne devraient pas être affectées par l'introduction de ChatGPT dans une telle mesure. Dans les six mois qui ont suivi la sortie de ChatGPT, l'activité sur Stack Overflow a diminué de 25 % par rapport à ses homologues russes et chinois, où l'accès à ChatGPT est limité, et à des forums similaires pour les mathématiques, où ChatGPT est moins performant.
Cette estimation serait ainsi une limite inférieure de l'impact réel de ChatGPT sur Stack Overflow. Le déclin est plus important pour les messages liés aux langages de programmation les plus utilisés. Parmi les observations : aucun changement significatif n'est constaté dans la qualité des messages mesurée par les commentaires des pairs, mais des diminutions dans la création de contenu par les utilisateurs les plus expérimentés et les moins expérimentés.
Toutefois, les LLM ne remplacent pas seulement les contenus dupliqués, de faible qualité ou de niveau débutant. Les résultats suggèrent que l'adoption rapide des LLM réduit la production de données publiques nécessaires à leur formation, ce qui a des conséquences significatives. Notamment par le fait qu'avec moins de données disponibles, les LLM génèrent ses propres données d'entrainement et s'auto-empoisonnent en même temps.
L'impact de ChatGPT sur Stack Overflow
La vitesse à laquelle les gens ont adopté ChatGPT est l'une des plus rapides de l'histoire de la technologie. Il est essentiel de mieux comprendre les activités que cette nouvelle technologie déplace et les effets de second ordre que cette substitution peut avoir. Après l'introduction de ChatGPT, il y a eu une forte diminution de la création de contenu humain sur Stack Overflow.
L'étude compare donc la diminution de l'activité sur Stack Overflow avec d'autres plateformes Stack Exchange où les LLM actuels sont moins susceptibles d'être utilisés. À l'aide d'un modèle de différence, ils ont estimé la diminution des messages sur Stack Overflow par rapport aux plateformes contrefactuelles dans les 6 mois suivant la publication de ChatGPT.
Pour les chercheurs, les résultats sont une limite inférieure, car ChatGPT est susceptible d'avoir eu un impact faible mais croissant sur les plateformes contrefactuelles également. L'enquête auprès des développeurs de Stack Overflow confirme que les personnes utilisant ChatGPT étaient moins susceptibles de poster des questions ou des réponses sur Stack Overflow.
Ils n'ont pas observé de changement important dans le retour social sur les messages, mesuré à l'aide des votes, ni dans la composition de l'expérience des utilisateurs qui publient des messages après la publication de ChatGPT. Ces résultats suggèrent que la qualité moyenne des messages n'a pas changé et que ChatGPT n'a pas remplacé uniquement les nouveaux utilisateurs inexpérimentés.
L'activité de publication liée aux langages de programmation les plus populaires a diminué davantage en moyenne que celle liée aux langages de niche. Étant donné que la performance des LLM dépend de la quantité de données de formation, ce résultat suggère que les utilisateurs sont plus susceptibles de remplacer Stack Overflow par ChatGPT en ce qui concerne les langages que les LLM connaissent mieux. Par conséquent, l'adoption généralisée des LLM diminuera probablement la fourniture de biens publics numériques, y compris les données ouvertes précédemment générées par les interactions sur le web.
Les chercheurs commentent ces résultats :
Deux de nos résultats offrent quelques raisons limitées d'être optimistes. Alors que l'activité de publication sur Stack Overflow a diminué parmi les utilisateurs inexpérimentés, expérimentés et experts par rapport aux plateformes de contrôle, le contenu créé par les nouveaux utilisateurs est resté relativement stable. On sait que les nouveaux utilisateurs sont essentiels à la santé à long terme des communautés en ligne.
Toutefois, cet optimisme doit être nuancé car, si les nouveaux utilisateurs commencent à se comporter comme les utilisateurs inexpérimentés, alors les nouveaux utilisateurs seront également plus susceptibles de réduire leur activité sur Stack Overflow. Deuxièmement, l'impact de ChatGPT a été moindre sur les langages de niche utilisés par un plus petit nombre de personnes, ce qui suggère que les conversations en ligne autour de ces langages et les informations précieuses qu'ils génèrent se poursuivront.
Les travaux récents de Burtch et al., qui étudient l'évolution de l'activité sur Stack Overflow et Reddit, ont abouti à des résultats similaires aux nôtres. En utilisant une méthode de contrôle synthétique pour tenir compte de la saisonnalité, les auteurs signalent une diminution d'environ 20 % de l'activité de publication sur Stack Overflow dans les 15 semaines qui ont suivi la publication de ChatGPT, et constatent des hétérogénéités similaires entre les langages de programmation.
Ces résultats complètent les nôtres, qui proviennent d'une analyse plus prudente utilisant des plateformes contrefactuelles. Une différence dans nos résultats est que leur méthode constate une forte diminution des messages des nouveaux utilisateurs, alors que nous observons moins de messages d'utilisateurs plus expérimentés sur Stack Overflow par rapport aux plates-formes contrefactuelles. Il serait utile de résoudre cette ambiguïté dans le cadre de travaux futurs, compte tenu de l'importance des nouveaux utilisateurs pour la santé des plateformes, comme nous l'avons vu plus haut.
Limites et implications de l'étude
Les résultats et les données de l'étude présentent certaines lacunes qui mettent en évidence d'autres questions ouvertes sur l'utilisation et l'impact des LLM. Premièrement, bien que l'étude présente des preuves solides que ChatGPT a diminué l'activité de publication sur Stack Overflow, les chercheurs ne pouvent que partiellement évaluer la qualité de l'activité de publication à l'aide des données sur les mentions positives et les mentions négatives.
Il est possible que les utilisateurs publient des questions plus difficiles, que les LLM ne peuvent pas (encore) traiter, sur Stack Overflow. Les travaux futurs devraient examiner si l'activité continue sur Stack Overflow est plus complexe ou sophistiquée en moyenne que les posts antérieurs à la publication de ChatGPT. De même, ChatGPT peut avoir réduit le volume de questions dupliquées sur des sujets simples, bien qu'il soit peu probable que cela ait un impact sur les principaux résultats.
Une deuxième limite est que l'étude ne peut pas observer dans quelle mesure les utilisateurs russes et chinois des plateformes de questions et réponses correspondantes sont réellement empêchés d'accéder à ChatGPT. En effet, des travaux récents ont montré un pic d'activité VPN et Tor à la suite du blocage de ChatGPT en Italie.
Bien que les résultats soient robustes à l'exclusion des contrefactuels chinois et russe, étant donné l'importance économique potentielle de ChatGPT et des LLM similaires, il est essentiel que nous comprenions mieux comment de telles interdictions et de tels blocages ont un impact sur l'accessibilité de ces outils.
Enfin, l'étude n'aborde pas la question de l'utilisation possible de ChatGPT pour générer le contenu de Stack Overflow. La politique de Stack Overflow a effectivement interdit les messages rédigés par ChatGPT dans la semaine qui a suivi sa publication. Quoi qu'il en soit, une quantité importante de contenu généré par ChatGPT sur Stack Overflow signifierait que les mesures sous-estiment l'ampleur de l'effet ChatGPT....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

