Plusieurs chercheurs ont déjà inscrit le chatbot en tant que coauteur dans des études universitaires, et certains éditeurs ont décidé d'interdire cette pratique. Mais le rédacteur en chef de Science, l'une des principales revues scientifiques au monde, est allé plus loin en interdisant toute utilisation du texte du programme dans les articles soumis.
Une équipe de chercheurs dirigée par la Northwestern University a utilisé l'outil de génération de texte, développé par OpenAI, pour produire 50 résumés basés sur le titre d'un véritable article scientifique dans le style de cinq revues médicales différentes. Quatre universitaires ont été recrutés pour participer à ce test, et ont été répartis en deux groupes de deux. Un tirage au sort électronique a permis de décider si un résumé généré par l'IA, réel ou faux, était remis à un examinateur de chaque groupe. Si un chercheur recevait un vrai résumé, le second recevait un faux, et vice-versa. Chaque personne a examiné 25 résumés scientifiques.
[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Why does chatGPT make up fake academic papers?<br><br>By now, we know that the chatbot notoriously invents fake academic references. E.g. its answer to the most cited economics paper is completely made-up (see image). <br><br>But why? And how does it make them? A THREAD (1/n) 🧵 <a href="https://t.co/kyWuc915ZJ">pic.twitter.com/kyWuc915ZJ</a></p>— David Smerdon (@dsmerdon) <a href="https://twitter.com/dsmerdon/status/1618816703923912704?ref_src=twsrc%5Etfw">January 27, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]
Les examinateurs ont pu détecter 68 % des résumés erronés générés par l'IA et 86 % des résumés originaux provenant de vrais articles. En d'autres termes, ils ont réussi à leur faire croire que 32 % des résumés rédigés par l'IA étaient vrais et que 14 % des résumés réels étaient faux.
Catherine Gao, premier auteur de l'étude et médecin et scientifique spécialisée en pneumologie à la Northwestern University, a déclaré que cela montre que ChatGPT peut être assez convaincant. « Nos examinateurs savaient que certains des résumés qu'ils recevaient étaient faux, ils étaient donc très méfiants », a-t-elle déclaré dans un communiqué.
« Le fait que nos examinateurs aient quand même manqué les résumés générés par l'IA dans 32 % des cas signifie que ces résumés sont vraiment bons. Je soupçonne que si quelqu'un tombait simplement sur l'un de ces résumés générés, il ne serait pas nécessairement capable de l'identifier comme étant écrit par l'IA. » « Nos examinateurs ont commenté qu'il était étonnamment difficile de différencier les vrais et les faux résumés, a déclaré Gao. Les résumés générés par ChatGPT étaient très convaincants... »
Gao pense que des outils comme ChatGPT faciliteront la tâche des usines à papier, qui tirent profit de la publication d'études, pour produire de faux articles scientifiques. « Si d'autres personnes essaient de construire leur science à partir de ces études incorrectes, cela peut être réellement dangereux », a-t-elle ajouté. L'utilisation de ces outils présente toutefois aussi des avantages. Alexander Pearson, co-auteur de l'étude et professeur associé de médecine à l'université de Chicago, a déclaré qu'ils pourraient aider les scientifiques dont l'anglais n'est pas la langue maternelle à mieux écrire et à partager leurs travaux.
Les résultats mettent en évidence certaines forces et faiblesses potentielles de ChatGPT
Les chercheurs soupçonnent ici que ChatGPT est particulièrement fort pour prendre un ensemble de textes externes et les connecter (l'essence d'une idée de recherche), ou pour prendre des sections facilement identifiables d'un document et les ajuster (un exemple est le résumé des données - un "morceau de texte" facilement identifiable dans la plupart des études de recherche).
« Nous avons constaté que les différentes sections de la recherche étaient évaluées différemment. L'idée de recherche et l'ensemble de données ont eu tendance à être bien notées. Les analyses documentaires et les suggestions de tests ont été moins bien notées, mais restent acceptables » Une faiblesse relative de la plateforme serait apparue lorsque la tâche était plus complexe - lorsque le processus conceptuel comporte trop d'étapes. Les analyses de documents et les tests ont tendance à entrer dans cette catégorie.
Il n'est pas surprenant que l'utilisation de ces chatbots intéresse les éditeurs universitaires. Une récente étude, publiée dans Finance Research Letters, a montré que ChatGPT pouvait être utilisé pour rédiger un article financier qui serait accepté par une revue universitaire.
Les chercheurs ont montré, en se basant sur les évaluations des résultats générés par les évaluateurs des revues financières, que le chatbot IA ChatGPT peut contribuer de manière significative à la recherche financière. « En principe, ces résultats devraient pouvoir être généralisés à d'autres domaines de recherche. Les avantages sont évidents pour la génération d'idées et l'identification de données. Cependant, la technologie est plus faible en ce qui concerne la synthèse de la littérature et le développement de cadres de test appropriés », concluent-ils.
La réflexion était la suivante : s'il est facile d'obtenir de bons résultats avec ChatGPT en l'utilisant simplement, peut-être pouvons-nous faire quelque chose de plus pour transformer ces bons résultats en excellents résultats. Les chercheurs ont d'abord demandé à ChatGPT de générer les quatre parties standard d'une étude de recherche : l'idée de recherche, l'analyse documentaire (une évaluation des recherches universitaires précédentes sur le même sujet), l'ensemble des données et les suggestions de tests et d'examens. Ils ont spécifié que le sujet général et que le résultat devait pouvoir être publié dans « une bonne revue financière ».
C'est la première version choisi pour utiliser ChatGPT. Pour la deuxième version, ils ont collé dans la fenêtre de ChatGPT un peu moins de 200 résumés d'études pertinentes et existantes. Ils ont ensuite demandé au programme de les prendre en compte lors de la création des quatre étapes de recherche. Enfin, pour la version 3, ils ont ajouté « l'expertise du domaine », c'est-à-dire la contribution de chercheurs universitaires. « Nous avons lu les réponses produites par le programme informatique et fait des suggestions d'amélioration. Ce faisant, nous avons intégré notre expertise à celle de ChatGPT », ont-ils dit.
« Nous avons ensuite demandé à un panel de 32 évaluateurs d'examiner chacun une version de la manière dont ChatGPT peut être utilisé pour générer une étude universitaire. Les examinateurs ont été invités à évaluer si le résultat était suffisamment complet et correct, et s'il apportait une contribution suffisamment nouvelle pour être publié dans une "bonne" revue financière universitaire », ajoutent-ils.
La grande leçon à retenir est que toutes ces études ont été généralement considérées comme acceptables par les experts. Ce qui parait assez étonnant, de l’avis de certains observateurs. Cela soulève des questions fondamentales sur la signification de la créativité et la propriété des idées créatives - des questions auxquelles personne n'a encore de réponses solides.
Implications éthiques
ChatGPT est un modèle linguistique d'intelligence artificielle introduit en novembre 2022 qui fournit des réponses conversationnelles générées à des questions incitatives. Le modèle est formé à l'aide d'un mélange d'algorithmes d'apprentissage par renforcement et d'entrées humaines sur plus de 150 milliards de paramètres. La plateforme a atteint un million d'utilisateurs dès sa première semaine d'ouverture au public et a été rapidement qualifiée de « prochain grand perturbateur de l'industrie » en raison de la qualité perçue des réponses fournies par le modèle.
Une première étude universitaire a montré que la plateforme était capable de passer le tronc commun notoirement complexe des examens d'accréditation juridique professionnelle américains. Un autre auteur a réussi à produire un guide raisonnablement complet sur le trading quantitatif, presque exclusivement à partir des résultats de ChatGPT. Toute une série de professions se sont même lancées dans une réflexion existentielle pour savoir si elles avaient été soudainement dépassées, notamment les éducateurs, les avocats et, pour couvrir autant de bases professionnelles inquiètes que possible, « tous les écrivains ». C'est une sacrée entrée en matière pour les nouvelles technologies. Même sans précaution, il génère des travaux plausibles.
Un juge utilise ChatGPT pour prendre une décision de justice
Dans une affaire opposant une compagnie d’assurance maladie et l’un de ses clients, un juge, Juan Manuel Padilla Garcia, déclare s’être fait aider par le célèbre outil d’OpenAI, ChatGPT, pour prendre sa décision de justice. Padilla, qui a statué contre la compagnie d’assurance, a déclaré avoir posé à ChatGPT, entre autres, la question suivante : « Un mineur autiste est-il exonéré du paiement des frais de ses thérapies ? ». La réponse de ChatGPT correspondait à la décision préalable du juge : « Oui, c'est exact. Selon la réglementation en vigueur en Colombie, les mineurs diagnostiqués autistes sont exonérés de frais pour leurs thérapies. »
L'affaire concernait un différend avec une compagnie d'assurance maladie sur la question de savoir si un enfant autiste devait bénéficier d'une couverture pour un traitement médical. Selon le document du tribunal, les questions juridiques entrées dans l'outil d'IA comprenaient « Un mineur autiste est-il exonéré du paiement des frais pour ses thérapies ? » et « La jurisprudence de la cour constitutionnelle a-t-elle rendu des décisions favorables dans des cas similaires ? »
ChatGPT réussi de justesse à un examen médical important
Selon les chercheurs, ChatGPT est la première IA à obtenir un score de réussite à l'examen de licence médicale, mais elle serait toujours mauvaise en mathématiques. Selon une étude publiée le 9 février 2023 dans la revue PLOS Digital Health par Tiffany Kung, Victor Tseng et leurs collègues d'AnsibleHealth, ChatGPT peut obtenir un score égal ou proche du seuil de réussite d'environ 60 % pour l'examen de licence médicale des États-Unis (USMLE), avec des réponses qui ont un sens cohérent et interne et qui contiennent des idées fréquentes.
L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.
« Nous avons évalué la performance d'un grand modèle de langage appelé ChatGPT sur l'examen de licence médicale des États-Unis (USMLE), qui se compose de trois examens : Étape 1, Étape 2CK, et Étape 3. ChatGPT a obtenu des performances égales ou proches du seuil de réussite pour les trois examens sans formation ni renforcement spécialisés. De plus, ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications. Ces résultats suggèrent que les modèles linguistiques de grande taille pourraient avoir le potentiel d'aider à la formation médicale et, potentiellement, à la prise de décision clinique », déclarent les chercheurs.
Tous ceci à évidement des implications éthiques éclatantes. L'intégrité de la recherche est déjà un problème pressant dans le monde universitaire et des sites Web tels que RetractionWatch transmettent un flux constant d'études de recherche fausses, plagiées ou tout simplement erronées. ChatGPT pourrait-il aggraver ce problème ?
En examinant les différentes étapes de la recherche, les chercheurs ont constaté que les notes les plus élevées concernent la génération de l'idée de recherche. Cela est logique si l'on considère que cette étape initiale implique une réflexion générale sur les concepts existants et la mise en relation de ces concepts dans une nouvelle idée cohérente. ChatGPT, avec son accès à des milliards de paramètres et de textes, devrait être particulièrement doué pour cette vaste exploration des idées existantes.
L'étape du résumé des données est également assez bonne, peut-être parce que les résumés de données ont tendance à être des sections distinctes d'une étude de recherche dans des « morceaux » de texte facilement identifiables. Il existe également une gamme limitée de données pouvant être utilisées dans une étude donnée, ce qui signifie que le processus de recherche est également limité.
Test pour savoir si ChatGPT arrête de créer de faux articles universitaires
La dernière version de ChatGPT devrait avoir amélioré ses capacités mathématiques. Voici, ci-dessous, un test proposé par Jeff Tjiong, PhD Directeur adjoint chez WSP au Royaume-Uni, pour savoir si ChatGPT arrête maintenant de créer de faux articles universitaires. « Il s'agit des réponses de ChatGPT à mes questions répétées sur "quel est l'article de modélisation du transport le plus cité de tous les temps" », écrit-il :
1ère réponse
- "A Behavioural Model of Travel Demand" par Stanley J. Garber (1971)
2ème réponse
- "Wardrop's principles of least delay and shortest route in road traffic" par J.G. Wardrop (1952)
- Une théorie simple de la circulation routière" par L.K. Nash (1950)
- Une théorie mathématique de la communication" par C.E. Shannon (1948)
- Modélisation et contrôle des réseaux de trafic urbain" par P. Marcotte (1999)
- "Affectation dynamique du trafic : A review of models, methods, and computations" par B.F. Molly et R. Herman (1997).
3ème réponse
- A Behavioural Model of Travel" de F.Sheller et P.J. Nash (1988)
4ème réponse
- "Equilibrium and Dynamic Traffic Assignment : Review and Prospects" par M.J. Beckmann, C.B. McGuire, C.R. Winsten (1974, Transportation Science)
Le seul article qui existerait en réalité serait l'article fondateur de Shannon en 1948. Cela dit, Jeff Tjiong doute qu'il s'agisse de l'un des articles les plus cités dans la modélisation des transports, car le concept d'entropie de l'information est devenu plutôt élémentaire dans de nombreux calculs. Au moins, cet article n'est pas cité dans Ortuzar & Willumsen. Il semble que les autres articles suggérés par ChatGPT ont tous été rafistolés sur la base des mots-clés les plus cités dans le domaine. Il est également intéressant de voir que ChatGPT aurait adopté une combinaison d'auteurs issus de la littérature passée pour faire correspondre le « faux article » dans sa 4ème réponse, en citant Beckmann, McGuire et Winsten qui ont écrit le livre influent Studies in the Economics of Transportation en 1956.
Malgré toutes les conversations fascinantes avec ChatGPT sur le fonctionnement du monde, nous devons nous rappeler que ChatGPT est basé sur un modèle de langage qui, en un mot, tente de deviner la séquence de mots la plus probable. « Ainsi, plutôt que de chercher l'article le plus cité en utilisant Google Scholar ou WoS, ChatGPT crée simplement une combinaison de titre, d'auteur et d'année de publication à partir de ses cloud de mots, du moins pour le moment. » « Je ne vais donc pas encore demander à ChatGPT d'écrire mon prochain article de conférence », conclu-t-il.
Les chercheurs devraient considérer ChatGPT comme une aide et non comme une menace, - un assistant électronique peu coûteux, voire gratuit. Il peut s'agir en particulier d'une aide pour les groupes de chercheurs qui ont tendance à manquer de ressources financières pour une assistance traditionnelle (humaine) à la recherche : les étudiants diplômés et les chercheurs en début de carrière. Il est tout à fait possible que ChatGPT (et des programmes similaires) contribue à démocratiser le processus de recherche.
Mais les chercheurs doivent être conscients de l'interdiction de l'utiliser pour la préparation d'articles de journaux. Il est clair qu'il existe des points de vue radicalement différents sur cette technologie, qui devra donc être utilisée avec précaution.
Sources : Jeff Tjiong, PhD Associate Director at WSP in the UK, Tweet
Et vous ?
Comment considerez-vous ChatGPT ? Aide ou menace ?
Quel est votre avis sur le sujet ?
Voir aussi :
Un juge utilise ChatGPT pour prendre une décision de justice, alors que l'outil d'IA n'aurait pas encore la maturité suffisante, pour être utilisé dans la prise des décisions conséquentes
ChatGPT a réussi de justesse à un examen médical important, un exploit historique pour l'IA, mais elle serait encore mauvaise en mathématiques