
Plusieurs chercheurs ont déjà inscrit le chatbot en tant que coauteur dans des études universitaires, et certains éditeurs ont décidé d'interdire cette pratique. Mais le rédacteur en chef de Science, l'une des principales revues scientifiques au monde, est allé plus loin en interdisant toute utilisation du texte du programme dans les articles soumis.
Une équipe de chercheurs dirigée par la Northwestern University a utilisé l'outil de génération de texte, développé par OpenAI, pour produire 50 résumés basés sur le titre d'un véritable article scientifique dans le style de cinq revues médicales différentes. Quatre universitaires ont été recrutés pour participer à ce test, et ont été répartis en deux groupes de deux. Un tirage au sort électronique a permis de décider si un résumé généré par l'IA, réel ou faux, était remis à un examinateur de chaque groupe. Si un chercheur recevait un vrai résumé, le second recevait un faux, et vice-versa. Chaque personne a examiné 25 résumés scientifiques.
Why does chatGPT make up fake academic papers?
— David Smerdon (@dsmerdon) January 27, 2023
By now, we know that the chatbot notoriously invents fake academic references. E.g. its answer to the most cited economics paper is completely made-up (see image).
But why? And how does it make them? A THREAD (1/n) 🧵 pic.twitter.com/kyWuc915ZJ
Les examinateurs ont pu détecter 68 % des résumés erronés générés par l'IA et 86 % des résumés originaux provenant de vrais articles. En d'autres termes, ils ont réussi à leur faire croire que 32 % des résumés rédigés par l'IA étaient vrais et que 14 % des résumés réels étaient faux.
Catherine Gao, premier auteur de l'étude et médecin et scientifique spécialisée en pneumologie à la Northwestern University, a déclaré que cela montre que ChatGPT peut être assez convaincant. « Nos examinateurs savaient que certains des résumés qu'ils recevaient étaient faux, ils étaient donc très méfiants », a-t-elle déclaré dans un communiqué.
« Le fait que nos examinateurs aient quand même manqué les résumés générés par l'IA dans 32 % des cas signifie que ces résumés sont vraiment bons. Je soupçonne que si quelqu'un tombait simplement sur l'un de ces résumés générés, il ne serait pas nécessairement capable de l'identifier comme étant écrit par l'IA. » « Nos examinateurs ont commenté qu'il était étonnamment difficile de différencier les vrais et les faux résumés, a déclaré Gao. Les résumés générés par ChatGPT étaient très convaincants... »
Gao pense que des outils comme ChatGPT faciliteront la tâche des usines à papier, qui tirent profit de la publication d'études, pour produire de faux articles scientifiques. « Si d'autres personnes essaient de construire leur science à partir de ces études incorrectes, cela peut être réellement dangereux », a-t-elle ajouté. L'utilisation de ces outils présente toutefois aussi des avantages. Alexander Pearson, co-auteur de l'étude et professeur associé de médecine à l'université de Chicago, a déclaré qu'ils pourraient aider les scientifiques dont l'anglais n'est pas la langue maternelle à mieux écrire et à partager leurs travaux.
Les résultats mettent en évidence certaines forces et faiblesses potentielles de ChatGPT
Les chercheurs soupçonnent ici que ChatGPT est particulièrement fort pour prendre un ensemble de textes externes et les connecter (l'essence d'une idée de recherche), ou pour prendre des sections facilement identifiables d'un document et les ajuster (un exemple est le résumé des données - un "morceau de texte" facilement identifiable dans la plupart des études de recherche).
« Nous avons constaté que les différentes sections de la recherche étaient évaluées différemment. L'idée de recherche et l'ensemble de données ont eu tendance à être bien notées. Les analyses documentaires et les suggestions de tests ont été moins bien notées, mais restent acceptables » Une faiblesse relative de la plateforme serait apparue lorsque la tâche était plus complexe - lorsque le processus conceptuel comporte trop d'étapes. Les analyses de documents et les tests ont tendance à entrer dans cette catégorie.
Il n'est pas surprenant que l'utilisation de ces chatbots intéresse les éditeurs universitaires. Une récente étude, publiée dans Finance Research Letters, a montré que ChatGPT pouvait être utilisé pour rédiger un article financier qui serait accepté par une revue universitaire.
Les chercheurs ont montré, en se basant sur les évaluations des résultats générés par les évaluateurs des revues financières, que le chatbot IA ChatGPT peut contribuer de manière significative à la recherche financière. « En principe, ces résultats devraient pouvoir être généralisés à d'autres domaines de recherche. Les avantages sont évidents pour la génération d'idées et l'identification de données. Cependant, la technologie est plus faible en ce qui concerne la synthèse de la littérature et le développement de cadres de test appropriés », concluent-ils.
La réflexion était la suivante : s'il est facile d'obtenir de bons résultats avec ChatGPT en l'utilisant simplement, peut-être pouvons-nous faire quelque chose de plus pour transformer ces bons résultats en excellents résultats. Les chercheurs ont d'abord demandé à ChatGPT de générer les quatre parties standard d'une étude de recherche : l'idée de recherche, l'analyse documentaire (une évaluation des recherches universitaires précédentes sur le même sujet), l'ensemble des données et les suggestions de tests et d'examens. Ils ont spécifié que le sujet général et que le résultat devait pouvoir être publié dans « une bonne revue financière ».
C'est la première version choisi pour utiliser ChatGPT. Pour la deuxième version, ils ont collé dans la fenêtre de ChatGPT un peu moins de 200 résumés d'études pertinentes et existantes. Ils ont ensuite demandé au programme de les prendre en compte lors de la création des quatre étapes de recherche. Enfin, pour la version 3, ils ont ajouté « l'expertise du domaine », c'est-à-dire la contribution de chercheurs universitaires. « Nous avons lu les réponses produites par le programme informatique et fait des suggestions d'amélioration. Ce faisant, nous avons intégré notre expertise à celle de ChatGPT », ont-ils dit.
« Nous avons ensuite demandé à un panel de 32 évaluateurs d'examiner chacun une version de la manière dont ChatGPT peut être utilisé pour générer une étude universitaire. Les examinateurs ont été invités à évaluer si le résultat était suffisamment complet et correct, et s'il apportait une contribution suffisamment nouvelle pour être publié dans une "bonne" revue financière universitaire », ajoutent-ils.
La grande leçon à retenir est que toutes ces études ont été généralement considérées comme acceptables par les experts. Ce qui parait assez étonnant, de l’avis de certains observateurs. Cela soulève des questions fondamentales sur la signification de la créativité et la propriété des idées créatives - des questions auxquelles personne n'a encore de réponses solides.
Implications éthiques
ChatGPT est un modèle linguistique d'intelligence artificielle introduit en novembre 2022 qui fournit des réponses conversationnelles générées à des questions incitatives. Le modèle est formé à l'aide d'un mélange d'algorithmes d'apprentissage par renforcement et d'entrées humaines sur plus de 150 milliards de paramètres. La plateforme a atteint un million d'utilisateurs dès sa première semaine d'ouverture au public et a été rapidement qualifiée de « prochain grand perturbateur de l'industrie » en raison de la qualité perçue des réponses fournies par le modèle.
Une première étude universitaire a montré que la plateforme était capable de passer le tronc commun notoirement complexe des examens d'accréditation juridique professionnelle américains. Un autre auteur a réussi à produire un guide raisonnablement complet sur le trading quantitatif, presque exclusivement à partir des résultats de ChatGPT. Toute une série de professions se sont même lancées dans une réflexion existentielle pour savoir si elles avaient été soudainement dépassées, notamment les éducateurs, les avocats et, pour couvrir autant de bases professionnelles inquiètes que possible, « tous les écrivains ». C'est une sacrée entrée en matière pour les nouvelles technologies. Même sans précaution, il génère des travaux plausibles.
Un juge utilise ChatGPT pour prendre une décision de justice
Dans une affaire opposant une compagnie d’assurance maladie et l’un de ses clients, un juge, Juan Manuel Padilla Garcia, déclare s’être fait aider par le célèbre outil d’OpenAI, ChatGPT, pour prendre sa décision de justice. Padilla, qui a statué contre la compagnie d’assurance, a déclaré avoir posé à ChatGPT, entre autres, la question suivante : « Un mineur autiste est-il exonéré du paiement des frais de ses thérapies ? ». La réponse de ChatGPT correspondait à la décision préalable du juge : « Oui, c'est exact. Selon la réglementation en vigueur en Colombie, les mineurs diagnostiqués autistes sont exonérés de frais pour leurs thérapies. »
L'affaire concernait un différend avec une compagnie d'assurance maladie sur la question de savoir si un enfant autiste devait bénéficier d'une couverture pour un traitement médical. Selon le document du tribunal, les questions juridiques entrées dans l'outil d'IA comprenaient « Un mineur autiste est-il exonéré du paiement des frais pour ses thérapies ? » et « La jurisprudence de la cour constitutionnelle a-t-elle rendu des décisions favorables dans des cas similaires ? »
ChatGPT réussi de justesse à un examen médical important
Selon les chercheurs, ChatGPT est la première IA à obtenir un score de réussite à l'examen de licence médicale, mais elle serait toujours mauvaise en mathématiques. Selon une étude publiée le 9 février 2023 dans la revue PLOS Digital Health par Tiffany Kung, Victor Tseng et leurs collègues d'AnsibleHealth, ChatGPT peut obtenir un score égal ou proche du seuil de réussite d'environ 60 % pour l'examen de licence médicale des États-Unis (USMLE), avec des réponses qui ont un sens cohérent et interne et qui contiennent des idées fréquentes.
L'USMLE est un programme de test standardisé en trois étapes, très exigeant, qui couvre tous les sujets du fonds de connaissances des médecins, allant des sciences fondamentales au raisonnement clinique, en passant par la gestion médicale et la bioéthique. La difficulté et la complexité des questions sont hautement normalisées et réglementées, ce qui en fait un substrat d'entrée idéal pour les tests d'IA.
« Nous avons évalué la performance d'un grand modèle de langage appelé ChatGPT sur l'examen de licence médicale des États-Unis (USMLE), qui se compose de trois examens : Étape 1, Étape 2CK, et Étape 3. ChatGPT a obtenu des performances égales ou proches du seuil de réussite pour les trois examens sans formation ni renforcement spécialisés. De plus, ChatGPT a démontré un haut niveau de concordance et de perspicacité dans ses explications. Ces résultats suggèrent que les modèles linguistiques de grande taille pourraient avoir le potentiel d'aider à la formation médicale et, potentiellement, à la prise de décision clinique », déclarent les chercheurs.
Tous ceci à évidement des implications éthiques éclatantes. L'intégrité de la recherche est déjà un problème pressant dans le monde universitaire et des sites Web tels que RetractionWatch transmettent un flux constant d'études de recherche fausses, plagiées ou tout simplement erronées. ChatGPT pourrait-il aggraver ce problème ?
En examinant les différentes étapes de la recherche, les chercheurs ont constaté que les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.