ChatGPT n'est pas doué pour résumer des articles scientifiques, car les modèles LLM « ont tendance à sacrifier la précision au profit de la simplicité » lorsqu'ils rédigent des résumés d'actualités

Le 22 septembre 2025 à 12:17, par Alex

74PARTAGES

ChatGPT n'est pas doué pour résumer des articles scientifiques, car les modèles LLM « ont tendance à sacrifier la précision au profit de la simplicité » lorsqu'ils rédigent des résumés d'actualités

Un rapport de l'équipe Science Press Package (SciPak), qui rédige des communiqués de presse pour les journalistes, a révélé les forces et les faiblesses du modèle d'IA générative ChatGPT Plus lorsqu'il est utilisé pour résumer des articles de recherche scientifique et d'autres types d'articles pour le dossier de presse de l'équipe. Après un an d'expériences hebdomadaires, les résultats indiquent que le grand modèle de langage (LLM) peut imiter de manière acceptable la structure d'un communiqué de presse de type SciPak, mais dans une mesure limitée.

Développé par OpenAI, ChatGPT est un chatbot d'intelligence artificielle générative dont on attribue le mérite d'avoir accéléré le boom de l'IA, une période d'investissements rapides et d'attention publique dans le domaine de l'intelligence artificielle (IA). OpenAI est notamment une organisation américaine spécialisée dans l'intelligence artificielle (IA) qui a pour objectif de développer une intelligence artificielle générale (AGI) « sûre et bénéfique », qu'elle définit comme « des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches à forte valeur économique ».

ChatGPT est capable de répondre à des questions, de tenir des conversations, de générer du code informatique, de faire des recherches sur Internet, d'écrire, de traduire ou encore de synthétiser des textes. Il peut le faire en tenant compte du contexte et de contraintes telles que le style d'écriture. Il peut aussi servir d'assistant vocal ou générer des images. En 2023, une étude avait montré que ChatGPT peut générer de faux résumés d'articles de recherche si convaincants que les scientifiques sont souvent incapables de les repérer. Mais les chercheurs sont divisés sur les implications de l'IA.

Récemment, un rapport de l'équipe Science Press Package (SciPak), qui rédige des communiqués de presse pour les journalistes, a révélé les forces et les faiblesses du modèle d'IA générative ChatGPT Plus lorsqu'il est utilisé pour résumer des articles de recherche scientifique et d'autres types d'articles pour le dossier de presse de l'équipe. Après un an d'expériences hebdomadaires, les résultats indiquent que le grand modèle de langage (LLM) peut imiter de manière acceptable la structure d'un communiqué de presse de type SciPak, mais dans une mesure limitée.

Il peut traiter certains éléments techniques de la rédaction scientifique, avec quelques réserves. Cependant, il ne va pas plus loin et ne traite pas le contexte plus large. Il ne peut pas développer les limites ou préciser les nuances d'un article. Par conséquent, ChatGPT Plus peut transcrire les résultats d'une étude de manière adéquate, mais ne peut pas les traduire ; il ne peut pas relier les résultats de l'étude aux connaissances existantes ou aux applications futures.

Lorsque OpenAI a lancé la plateforme d'IA générative ChatGPT il y a près de trois ans, les gens ont commencé à spéculer sur ce que l'arrivée du grand modèle de langage (LLM) signifiait pour de nombreux secteurs créatifs, notamment le journalisme et d'autres domaines de l'écriture. En décembre 2023, le service de presse de Science (et de la famille de revues Science) a décidé d'étudier si ChatGPT Plus pouvait être un outil utile pour aider les rédacteurs (l'équipe Science Press Package, SciPak) à transmettre aux médias des informations sur les articles de recherche à venir.

Ils ont cherché à évaluer si ChatGPT Plus pouvait respecter le style rédactionnel spécifique de SciPak. L'expérience de SciPak visait à répondre à la question suivante : ChatGPT Plus peut-il produire avec succès des communiqués de presse qui imitent le style des rédacteurs SciPak expérimentés ? La référence au style SciPak a permis de préciser le cadre de l'expérience, en la réduisant à une échelle plus petite et en la rendant plus ciblée.

L'équipe SciPak rédige des communiqués de presse pour les journalistes selon une structure narrative standard utilisée par ces derniers, appelée « pyramide inversée ». Cependant, les rédacteurs SciPak suivent une approche légèrement différente pour parvenir à cette structure. La pyramide inversée place les informations les plus cruciales au début du communiqué de presse, suivies des détails complémentaires par ordre décroissant d'importance. De nombreux rédacteurs scientifiques utilisent cette structure et l'assemblent de différentes manières.

Les rédacteurs de SciPak déconstruisent d'abord la pyramide inversée, en utilisant un plan fondamental appelé « 5 bits ». Ils identifient la prémisse de l'étude. Ensuite, ils abordent ses méthodes et son contexte. L'équipe ne rédige les premières phrases cruciales du communiqué qu'après avoir assemblé le reste. Cela aide à comprendre les subtilités de l'étude et à éviter toute déformation de l'information dans la première phrase.

La conception expérimentale exigeait la sélection hebdomadaire (pendant un an) de deux articles (de recherche ou de commentaire) déjà publiés dans la famille de revues Science (Science, Science Advances, Science Robotics, Science Translational Medicine, Science Immunology et Science Signaling). Ces candidats aux résumés générés par ChatGPT Plus devaient répondre à l'un des critères suivants : traiter d'un sujet controversé, présenter un contenu technique avec un niveau élevé de jargon ou adopter un format non traditionnel tel que celui d'un forum politique.

Ils ont demandé à ChatGPT Plus de rédiger trois résumés pour chaque article à partir de trois consignes. L'une d'elles demandait un résumé rédigé de manière accessible à un public général (non expert) ; une autre demandait un résumé rédigé dans un langage précis (similaire à celui utilisé dans les articles évalués par des pairs) ; et la dernière demandait un résumé rédigé comme par un journaliste professionnel.

Chaque résumé rédigé par ChatGPT a ensuite été révisé par le rédacteur de SciPak qui avait rédigé le précédent communiqué de presse. Les rédacteurs ont répondu à un questionnaire quantitatif et qualitatif sur les performances du LLM. Cette expérience présentait certes des limites. Elle reposait notamment sur des évaluations humaines du texte généré par Chat GPT et ne tenait pas compte des biais humains.

Les résultats ont été mitigés. Le LLM a effectivement résumé les résultats scientifiques dans un langage accessible aux non-spécialistes (en évitant les termes techniques et le jargon, par exemple). Il a également résumé efficacement le contenu des commentaires, tels que les forums politiques de Science, pour un public profane. Cependant, il avait tendance à sacrifier la précision au profit de la simplicité. Les résumés de ChatGPT Plus ont nécessité une vérification rigoureuse des faits par les rédacteurs de SciPak.

De plus, il a fallu procéder à de nombreuses modifications pour corriger les hyperboles. Par exemple, ChatGPT Plus avait tendance à utiliser le mot « révolutionnaire ». Il avait également du mal à mettre en évidence plusieurs résultats issus d'études à multiples facettes. Lorsqu'on lui a demandé de résumer deux articles à la fois, il n'a pu couvrir que le premier des deux soumis. Il a finalement recouru au jargon lorsqu'il a été confronté à des recherches particulièrement denses en informations, en détails et en complexité.

La conclusion de cette expérience est que ChatGPT Plus ne répondait pas aux normes de SciPak. Ces technologies peuvent avoir un potentiel en tant qu'outils utiles pour les rédacteurs scientifiques, mais elles ne sont pas encore prêtes à être utilisées par l'équipe SciPak.

Des limites que différentes études avaient déjà soulignées. En mai, une étude a montré que les modèles d'IA hallucinent de plus en plus malgré l'amélioration de la technologie sous-jacente. Il s'agit là d'une vérité gênante, alors que les utilisateurs continuent d'affluer vers les chatbots d'IA comme ChatGPT, qu'ils utilisent pour un éventail croissant de tâches. En laissant les chatbots débiter des affirmations erronées, toutes ces personnes risquent d'être induites en erreur, ce qui les expose à des dangers. De plus, les éditeurs de modèles d'IA ne comprennent pas pleinement les raisons pour lesquelles le taux d'hallucination augmente. Selon une étude publiée l'année dernière, les modèles d'IA vont toujours halluciner et il va falloir s'en accommoder.

Source : "ChatGPT Plus: Strengths and weaknesses in science writing"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les chercheurs avertissent que les industries de l'IA sont en train de submerger la science d'études inutiles, face à l'explosion des publications automatisées basées sur des données comme la NHANES

Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude

Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots

Vous avez lu gratuitement 260 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

ChatGPT n'est pas doué pour résumer des articles scientifiques, car les modèles LLM « ont tendance à sacrifier la précision au profit de la simplicité » lorsqu'ils rédigent des résumés d'actualités

Identifiant
Mot de passe

Mot de passe oublié ?