Un grand modèle de langage (LLM) est un type de modèle informatique conçu pour des tâches de traitement du langage naturel telles que la génération de langage. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé. Les modèles modernes peuvent être affinés pour des tâches spécifiques ou être guidés par l'ingénierie d'aide.
Selon une nouvelle étude, les grands modèles de langage (LLM) de l'IA peuvent prédire les résultats d'études neuroscientifiques avec plus de précision que les experts humains. Des chercheurs de l'University College London (UCL) ont découvert que les LLM formés sur de vastes ensembles de données textuelles peuvent distiller des modèles à partir de la littérature scientifique, ce qui leur permet de prévoir les résultats scientifiques avec une grande précision.
Selon l'équipe impliquée, ces résultats mettent en évidence le potentiel du LLM en tant qu'outil puissant d'accélération de la recherche, allant bien au-delà de la simple recherche de connaissances. L'étude a consisté à tester 15 modèles de langage généraux différents et 171 experts humains en neurosciences, qui avaient tous passé un test de sélection pour confirmer leur expertise. La question était de savoir si l'IA ou l'homme pouvait déterminer correctement lequel des deux résumés appariés était le vrai, avec les résultats réels de l'étude.
Concernant les résultats, les chercheurs d'UCL ont déclaré : "Tous les LLM ont surpassé les neuroscientifiques, avec une précision moyenne de 81 % pour les LLM et de 63 % pour les humains. Même lorsque l'équipe de l'étude a limité les réponses humaines aux personnes ayant le plus haut degré d'expertise dans un domaine donné des neurosciences (sur la base de l'expertise auto-déclarée), la précision des neuroscientifiques est restée inférieure à celle des LLM, à 66 %. En outre, les chercheurs ont constaté que lorsque les LLM étaient plus confiants dans leurs décisions, elles étaient plus susceptibles d'être correctes."
Les chercheurs ont ensuite poussé l'étude plus loin en adaptant une version de Mistral (une IA générative française) en l'entraînant spécifiquement sur la littérature neuroscientifique. Cette nouvelle version s'est avérée encore plus performante pour prédire les résultats des études, avec un taux d'exactitude de 86 %.
L'auteur principal, le professeur Bradley Love (UCL Psychology & Language Sciences), a déclaré : "À la lumière de nos résultats, nous pensons que les scientifiques ne tarderont pas à utiliser des outils d'IA pour concevoir l'expérience la plus efficace pour leur question. Bien que notre étude se soit concentrée sur les neurosciences, notre approche est universelle et devrait être appliquée avec succès à l'ensemble des sciences."
Ajoutant : "Ce qui est remarquable, c'est la capacité des LLM à prédire la littérature neuroscientifique. Ce succès suggère qu'une grande partie de la science n'est pas vraiment nouvelle, mais se conforme à des modèles de résultats existants dans la littérature. Nous nous demandons si les scientifiques sont suffisamment novateurs et explorateurs".
Voici le communiqué des chercheurs de l'UCL concernant leurs découvertes :
L'IA peut prédire les résultats d'une étude mieux que les experts humains
Une nouvelle étude menée par des chercheurs de l'UCL révèle que les grands modèles de langage, un type d'intelligence artificielle qui analyse le texte, peuvent prédire les résultats des études neuroscientifiques proposées avec plus de précision que les experts humains.
Les résultats, publiés dans Nature Human Behaviour, démontrent que les grands modèles de langage (LLM) formés sur de vastes ensembles de données textuelles peuvent extraire des modèles de la littérature scientifique, ce qui leur permet de prévoir les résultats scientifiques avec une précision surhumaine.
Les chercheurs affirment que cela met en évidence leur potentiel en tant qu'outils puissants d'accélération de la recherche, allant bien au-delà de la simple recherche de connaissances.
L'auteur principal, le Dr Ken Luo (UCL Psychology & Language Sciences), a déclaré : "Depuis l'avènement de l'IA générative comme ChatGPT, de nombreuses recherches se sont concentrées sur les capacités de réponse aux questions des LLM, mettant en évidence leur remarquable aptitude à résumer des connaissances à partir de nombreuses données de formation. Cependant, plutôt que de mettre l'accent sur leur capacité rétrospective à récupérer des informations passées, nous avons cherché à savoir si les LLM pouvaient synthétiser des connaissances pour prédire des résultats futurs."
"Le progrès scientifique repose souvent sur des essais et des erreurs, mais chaque expérience méticuleuse exige du temps et des ressources. Même les chercheurs les plus compétents peuvent négliger des aspects essentiels de la littérature. Notre travail vise à déterminer si les MFR peuvent identifier des modèles dans de vastes textes scientifiques et prévoir les résultats d'expériences."
L'équipe de recherche internationale a commencé son étude en développant BrainBench, un outil permettant d'évaluer la capacité des grands modèles de langage (LLM) à prédire les résultats des neurosciences.
BrainBench consiste en de nombreuses paires de résumés d'études neuroscientifiques. Dans chaque paire, une version est un véritable résumé d'étude qui décrit brièvement le contexte de la recherche, les méthodes utilisées et les résultats de l'étude. Dans l'autre version, le contexte et les méthodes sont les mêmes, mais les résultats ont été modifiés par des experts du domaine neuroscientifique concerné pour obtenir un résultat plausible mais incorrect.
Les chercheurs ont testé 15 LLM différents et 171 experts humains en neurosciences (qui avaient tous passé un test de sélection pour confirmer leur expertise) pour voir si l'IA ou la personne pouvait déterminer correctement lequel des deux résumés appariés était le vrai, avec les résultats réels de l'étude.
Tous les LLM ont surpassé les neuroscientifiques, avec une précision moyenne de 81 % pour les LLM et de 63 % pour les humains. Même lorsque l'équipe chargée de l'étude a limité les réponses humaines aux personnes ayant le plus haut degré d'expertise dans un domaine donné des neurosciences (sur la base de l'expertise déclarée), la précision des neuroscientifiques est restée inférieure à celle des LLM, soit 66 %. En outre, les chercheurs ont constaté que lorsque les LLM étaient plus confiants dans leurs décisions, ils avaient plus de chances d'être corrects. Les chercheurs affirment que cette découverte ouvre la voie à un avenir où les experts humains pourraient collaborer avec des modèles bien calibrés.
Les chercheurs ont ensuite adapté un LLM existant (une version de Mistral, un LLM à code source ouvert) en le formant spécifiquement à la littérature neuroscientifique. Le nouveau LLM spécialisé dans les neurosciences, qu'ils ont baptisé BrainGPT, s'est avéré encore plus performant pour prédire les résultats des études, atteignant une précision de 86 % (une amélioration par rapport à la version polyvalente de Mistral, dont la précision était de 83 %).
L'auteur principal, le professeur Bradley Love (UCL Psychology & Language Sciences), a déclaré : "À la lumière de nos résultats, nous pensons que les scientifiques ne tarderont pas à utiliser des outils d'IA pour concevoir l'expérience la plus efficace pour leur question. Bien que notre étude se soit concentrée sur les neurosciences, notre approche est universelle et devrait s'appliquer avec succès à l'ensemble des sciences."
"Ce qui est remarquable, c'est la capacité des LLM à prédire la littérature neuroscientifique. Ce succès suggère qu'une grande partie de la science n'est pas vraiment nouvelle, mais se conforme à des modèles de résultats existants dans la littérature. Nous nous demandons si les scientifiques sont suffisamment novateurs et explorateurs."
le Dr Ken Luo a ajouté : "Sur la base de nos résultats, nous développons des outils d'IA pour aider les chercheurs. Nous envisageons un avenir où les chercheurs pourront saisir les plans d'expérience qu'ils proposent et les résultats qu'ils anticipent, l'IA leur fournissant des prédictions sur la probabilité des différents résultats. Cela permettrait une itération plus rapide et une prise de décision plus éclairée dans la conception de l'expérience."
L'étude a été soutenue par l'Economic and Social Research Council (ESRC), Microsoft et une bourse Wolfson de la Royal Society. Des chercheurs de l'UCL, de l'université de Cambridge, de l'université d'Oxford, du Max Planck Institute for Neurobiology of Behavior (Allemagne), de l'université Bilkent (Turquie) et d'autres institutions du Royaume-Uni, des États-Unis, de Suisse, de Russie, d'Allemagne, de Belgique, du Danemark, du Canada, d'Espagne et d'Australie ont participé à cette étude.
Une nouvelle étude menée par des chercheurs de l'UCL révèle que les grands modèles de langage, un type d'intelligence artificielle qui analyse le texte, peuvent prédire les résultats des études neuroscientifiques proposées avec plus de précision que les experts humains.
Les résultats, publiés dans Nature Human Behaviour, démontrent que les grands modèles de langage (LLM) formés sur de vastes ensembles de données textuelles peuvent extraire des modèles de la littérature scientifique, ce qui leur permet de prévoir les résultats scientifiques avec une précision surhumaine.
Les chercheurs affirment que cela met en évidence leur potentiel en tant qu'outils puissants d'accélération de la recherche, allant bien au-delà de la simple recherche de connaissances.
L'auteur principal, le Dr Ken Luo (UCL Psychology & Language Sciences), a déclaré : "Depuis l'avènement de l'IA générative comme ChatGPT, de nombreuses recherches se sont concentrées sur les capacités de réponse aux questions des LLM, mettant en évidence leur remarquable aptitude à résumer des connaissances à partir de nombreuses données de formation. Cependant, plutôt que de mettre l'accent sur leur capacité rétrospective à récupérer des informations passées, nous avons cherché à savoir si les LLM pouvaient synthétiser des connaissances pour prédire des résultats futurs."
"Le progrès scientifique repose souvent sur des essais et des erreurs, mais chaque expérience méticuleuse exige du temps et des ressources. Même les chercheurs les plus compétents peuvent négliger des aspects essentiels de la littérature. Notre travail vise à déterminer si les MFR peuvent identifier des modèles dans de vastes textes scientifiques et prévoir les résultats d'expériences."
L'équipe de recherche internationale a commencé son étude en développant BrainBench, un outil permettant d'évaluer la capacité des grands modèles de langage (LLM) à prédire les résultats des neurosciences.
BrainBench consiste en de nombreuses paires de résumés d'études neuroscientifiques. Dans chaque paire, une version est un véritable résumé d'étude qui décrit brièvement le contexte de la recherche, les méthodes utilisées et les résultats de l'étude. Dans l'autre version, le contexte et les méthodes sont les mêmes, mais les résultats ont été modifiés par des experts du domaine neuroscientifique concerné pour obtenir un résultat plausible mais incorrect.
Les chercheurs ont testé 15 LLM différents et 171 experts humains en neurosciences (qui avaient tous passé un test de sélection pour confirmer leur expertise) pour voir si l'IA ou la personne pouvait déterminer correctement lequel des deux résumés appariés était le vrai, avec les résultats réels de l'étude.
Tous les LLM ont surpassé les neuroscientifiques, avec une précision moyenne de 81 % pour les LLM et de 63 % pour les humains. Même lorsque l'équipe chargée de l'étude a limité les réponses humaines aux personnes ayant le plus haut degré d'expertise dans un domaine donné des neurosciences (sur la base de l'expertise déclarée), la précision des neuroscientifiques est restée inférieure à celle des LLM, soit 66 %. En outre, les chercheurs ont constaté que lorsque les LLM étaient plus confiants dans leurs décisions, ils avaient plus de chances d'être corrects. Les chercheurs affirment que cette découverte ouvre la voie à un avenir où les experts humains pourraient collaborer avec des modèles bien calibrés.
Les chercheurs ont ensuite adapté un LLM existant (une version de Mistral, un LLM à code source ouvert) en le formant spécifiquement à la littérature neuroscientifique. Le nouveau LLM spécialisé dans les neurosciences, qu'ils ont baptisé BrainGPT, s'est avéré encore plus performant pour prédire les résultats des études, atteignant une précision de 86 % (une amélioration par rapport à la version polyvalente de Mistral, dont la précision était de 83 %).
L'auteur principal, le professeur Bradley Love (UCL Psychology & Language Sciences), a déclaré : "À la lumière de nos résultats, nous pensons que les scientifiques ne tarderont pas à utiliser des outils d'IA pour concevoir l'expérience la plus efficace pour leur question. Bien que notre étude se soit concentrée sur les neurosciences, notre approche est universelle et devrait s'appliquer avec succès à l'ensemble des sciences."
"Ce qui est remarquable, c'est la capacité des LLM à prédire la littérature neuroscientifique. Ce succès suggère qu'une grande partie de la science n'est pas vraiment nouvelle, mais se conforme à des modèles de résultats existants dans la littérature. Nous nous demandons si les scientifiques sont suffisamment novateurs et explorateurs."
le Dr Ken Luo a ajouté : "Sur la base de nos résultats, nous développons des outils d'IA pour aider les chercheurs. Nous envisageons un avenir où les chercheurs pourront saisir les plans d'expérience qu'ils proposent et les résultats qu'ils anticipent, l'IA leur fournissant des prédictions sur la probabilité des différents résultats. Cela permettrait une itération plus rapide et une prise de décision plus éclairée dans la conception de l'expérience."
L'étude a été soutenue par l'Economic and Social Research Council (ESRC), Microsoft et une bourse Wolfson de la Royal Society. Des chercheurs de l'UCL, de l'université de Cambridge, de l'université d'Oxford, du Max Planck Institute for Neurobiology of Behavior (Allemagne), de l'université Bilkent (Turquie) et d'autres institutions du Royaume-Uni, des États-Unis, de Suisse, de Russie, d'Allemagne, de Belgique, du Danemark, du Canada, d'Espagne et d'Australie ont participé à cette étude.
Présentation de BrainBench
Source : University College London (UCL)
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis le sujet ?
Voir aussi :
ChatGPT surpasse les médecins dans le diagnostic des maladies, une étude révèle que ChatGPT surpasse les praticiens, même lorsqu'ils utilisent un chatbot pour évaluer des cas médicaux
L'IA a surpassé l'homme dans un certain nombre de tâches et la vitesse à laquelle l'homme est surpassé dans de nouvelles tâches augmente : Un défi pour notre identité et notre avenir collectif ?
AMIE, l'IA de Google, serait plus à l'aise au chevet des patients que les médecins humains et pose de meilleurs diagnostics, offrant une amélioration potentielle des soins médicaux