L'un des principaux objectifs de l'intelligence artificielle est de construire des machines qui pensent comme des êtres humains. Pourtant, d'aucuns affirment que les architectures de réseaux neuronaux profonds n'y parviennent pas. Les chercheurs ont affirmé les limites de ces modèles dans les domaines du raisonnement causal, de la physique intuitive et de la psychologie intuitive. Pourtant, des avancées récentes, à savoir la montée en puissance des grands modèles de langage, en particulier ceux conçus pour le traitement visuel, ont ravivé l'intérêt pour la possibilité d'émuler des capacités cognitives semblables à celles de l'homme. Cet article évalue l'état actuel des grands modèles de langage basés sur la vision dans les domaines de la physique intuitive, du raisonnement causal et de la psychologie intuitive. Grâce à une série d'expériences contrôlées, il a été étudié dans quelle mesure ces modèles modernes permettent d'appréhender des interactions physiques complexes, des relations causales et la compréhension intuitive des préférences d'autrui. Les résultats de cette étude révèlent que, bien que ces modèles fassent preuve d'une compétence notable dans le traitement et l'interprétation des données visuelles, ils restent en deçà des capacités humaines dans ces domaines. Les modèles font preuve d'une compréhension rudimentaire des lois physiques et des relations de cause à effet, mais leurs performances sont entravées par un manque de compréhension plus profonde - un aspect clé de la cognition humaine. En outre, dans les tâches nécessitant une théorie intuitive de l'esprit, les modèles échouent complètement. Les résultats soulignent également la nécessité d'intégrer des mécanismes plus robustes de compréhension de la causalité, de la dynamique physique et de la cognition sociale dans les modèles de langage modernes basés sur la vision, et soulignent l'importance des points de référence inspirés par la cognition.
Les conclusions des chercheurs ayant conduit l'étude sont présentées ci-dessous :
Discussion
Nous avons commencé par nous demander si, avec l'essor des grands modèles de langage modernes, les chercheurs ont créé des machines qui - au moins dans une certaine mesure - pensent comme des personnes. Pour répondre à cette question, nous avons pris quatre grands modèles de langage multimodaux récents et sondé leurs capacités dans trois domaines cognitifs fondamentaux : la physique intuitive, le raisonnement causal et la psychologie intuitive.
Dans le domaine de la physique intuitive, les modèles ont réussi à résoudre certaines des tâches données et ont montré une correspondance moyenne avec les données humaines. De même, dans une tâche de raisonnement causal, certains modèles, en particulier le GPT-4V, ont obtenu de bons résultats et une correspondance moyenne avec les données humaines. Enfin, dans une tâche de psychologie intuitive, aucun des modèles n'a obtenu de bons résultats et aucun d'entre eux n'a montré une correspondance raisonnable avec les données humaines. Ainsi, une réponse appropriée à la question qui motive notre travail serait "Non", ou - de manière peut-être plus optimiste - "Pas tout à fait".
Conclusion
L'un des principaux rebondissements de "Der Sandmann" d'E.T.A Hoffmann est que Nathaniel était peut-être lui-même une machine, ce qui explique pourquoi il est tombé amoureux d'Olimpia. Cette métaphore est également liée à notre anthropomorphisation des LLM : étant donné que les LLM sont formés sur des données générées par des humains, leurs comportements refléteront toujours nos comportements et nos préjugés. Toutefois, cette réflexion s'affine et les architectures modernes des réseaux neuronaux ressemblent de plus en plus à l'homme. L'un des autres domaines mis en avant par Lake et al. était la capacité à raisonner par composition. Des tentatives récentes ont montré que les réseaux neuronaux peuvent effectuer un raisonnement compositionnel s'ils sont formés de manière appropriée. De même, notre travail actuel a montré que les LLM multimodaux ont beaucoup progressé, montrant une certaine correspondance avec le comportement humain et obtenant souvent des résultats supérieurs au hasard. En outre, les chercheurs en apprentissage automatique ont avancé diverses idées sur la manière de combler le fossé qui subsiste entre les humains et les machines, notamment l'apprentissage auto-supervisé, la traduction de langages naturels en langages probabilistes ou l'ancrage des LLM dans des environnements réalistes. Cette évolution continue des capacités des modèles nécessite une réévaluation des métaphores et des outils que nous utilisons pour les comprendre. Nous pensons que les sciences cognitives peuvent offrir des outils, des théories et des repères pour évaluer dans quelle mesure nous sommes parvenus à construire des machines qui pensent comme des êtres humains.
Nous avons commencé par nous demander si, avec l'essor des grands modèles de langage modernes, les chercheurs ont créé des machines qui - au moins dans une certaine mesure - pensent comme des personnes. Pour répondre à cette question, nous avons pris quatre grands modèles de langage multimodaux récents et sondé leurs capacités dans trois domaines cognitifs fondamentaux : la physique intuitive, le raisonnement causal et la psychologie intuitive.
Dans le domaine de la physique intuitive, les modèles ont réussi à résoudre certaines des tâches données et ont montré une correspondance moyenne avec les données humaines. De même, dans une tâche de raisonnement causal, certains modèles, en particulier le GPT-4V, ont obtenu de bons résultats et une correspondance moyenne avec les données humaines. Enfin, dans une tâche de psychologie intuitive, aucun des modèles n'a obtenu de bons résultats et aucun d'entre eux n'a montré une correspondance raisonnable avec les données humaines. Ainsi, une réponse appropriée à la question qui motive notre travail serait "Non", ou - de manière peut-être plus optimiste - "Pas tout à fait".
Conclusion
L'un des principaux rebondissements de "Der Sandmann" d'E.T.A Hoffmann est que Nathaniel était peut-être lui-même une machine, ce qui explique pourquoi il est tombé amoureux d'Olimpia. Cette métaphore est également liée à notre anthropomorphisation des LLM : étant donné que les LLM sont formés sur des données générées par des humains, leurs comportements refléteront toujours nos comportements et nos préjugés. Toutefois, cette réflexion s'affine et les architectures modernes des réseaux neuronaux ressemblent de plus en plus à l'homme. L'un des autres domaines mis en avant par Lake et al. était la capacité à raisonner par composition. Des tentatives récentes ont montré que les réseaux neuronaux peuvent effectuer un raisonnement compositionnel s'ils sont formés de manière appropriée. De même, notre travail actuel a montré que les LLM multimodaux ont beaucoup progressé, montrant une certaine correspondance avec le comportement humain et obtenant souvent des résultats supérieurs au hasard. En outre, les chercheurs en apprentissage automatique ont avancé diverses idées sur la manière de combler le fossé qui subsiste entre les humains et les machines, notamment l'apprentissage auto-supervisé, la traduction de langages naturels en langages probabilistes ou l'ancrage des LLM dans des environnements réalistes. Cette évolution continue des capacités des modèles nécessite une réévaluation des métaphores et des outils que nous utilisons pour les comprendre. Nous pensons que les sciences cognitives peuvent offrir des outils, des théories et des repères pour évaluer dans quelle mesure nous sommes parvenus à construire des machines qui pensent comme des êtres humains.
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous que les conclusions de cette étude scientifique sont crédibles ou pertinentes ?
L'étude suggère que les modèles actuels présentent une compréhension rudimentaire des lois physiques et des relations de cause à effet, mais qu'ils manquent de connaissances plus profondes essentielles à la cognition humaine. Pensez-vous que les prochaines générations de LLM seront capables de surmonter ces limitations ?
Voir aussi
Les grands modèles de langage (LLM) sont désormais capables d'ignorer des informations non pertinentes grâce à la nouvelle technique "System 2 Attention" (S2A) introduite par Meta
Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind, l'autocorrection pourrait même nuire aux performances de ces modèles
Les capacités émergentes dans les grands modèles linguistiques ne sont-elles qu'un apprentissage en contexte ? Aucune preuve de capacités émergentes de raisonnement dans les LLM, selon une étude