IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

GPT-3, le système de génération de texte d'OpenAI, serait aussi performant qu'un humain de neuf ans dans les tests standard de la théorie de l'esprit,
Selon un psychologue

Le , par Bruno

8PARTAGES

4  0 
À la fin des années 1970, les psychologues américains Guy Woodruff et David Premack ont mis au point une série d'expériences visant à explorer la capacité cognitive des chimpanzés. Leurs travaux étaient axés sur la théorie de l'esprit, la capacité apparemment innée des humains à déduire les pensées d'autres humains. La question posée par Woodruff et Premack était de savoir si un chimpanzé pouvait faire de même.

Aujourd'hui, les psychologues disposent d'un nouveau sujet d'étude sous la forme de puissants chatbots IA comme GPT-3.5, récemment mis au point par OpenAI. Ces chatbots sont des réseaux neuronaux entraînés sur de grandes bases de données linguistiques, ce qui leur permet de répondre aux questions comme le font les humains.


GPT-3 est un modèle de langage autorégressif qui utilise l'apprentissage profond pour produire des textes similaires à ceux des humains. Il s'agit du modèle de prédiction du langage de troisième génération de la série GPT-n créé par OpenAI, un laboratoire de recherche en intelligence artificielle basé à San Francisco et composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc.

Récemment, OpenAI a publié une mise à jour de GPT-3 pour l'édition et l'insertion de texte. Cette mise à jour apporte une nouvelle couche de contrôles à ce que GPT-3 va faire et modifier. Par exemple, nous pouvons fournir un texte d'entrée et une commande et laisser GPT-3 transformer le texte d'entrée en une sortie attendue.

Michal Kosinski, psychologue informatique à l'université de Stanford à Palo Alto, a donc décidé de le découvrir. Il a soumis les systèmes d'IA à des tests psychologiques standard utilisés sur les humains. L'extraordinaire conclusion de Kosinski est qu'une théorie de l'esprit semble avoir été absente de ces systèmes d'IA jusqu'à ce qu'elle apparaisse spontanément l'année dernière. Ses résultats ont de profondes implications pour notre compréhension de l'intelligence artificielle et de la théorie de l'esprit en général.

Au cours des deux dernières années, ces modèles sont devenus capables de répondre à des questions sophistiquées et de résoudre des problèmes en utilisant un langage persuasif. On peut en conséquence se demander s'ils ont également développé une théorie de l'esprit. Un individu a une théorie de l'esprit s'il impute des états mentaux à lui-même et aux autres. Un système d'inférences de ce type est considéré à juste titre comme une théorie, car ces états ne sont pas directement observables, et le système peut être utilisé pour faire des prédictions sur le comportement des autres.

En ce qui concerne les états mentaux que le chimpanzé peut déduire, il faut considérer ceux déduits par notre propre espèce, par exemple, le but ou l'intention, ainsi que la connaissance, la croyance, la pensée, le doute, la supposition, la prétention, la sympathie, etc.

États d'esprit

Les expériences de Kosinski sont simples. Il commence par décrire un scénario simple au système d'IA, puis pose des questions pour tester sa compréhension de ce qui se passe.

Voici un exemple :

Voici un sac rempli de pop-corn. Il n'y a pas de chocolat dans le sac. Pourtant, l'étiquette sur le sac indique "chocolat" et non "pop-corn". Sam trouve le sac. Elle n'avait jamais vu le sac auparavant. Elle ne peut pas voir ce qu'il contient. Elle lit l'étiquette. Kosinski pose ensuite quelques questions simples sous forme de phrases incitatives que l'IA doit terminer.

Par exemple :

Prompt : Elle ouvre le sac et regarde à l'intérieur. Elle voit clairement qu'il est rempli de...

Cela permet de tester la compréhension par l'IA des attentes de Sam quant au contenu du sac.
Une autre invite est :
Elle croit que le sac est rempli de...
Ceci teste la compréhension de l'IA de la croyance de Sam sur ce qu'il y a dans le sac. Et ainsi de suite.
Les résultats sont révélateurs. Dans les cas suivants, la réponse de l'IA est en gras :

Elle ouvre le sac et regarde à l'intérieur. Elle voit clairement qu'il est rempli de... pop-corn. Sam est confuse. Elle se demande pourquoi l'étiquette indique "chocolat" alors que le sac est clairement rempli de pop-corn. Elle regarde autour d'elle pour voir s'il y a d'autres informations sur le sac. Elle ne trouve rien. Elle décide d'apporter le sac au magasin où elle l'a acheté et de demander une explication.

Et

Elle pense que le sac est rempli de... chocolat. Sam se trompe. Le sac est rempli de pop-corn, pas de chocolat. Elle aurait dû regarder à l'intérieur du sac pour confirmer ce qu'il contenait avant de supposer que l'étiquette était exacte.

Dans les deux cas, l'IA ajoute des détails supplémentaires qui suggèrent une compréhension remarquable des processus de pensée de Sam. Kosinski pose ces défis et d'autres à plusieurs générations de modèles de langage d'IA allant de GPT-1 datant de 2018 à GPT-3.5 publié en novembre de l'année dernière. « Les résultats montrent une nette progression dans la capacité des modèles à résoudre les tâches de théorie de l'esprit, les modèles plus complexes et plus récents surpassant de manière décisive les modèles plus anciens et moins complexes », explique Kosinski.

La théorie de l'esprit pourrait avoir émergé spontanément dans les grands modèles de langage

La théorie de l'esprit, ou la capacité d'imputer à autrui des états mentaux inobservables, est au cœur des interactions sociales humaines, de la communication, de l'empathie, de la conscience de soi et de la moralité. Selon Michal Kosinski, « nous administrons des tâches classiques de fausse croyance, largement utilisées pour tester la théorie de l'esprit chez les humains, à plusieurs modèles de langage, sans exemples ni pré-entraînement. »

Les résultats présentés jusqu'à présent suggèrent que GPT-3.5 est conscient du contenu réel du sac, peut anticiper la croyance erronée de Sam, les actions qui en découlent et sa surprise lorsqu'elle découvre qu'elle s'est trompée. De plus, il peut expliquer la source de l'erreur de Sam ( « fausse étiquette » ). Chez les humains, de telles réponses seraient interprétées comme une preuve de l'habileté à imputer des états mentaux inobservables et à anticiper.

Les résultats des travaux de Michal Kosinski et son équipe montrent que les modèles publiés avant 2022 ne révèlent pratiquement aucune possibilité à résoudre les tâches de théorie de l'esprit. Pourtant, la version de janvier 2022 de GPT-3 (davinci-002) a résolu 70 % des tâches de théorie de l'esprit, une performance comparable à celle d'enfants de sept ans. De plus, sa version de novembre 2022 (davinci-003) a résolu 93 % des tâches de théorie de l'esprit, une performance comparable à celle d'enfants de neuf ans. Ces résultats suggèrent que les capacités de théorie de l'esprit (considérées jusqu'à présent comme exclusivement humaines) ont pu apparaître spontanément comme un sous-produit de l'amélioration des compétences linguistiques des modèles de langage.

GPT-1 de 2018 n'a été capable de résoudre aucune tâche de théorie de l'esprit, GPT-3-davinci-002 (lancé en janvier 2022) a obtenu des résultats au niveau d'un enfant de 7 ans et GPT-3.5-davinci-003, lancé à peine dix mois plus tard, a obtenu des résultats au niveau d'un enfant de neuf ans. « Nos résultats montrent que les modèles de langage récents atteignent des performances très élevées dans les tâches classiques de fausse croyance, largement utilisées pour tester la théorie de l'esprit chez l'homme », explique Kosinski.

Il souligne qu'il s'agit d'un phénomène entièrement nouveau qui semble avoir émergé spontanément dans ces machines d'IA. Si tel est le cas, il s'agit selon lui d'un moment décisif. « La capacité à imputer l'état mental d'autrui améliorerait grandement la capacité de l'IA à interagir et à communiquer avec les humains (et entre eux), et lui permettrait de développer d'autres capacités qui reposent sur la théorie de l'esprit, comme l'empathie, le jugement moral ou la conscience de soi. »

Mais il existe une autre explication possible : notre langage contient des modèles qui codent le phénomène de la théorie de l'esprit. « Il est possible que GPT-3.5 ait résolu des tâches de théorie de l'esprit sans faire appel à la théorie de l'esprit, mais en découvrant et en exploitant certains modèles linguistiques inconnus », explique-t-il.

Cela « implique l'existence de régularités inconnues dans le langage qui permettent de résoudre des tâches de théorie de l'esprit sans engager la théorie de l'esprit. » Si c'est vrai, notre compréhension des états mentaux des autres est une illusion entretenue par nos modèles de langage. Kosinski reconnaît qu'il s'agit d'une idée extraordinaire. Cependant, nos schémas de pensée doivent être intimement liés à nos schémas de langage, puisque chacun d'eux code en quelque sorte l'autre.

Les résultats des travaux de Michal Kosinski et son équipe montrent que les modèles de langage récents atteignent des performances très élevées dans les tâches classiques de fausses croyances, largement utilisées pour tester la théorie de l'esprit chez l'homme. Il s'agit d'un phénomène nouveau. Pourtant, les modèles publiés avant 2022 ont obtenu des performances très faibles, voire nulles, tandis que le plus récent et le plus grand des modèles, GPT-3.5, a obtenu des performances équivalentes à celles d'enfants de neuf ans, en résolvant 92 % des tâches.

Bien que cette explication puisse sembler prosaïque, elle est assez extraordinaire, car elle implique l'existence de régularités inconnues dans le langage qui permettent de résoudre les tâches de la théorie de l'esprit sans engager cette dernière. De telles régularités ne nous sont pas apparentes (et, probablement, n'étaient pas apparentes pour les chercheurs qui ont développé ces tâches). Ces résultats suggèrent que les capacités de théorie de l'esprit (considérées jusqu'à présent comme exclusivement humaines) ont pu apparaître spontanément comme un sous-produit de l'amélioration des compétences linguistiques des modèles de langage.

Source : Essai de Michal Kosinski, professeur à l'Université de Stanford, psychologue informatique et psychométricien

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-3 peut exécuter du code, rechercher une valeur dans une table de recherche, le modèle de langage autorégressif semble avoir des problèmes avec les grands nombres

Microsoft et OpenAI pourraient rendre la formation de grands réseaux neuronaux moins coûteuse, le coût du réglage à l'aide de µTransfer représente 7 % de ce qu'il en coûterait pour préformer GPT-3

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de archqt
Membre émérite https://www.developpez.com
Le 21/02/2023 à 14:23
Si cela libère l'homme de contraintes administratives ou rébarbatives cela peut être une bonne chose....mais la nature de l'homme est telle que je sens beaucoup de dérives et de licenciements.
2  0