GPT-3 l’outil d’IA crée par OpenAI a réussi à résoudre des problèmes en utilisant l’analogie, surpassant même un groupe d’étudiants de premier cycle dans certains tests. OpenAI a publié une liste impressionnante d’évaluations professionnelles et académiques que son successeur, GPT-4, aurait réussies, y compris quelques douzaines de tests de lycée et l’examen du barreau. De nombreux chercheurs affirment que les grands modèles de langage peuvent réussir des tests conçus pour identifier certaines capacités cognitives chez l’homme, du raisonnement en chaîne à la théorie de l’esprit. Cependant, il n’y a pas d’accord sur la signification réelle de ces résultats. Certains sont éblouis par ce qu’ils considèrent comme des lueurs d’intelligence humaine, d'autres ne sont pas du tout convaincus.
GPT-3 est un modèle de langage autorégressif qui utilise l'apprentissage profond pour produire des textes similaires à ceux des humains. Il s'agit du modèle de prédiction du langage de troisième génération de la série GPT-n créé par OpenAI, un laboratoire de recherche en intelligence artificielle basé à San Francisco et composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc.
Taylor Webb, psychologue à l'université de Californie, qui étudie les différentes manières dont les personnes et les ordinateurs résolvent des problèmes abstraits a été impressionné par les capacités de GPT-3. Bien que ce ne soit qu’un autocomplétion à l’emporte-pièce, il a pu résoudre de nombreux problèmes abstraits posés par Webb, qui sont similaires à ceux que l’on trouve dans un test de QI.
Les recherches de Webb et de ses collègues ont montré que GPT-3 peut réussir divers tests conçus pour évaluer l’utilisation de l’analogie pour résoudre des problèmes. À certains de ces tests, GPT-3 a obtenu de meilleurs résultats qu’un groupe d’étudiants de premier cycle. Les résultats suggèrent que l’analogie est un élément clé du raisonnement humain et que toute forme d’intelligence artificielle devrait en faire preuve.
Intelligence artificielle : définition, histoire
L'intelligence artificielle (IA) est une vaste branche de l'informatique qui s'intéresse à la construction de machines intelligentes capables d'effectuer des tâches qui requièrent généralement l'intelligence humaine. Bien que l'IA soit une science interdisciplinaire aux approches multiples, les progrès de l'apprentissage automatique et de l'apprentissage profond, en particulier, sont en train de créer un changement de paradigme dans pratiquement tous les secteurs de l'industrie technologique.
L'intelligence artificielle permet aux machines de modéliser, voire d'améliorer, les capacités de l'esprit humain. Du développement des voitures autonomes à la prolifération d'outils d'IA générative tels que ChatGPT et Bard de Google, l'IA fait de plus en plus partie de la vie quotidienne - et c'est un domaine dans lequel les entreprises de tous les secteurs d'activité investissent.
L’histoire de l’intelligence artificielle remonte à 1943, avec la publication de l’article A Logical Calculus of Ideas Immanent in Nervous Activity par Warren McCullough et Walter Pitts. Les scientifiques y présentent le premier modèle mathématique pour la création d’un réseau de neurones.
En 1950, Marvin Minsky et Dean Edmonds créent Snarc, le premier ordinateur à réseau de neurones. La même année, Alan Turing publie le Turing Test qui sert encore aujourd’hui à évaluer les IA. De ce test découlent les fondations de l’intelligence artificielle, de sa vision et de ses objectifs : répliquer ou simuler l’intelligence humaine dans les machines.
Cependant, ce n’est qu’en 1956 que le terme « intelligence artificielle » est prononcé pour la première fois lors de la conférence Dartmouth Summer Research Project on Artificial Intelligence de John McCarthy. Lors de cet événement, les chercheurs présentent les objectifs et la vision de l’IA. Beaucoup considèrent cette conférence comme la véritable naissance de l’intelligence artificielle telle qu’elle est connue.
Les travaux sur l’intelligence artificielle continuent au fil des années. En 1959, Arthur Samuel invente le terme « Machine Learning » en travaillant chez IBM. En 1989, Yann Lecun met au point le premier réseau de neurones capable de reconnaître des chiffres écrits à la main, cette invention sera à l’origine du développement du deep learning.
En 1997, un événement majeur marque l’histoire de l’IA : le système Deep Blue d’IBM triomphe du champion du monde d’échecs Gary Kasparov. Pour la première fois, une machine a vaincu un être humain.
L’émergence de la théorie de l’esprit chez les modèles de langage artificiels
Les modèles de langage (LM) ont connu des progrès remarquables ces dernières années, grâce à l’émergence de grands modèles de langage (LLM) tels que le GPT-3 d’OpenAI et le Palm 2 de Google. Les modèles de langage sont utilisés dans les systèmes d'intelligence artificielle, de traitement du langage naturel (NLP), de compréhension du langage naturel et de génération de langage naturel, en particulier ceux qui effectuent la génération de texte, la traduction automatique et la réponse aux questions.
Les LLM sont des modèles de langage avancés qui traitent des milliards de paramètres de données d’apprentissage et génèrent des textes. Il s'agit de modèles de langage avancés, tels que le GPT-3 d'OpenAI et le Palm 2 de Google, qui traitent des milliards de paramètres de données d'apprentissage et génèrent des textes. Les LLM utilisent également la modélisation du langage pour prédire le mot suivant possible dans une séquence. Le lancement de la troisième génération du modèle de langage pré-entraîné d’Open AI a suscité beaucoup d’enthousiasme et ont réussi des tests impressionnants.
Au cours des deux dernières années, ces modèles sont devenus capables de répondre à des questions sophistiquées et de résoudre des problèmes en utilisant un langage persuasif. On peut en conséquence se demander s'ils ont également développé une théorie de l'esprit. Un individu a une théorie de l'esprit s'il impute des états mentaux à lui-même et aux autres. Un système d'inférences de ce type est considéré à juste titre comme une théorie, car ces états ne sont pas directement observables, et le système peut être utilisé pour faire des prédictions sur le comportement des autres.
Michal Kosinski, psychologue informatique à l'université de Stanford à Palo Alto, a soumis les systèmes d'IA à des tests psychologiques standard utilisés sur les humains. L'extraordinaire conclusion de Kosinski est qu'une théorie de l'esprit semble avoir été absente de ces systèmes d'IA jusqu'à ce qu'elle apparaisse spontanément l'année dernière. Ses résultats ont de profondes implications pour notre compréhension de l'intelligence artificielle et de la théorie de l'esprit en général.
Les résultats des travaux de Michal Kosinski et son équipe montrent que les modèles publiés avant 2022 ne révèlent pratiquement aucune possibilité à résoudre les tâches de théorie de l'esprit. Pourtant, la version de janvier 2022 de GPT-3 (davinci-002) a résolu 70 % des tâches de théorie de l'esprit, une performance comparable à celle d'enfants de sept ans. De plus, sa version de novembre 2022 (davinci-003) a résolu 93 % des tâches de théorie de l'esprit, une performance comparable à celle d'enfants de neuf ans.
Ces résultats suggèrent que les capacités de théorie de l'esprit (considérées jusqu'à présent comme exclusivement humaines) ont pu apparaître spontanément comme un sous-produit de l'amélioration des compétences linguistiques des modèles de langage.
GPT-4, le modèle d’IA qui réussit l’examen du barreau mieux que les humains
Une récente étude a révélé que l’IA est désormais capable de battre la majorité des diplômés en droit à l’examen du barreau, le test difficile de deux jours que les futurs avocats doivent passer pour exercer le droit aux États-Unis. GPT-4, le modèle d’intelligence artificielle amélioré, soutenue par Microsoft, a obtenu un score de 297 à l’examen du barreau lors d’un essai réalisé par deux enseignants de droit et deux employés de la société de technologie juridique Casetext.
Ce résultat place le GPT-4 dans le 90e percentile des candidats à l’examen et est suffisant pour être autorisé à exercer le droit dans la plupart des États, selon les chercheurs. Cependant, la National Conference of Bar Examiners, qui élabore la section des questions à choix multiples, a affirmé dans un communiqué que les avocats disposent de compétences uniques acquises par l’éducation et l’expérience que « l’IA ne peut pas encore égaler ».
Le co-auteur de l’étude, Daniel Martin Katz, professeur au Chicago-Kent College of Law, a déclaré dans une interview qu’il avait été le plus étonné par la capacité du GPT-4 à produire des réponses largement pertinentes et cohérentes pour les essais et les tests de performance. J’ai entendu beaucoup de gens dire : « Il pourrait répondre aux questions à choix multiples, mais il ne répondra jamais aux questions de rédaction », a dit Katz.
L’IA a également réussi d’autres tests standardisés, comme le SAT (Scholastic Assessment Test est un examen qui évalue vos compétences générales verbales en anglais et votre raisonnement mathématique) et le GRE (Graduate Record Examination est un test en anglais créé et géré par l’entreprise ETS. Ce test est requis pour étudier dans la plupart des universités ou graduate schools dans des pays anglophones), mais c’est l’examen du barreau qui a attiré le plus l’attention.
Comme dit précédemment, ces résultats alimentent un battage médiatique qui prédit que les ordinateurs occuperont bientôt les emplois en col blanc, remplaçant les enseignants, les journalistes, les avocats et bien d'autres encore. Geoffrey Hinton, chercheur canadien spécialiste de l'intelligence artificielle et plus particulièrement des réseaux de neurones artificiels a souligné que la capacité apparente du GPT-4 à enchaîner les pensées était l'une des raisons pour lesquelles il était désormais effrayé par la technologie qu'il avait contribué à créer.
L’interprétation des résultats de GPT-4 ne fait pas de consensus
Les avis divergent sur l’interprétation des résultats de GPT-4. Certains sont impressionnés par ce qu’ils voient comme des signes d’intelligence humaine, d’autres restent sceptiques. « Les techniques actuelles d'évaluation des grands modèles de langage posent plusieurs problèmes critiques », explique Natalie Shapira, informaticienne à l'université Bar-Ilan de Ramat Gan, en Israël. « Cela crée l'illusion qu'ils ont des capacités supérieures à ce qui existe réellement. »
C'est pourquoi un nombre croissant de chercheurs - informaticiens, cogniticiens, neuroscientifiques, linguistes - souhaitent revoir la manière dont les grands modèles de langage sont évalués, en appelant à une évaluation plus rigoureuse et plus exhaustive. Certains pensent que la pratique consistant à noter les modèles de langage sur la base de tests humains est erronée et devrait être abandonnée.
« Les gens font passer des tests d'intelligence humaine (tests de QI, etc.) à des machines depuis le tout début de l'IA », explique Melanie Mitchell, chercheuse en intelligence artificielle à l'Institut Santa Fe, au Nouveau-Mexique. « La question qui se pose depuis le début est de savoir ce que signifie un tel test pour une machine. Cela ne signifie pas la même chose que pour un humain ». « Il y a beaucoup d'anthropomorphisme », ajoute-t-elle. « Et cela influence la façon dont nous pensons à ces systèmes et dont nous les testons. »
Selon certains analystes, la plupart des problèmes liés aux tests des grands modèles linguistiques se résument à la question de l'interprétation des résultats. Les espoirs et les craintes suscités par cette technologie étant à leur comble, il est essentiel d’avoir une idée précise de ce que les grands modèles de langage peuvent et ne peuvent pas faire.
Le cabinet d’analystes CCS Insight a prédit que l’IA générative, qui a fait l’objet de nombreux gros titres sur ses promesses et ses pièges, devrait être remise en question l’année prochaine. Les coûts élevés, les risques et la complexité impliqués dans cette technologie remplacent le battage médiatique autour de celle-ci. Ben Wood, analyste en chef chez CCS Insight, a déclaré : « Nous sommes de fervents défenseurs de l'IA, nous pensons qu'elle aura un impact considérable sur l'économie, sur la société en général et sur la productivité ». « Mais le battage médiatique autour de l'IA générative en 2023 a été tellement important que nous pensons qu'il est exagéré et qu'il y a beaucoup d'obstacles à son déploiement. »
Les LLM peuvent-ils comprendre ou simplement répéter ?
Les tests conçues pour les humains, comme les examens de fin d'études secondaires et les tests de QI, tiennent beaucoup de choses pour acquises. Lorsqu'une personne obtient de bons résultats, on peut supposer qu'elle possède les connaissances, la compréhension ou les compétences cognitives que le test est censé mesurer. (Dans la pratique, cette hypothèse n'a qu'une portée limitée. Les examens académiques ne reflètent pas toujours les capacités réelles des étudiants. Les tests de QI mesurent un ensemble spécifique de compétences, et non l'intelligence globale. Ces deux types d'évaluation favorisent les personnes qui sont douées pour ces types d'évaluation).
Mais lorsqu'un grand modèle linguistique obtient de bons résultats à ces tests, on ne sait pas du tout ce qui a été mesuré. S'agit-il d'une preuve de compréhension réelle ou d'une simple répétition ? « Il existe une longue tradition de développement de méthodes pour tester l'esprit humain », explique Laura Weidinger, chercheuse principale chez Google DeepMind. « Avec de grands modèles de langage produisant des textes qui semblent tellement humains, il est tentant de supposer que les tests de psychologie humaine seront utiles pour les évaluer. Mais ce n'est pas vrai : les tests de psychologie humaine reposent sur de nombreuses hypothèses qui ne sont pas forcément valables pour les grands modèles de langage. »
Webb est conscient des problèmes dans lesquels il s'est engagé. « Je partage le sentiment qu'il s'agit de questions difficiles », déclare-t-il. Il note qu'en dépit de meilleurs résultats que les étudiants de premier cycle à certains tests, le GPT-3 a produit des résultats absurdes à d'autres. Par exemple, il a échoué à une version d'un test de raisonnement analogique sur des objets physiques que les psychologues du développement font parfois passer aux enfants.
Les LLM échouent souvent dans les domaines qui nécessitent de comprendre le monde réel
Dans ce test, Webb et ses collègues ont raconté à GPT-3 l'histoire d'un génie magique qui transfère des bijoux entre deux bouteilles, puis lui ont demandé comment transférer des boules de gomme d'un bol à l'autre, à l'aide d'objets tels qu'un panneau d'affichage et un tube en carton. L'idée est que l'histoire suggère des moyens de résoudre le problème. « GPT-3 a surtout proposé des solutions élaborées mais mécaniquement absurdes, avec de nombreuses étapes superflues et aucun mécanisme clair permettant de transférer les boules de gomme entre les deux bols », écrivent les chercheurs.
« C’est le type de problèmes que les enfants savent résoudre sans peine », dit Webb. « Les domaines où ces systèmes échouent souvent sont ceux qui nécessitent de comprendre le monde réel, comme la physique élémentaire ou les relations sociales - des domaines qui sont instinctifs pour les humains ».
La grande question qui se pose maintenant est de savoir comment le GPT-3 parvient à la capacité analogique qui est souvent considérée comme le cœur de l'intelligence humaine. L'une des possibilités est que, peut-être en raison de la taille et de la diversité des données d'entraînement du GPT-3, il a été contraint de développer des mécanismes similaires à ceux que l'on pense être à la base du raisonnement analogique humain, bien qu'il n'ait pas été explicitement entraîné à le faire. Les chercheurs en sciences cognitives qui travaillent sur l'analogie s'accordent à dire que cette capacité humaine dépend de la comparaison systématique de connaissances basées sur des représentations relationnelles explicites.
Bien que les mécanismes incorporés dans les LLM tels que le GPT-3 puissent avoir des liens importants avec les blocs de construction du raisonnement humain, il convient également d’envisager la possibilité que ce type d'intelligence soit fondamentalement différent de celle des humains. Les humains ont évolué pour raisonner dans les limites imposées par une puissance de calcul limitée et des contraintes biologiques.
Il faut également noter que, quelle que soit la mesure dans laquelle le GPT-3 utilise des mécanismes de type humain pour effectuer un raisonnement analogique, il n'a pas acquis ces mécanismes d'une manière semblable à celle des humains. Les LLM reçoivent des ordres de grandeur de données d'entraînement plus importants que les êtres humains individuels (du moins si nous considérons uniquement les entrées du langage), et ils ne peuvent donc pas être considérés comme des modèles de l'acquisition du raisonnement analogique au cours du développement humain.
Source : Researchers at the University of California
Et vous ?
Les conclusions de l'étude conduite par Taylor Webb sont-elles pertinentes ? Partagez-vous l'avis selon lequel « l'engouement pour l'IA reposerait sur des résultats de tests erronés » ?
Selon les chercheurs, « lorsqu'un grand modèle de langage obtient de bons résultats à des tests, on ne sait pas du tout ce qui a été mesuré. » À votre avis, s'agit-il d'une preuve de compréhension réelle ou d'une simple répétition ?
Voir aussi :
Les résultats de l'examen du barreau montrent que l'IA peut rivaliser avec les "avocats humains", GPT-4 un modèle d'IA a obtenu un score de 297 à l'examen du barreau aux USA
Un professeur avoue être stupéfait que ChatGPT soit passé d'une note D à un A en seulement 3 mois à son examen d'économie. « Ce logiciel est une exception qui confirme la règle »,estime-t-il
GPT-3, le système de génération de texte d'OpenAI, serait aussi performant qu'un humain de neuf ans dans les tests standard de la théorie de l'esprit, selon un psychologue
L'engouement pour l'IA reposerait sur des résultats de tests erronés
Selon une étude de l'Université de Californie
L'engouement pour l'IA reposerait sur des résultats de tests erronés
Selon une étude de l'Université de Californie
Le , par Bruno
Une erreur dans cette actualité ? Signalez-nous-la !