L’intelligence artificielle générale (IAG) désigne des systèmes capables de donner de « bons » résultats dans toutes les tâches cognitives propres aux êtres humains ou aux animaux dits supérieurs.
Parfois, on élargit le concept d’intelligence artificielle générale à des systèmes dotés d’une conscience et même de sentiments (ce qui se rapproche de l’IA forte). Cela reste toutefois à définir plus précisément et fait l’objet de débats dans la communauté scientifique. Il est important d’insister sur le fait qu’aucun système d’intelligence artificielle générale n’existe aujourd’hui. Tout comme pour l’IA forte, l’IA générale demeure un sujet spéculatif.
Dans la foulée de la sortie publique de GPT-4, une équipe de scientifiques de Microsoft AI a publié un document de recherche affirmant que le modèle de langage OpenAI dui alimente Bing AI montre des « étincelles » d'intelligence artificielle générale.
Au vu de la définition plus haut, on comprend aisément pourquoi l'accent est mis sur les « étincelles ». Les chercheurs prennent soin dans l'article de caractériser les prouesses du GPT-4 comme « seulement un premier pas vers une série de systèmes de plus en plus intelligents » plutôt que comme une IA au niveau d'une intelligence artificielle générale. Ils ont également souligné à plusieurs reprises le fait que cet article est basé sur une « première version » de GPT-4, qu'ils ont étudiée alors que l'IA était « encore en développement actif par OpenAI », et pas nécessairement la version qui a été transformée en formation applicable au produit.
Les chercheurs montrent des exemples des capacités de GPT-4 dans l'article : il est capable d'écrire une preuve sur la façon dont il y a une infinité de nombres premiers, avec des rimes sur chaque ligne, et de dessiner une licorne dans TiKZ, un programme de dessin. Tout cela est rapidement suivi de quelques mises en garde sérieuses.
Les chercheurs ont déclaré avoir utilisé une définition de 1994 de l'IAG par un groupe de psychologues comme cadre de leur recherche. Ils ont écrit: « Le groupe de consensus a défini l'intelligence comme une capacité mentale très générale qui, entre autres, implique la capacité de raisonner, de planifier, de résoudre des problèmes, de penser de manière abstraite, de comprendre des idées complexes, d'apprendre rapidement et d'apprendre de l'expérience. Cette définition implique que l'intelligence ne se limite pas à un domaine ou à une tâche spécifique, mais englobe plutôt un large éventail de compétences et de capacités cognitives ».
Mis à part les clauses de non-responsabilité, il y a cependant quelques affirmations sérieuses à faire. Bien que beaucoup de gens, même certains au sein de l'industrie de l'IA, considèrent l'IAG comme une chimère, d'autres pensent que le développement de l'IAG va inaugurer la prochaine ère de l'avenir de l'humanité ; le GPT-4 de nouvelle génération est l'itération la plus puissante du Large Language Model (LLM) construit par OpenAI à ce jour, et sur la liste théorique des candidats potentiels à l'IGA, GPT-4 se situe quelque part en haut de la liste, sinon est numéro un.
« Nous soutenons », écrivent les chercheurs dans l'article, « que [ndlr. cette première version de] GPT-4 fait partie d'une nouvelle cohorte de LLM (avec ChatGPT et Google PaLM par exemple) qui présentent une intelligence plus générale que modèles d'IA précédents ».
En ce qui concerne le raisonnement des chercheurs, ils soutiennent simplement que GPT-4 est plus fort que les autres modèles OpenAI qui l'ont précédé de manière nouvelle et généralisée. C'est une chose de concevoir un modèle pour réussir un examen ou une tâche spécifique, c'en est une autre de construire un appareil qui peut faire beaucoup de tâches et les faire très bien, sans aucune formation spécifique. Et cette dernière, expliquent les chercheurs, est la zone où GPT-4 brille vraiment.
« Nous démontrons qu'au-delà de sa maîtrise du langage, GPT-4 peut résoudre des tâches nouvelles et difficiles qui couvrent les mathématiques, le codage, la vision, la médecine, le droit, la psychologie et plus encore, sans avoir besoin d'incitation particulière », lit-on dans l'article. « De plus, dans toutes ces tâches, les performances de GPT-4 sont étonnamment proches des performances humaines et dépassent souvent largement les modèles précédents tels que ChatGPT ».
« Compte tenu de l'étendue et de la profondeur des capacités du GPT-4 », poursuivent-ils, « nous pensons qu'il pourrait raisonnablement être considéré comme une version précoce (mais encore incomplète) d'un système d'intelligence artificielle générale (IAG) ».
À cette fin, ces chercheurs ont raison. GPT-4 a certainement encore ses défauts ; comme d'autres LLM, la machine a toujours des problèmes d'hallucinations et peut avoir du mal avec les mathématiques. Mais quels que soient ses faux pas, le modèle possède des compétences remarquables (et considérablement améliorées par rapport au dernier modèle). Par exemple, GPT-4 est un candidat particulièrement excellent, réussissant des examens notoirement difficiles comme un examen juridique du barreau, le LSAT et même le test théorique de sommelier certifié dans les 90e, 88e et 86e centiles, respectivement sans aucune formation spécifique sur ces examens.
Par souci de contraste : GPT-3.5, qui a été publié à la fin de l'année dernière, a obtenu un score parmi les 10% inférieurs de tous les candidats à l'examen du Barreau. C'est un énorme pas en avant pour un modèle de nouvelle génération lors de la sortie de sa dernière itération il y a quelques mois à peine.
Ailleurs, les chercheurs affirment que leurs recherches ont vu le bot « surmonter certains obstacles fondamentaux tels que l'acquisition de nombreuses capacités non linguistiques », tout en faisant « de grands progrès sur le bon sens », ce dernier étant l'un des plus grands obstacles de l'ancienne version de ChatGPT.
Pourtant, il y a quelques mises en garde supplémentaires à l'argument de l'IAG : les chercheurs ont admis dans l'article que si GPT-4 est « au niveau ou au-delà du niveau humain pour de nombreuses tâches », ses « modèles d'intelligence globaux ne sont décidément pas humains ». Donc, fondamentalement, même lorsqu'il excelle, il ne pense toujours pas exactement comme un humain. (On pourrait également affirmer que la prise de test en général est bien plus robotique qu'humaine, mais ne nous écartons pas du sujet.)
Il convient également de noter que les chercheurs de Microsoft pourraient avoir tout intérêt à promouvoir le travail d'OpenAI, inconsciemment ou non, puisque Microsoft a conclu un partenariat de plusieurs milliards de dollars avec OpenAI plus tôt cette année.
Et comme les scientifiques l'abordent également, l'IAG n'a toujours pas de définition ferme et convenue (d'ailleurs le concept plus général « d'intelligence » non plus).
« Notre affirmation selon laquelle GPT-4 représente un progrès vers l'IAG ne signifie pas qu'il est parfait dans ce qu'il fait, ou qu'il se rapproche de la capacité de faire tout ce qu'un humain peut faire (ce qui est l'une des définitions habituelles de l'IAG) , ou qu'il a une motivation et des objectifs internes (un autre aspect clé dans certaines définitions de l'IAG) », lit-on dans l'article.
Mais ne dit-on pas qu'un pas est un pas ?
« Nous pensons que l'intelligence de GPT-4 », écrivent les chercheurs, « signale un véritable changement de paradigme dans le domaine de l'informatique et au-delà ».
« Le puissant modèle GPT-4 d'OpenAI remet en question de nombreuses hypothèses largement répandues sur la nature de l'intelligence artificielle. Grâce à une évaluation critique des capacités et des limites du système, que vous pouvez lire dans "Sparks of Artificial General Intelligence: Early experiences with GPT-4", les chercheurs de Microsoft ont observé des sauts fondamentaux dans les capacités de GPT-4 à raisonner, planifier, résoudre des problèmes et synthétiser des idées complexes qui signalent un changement de paradigme dans le domaine de l'informatique », a déclaré un porte-parole de Microsoft. « Nous reconnaissons les limites actuelles du GPT-4 et qu'il reste encore du travail à faire. Nous continuerons à impliquer la communauté scientifique au sens large dans l'exploration des futures directions de recherche, y compris celles nécessaires pour aborder les implications sociétales et éthiques de ces systèmes de plus en plus intelligents ».
« Microsoft ne se concentre pas sur la réalisation de l'IAG. Notre développement de l'IA est centré sur l'amplification, l'augmentation et l'assistance à la productivité et aux capacités humaines. Nous créons des plateformes et des outils qui, plutôt que d'agir comme un substitut à l'effort humain, peuvent aider les humains avec le travail cognitif », a précisé un porte-parole de Microsoft dans un communiqué.
Enfin, les chercheurs « n'ont pas accès à tous les détails de ses vastes données d'entraînement », ce qui révèle que leur conclusion est uniquement basée sur le test du modèle sur des références standard, non spécifiques au GPT-4.
« L'approche standard en apprentissage automatique consiste à évaluer le système sur un ensemble d'ensembles de données de référence standard, en s'assurant qu'ils sont indépendants des données de formation et qu'ils couvrent une gamme de tâches et de domaines », ont écrit les chercheurs. « Nous devons supposer qu'il a potentiellement vu toutes les références existantes, ou au moins certaines données similaires ». Le secret qu'OpenAI a entourant les ensembles de données de formation et le code entourant ses modèles d'IA est quelque chose que de nombreux chercheurs en IA ont critiqué, comme ils le disent, cela rend impossible d'évaluer les dommages du modèle et de trouver des moyens d'atténuer les risques du modèle.
Cela étant dit, il est clair que les « étincelles » que les chercheurs prétendent avoir trouvées sont largement dépassées par le nombre de limitations et de biais que le modèle a affichés depuis sa sortie.
Sources : Microsoft, Étincelles d'intelligence artificielle générale : premières expériences avec GPT-4
Et vous ?
Avez-vous déjà essayé GPT-4 ? Que pensez-vous de la conclusions selon laquelle GPT-4 présente des « étincelles » d'intelligence artificielle générale ?
Le rapport pourrait-il être biaisé selon vous ? Pourquoi ?