Q* : le modèle d'IA serait capable de résoudre des problèmes mathématiques de base
Un véritable chaos a régné au sein d'OpenAI entre le vendredi 17 et le mercredi 22 novembre 2023. Le PDG Sam Altman a été limogé à la surprise générale, puis a été réintégré quelques jours plus tard, mais nous ne savons toujours pas ce qui a été à l'origine de cet événement et aucune des parties concernées ne semble être prête à fournir des explications au grand public. De nombreuses théories ont émergé à la suite de cet événement, mais l'une des plus intéressantes concerne un énigmatique projet Q* (Q-Star) qui aurait créé de profondes dissensions au sein de la direction d'OpenAI. Ce qui aurait conduit par la suite au licenciement inattendu d'Altman.
[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Please ignore the deluge of complete nonsense about Q*.<br>One of the main challenges to improve LLM reliability is to replace Auto-Regressive token prediction with planning.<br><br>Pretty much every top lab (FAIR, DeepMind, OpenAI etc) is working on that and some have already published…</p>— Yann LeCun (@ylecun) <a href="https://twitter.com/ylecun/status/1728126868342145481?ref_src=twsrc%5Etfw">November 24, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]
Selon cette rumeur, une équipe dirigée par le scientifique en chef d'OpenAI, Ilya Sutskever, avait fait une découverte majeure au début de l'année, ce qui leur a permis de construire un nouveau modèle d'IA connu sous le nom de Q*. Le modèle a été décrit comme ce qui se rapproche le plus d'une superintelligence artificielle à l'heure actuelle et serait en mesure de résoudre des problèmes mathématiques de base. Cette capacité n'est peut-être pas impressionnante, mais les chercheurs estiment que cela représenterait un énorme progrès par rapport aux modèles d'IA existants, qui peinent à se généraliser en dehors des données sur lesquelles ils ont été formés.
OpenAI définit l'AGI comme un système autonome qui surpasse les humains dans la plupart des tâches à valeur économique. En outre, les chercheurs considèrent les mathématiques comme une frontière pour le développement de l'IA. Actuellement, l'IA générative est efficace pour l'écriture et la traduction des langues en prédisant statistiquement le mot suivant, et les réponses à une même question peuvent varier considérablement. Mais elle affiche de piètres performances lorsqu'elle est soumise à des tests mathématiques. Qu'il s'agisse du chatbot ChatGPT d'OpenAI ou Bard de Google, tous galèrent face aux problèmes mathématiques de base.
« Si une IA peut raisonner logiquement et s'appuyer sur des concepts abstraits, ce qui est actuellement sa principale difficulté, alors il s'agit d'un progrès considérable. Les mathématiques permettent de raisonner de manière symbolique, en disant, par exemple : "si X est plus grand que Y et Y plus grand que Z, alors X est plus grand que Z". Les modèles de langage ont traditionnellement beaucoup de mal à faire cela parce qu'ils ne raisonnent pas de manière logique, ils n'ont que des intuitions », a déclaré Charles Higgins, cofondateur de la startup Tromero, spécialisée dans l'entraînement à l'IA. OpenAI n'a ni confirmé ni infirmé aucune de ces informations.
Mais commentant les rumeurs sur le mystérieux projet Q* d'OpenAI, Yann LeCun, lauréat du prix Turing 2018 et responsable de l'IA chez Meta, a déclaré que l'on était en présence d'un déluge d'absurdités. « Veuillez ignorer le déluge d'absurdités au sujet de Q*. L'un des principaux défis pour améliorer la fiabilité du LLM est de remplacer la prédiction autorégressive des jetons par la planification. À peu près tous les meilleurs laboratoires (FAIR, DeepMind, OpenAI, etc.) travaillent sur cela et certains ont déjà publié des idées et des résultats », a déclaré le chercheur français en IA. Le projet Q* serait une tentative visant à apprendre aux modèles d'IA à planifier.
LeCun a ajouté : « il est probable que Q* soit une tentative de planification de la part d'OpenAI . Ils ont pratiquement embauché Noam Brown (de Libratus/poker et de Cicero/Diplomacy) pour travailler sur ce sujet. [Note : je plaide pour une architecture d'apprentissage profond capable de planifier depuis 2016] ».
Le nom de code Q* pourrait faire référence à l'apprentissage Q ou à l'algorithme Q*
Il convient de noter qu'il existe une certaine ambiguïté quant à la réception de la lettre susmentionnée par le conseil d'administration, des sources internes à la société ayant déclaré qu'elle n'a pas été envoyée. En outre, des experts en IA ont vite fait de dézinguer les rumeurs selon lesquelles le mystérieux projet Q* d'OpenAI serait un modèle d'IA surpuissante capable de faire preuve d'une logique proche de celle de l'homme. Selon les experts en IA, il n'en est rien. Sophia Kalanovska, cofondatrice de Tromero, pense que le nom Q* implique qu'il s'agit d'une combinaison de deux techniques d'IA bien connues : l'apprentissage Q et l'algorithme de recherche A*.
Selon elle, cela suggère que le modèle modèle Q* d'OpenAI pourrait combiner les techniques d'apprentissage en profondeur qui sous-tendent ChatGPT avec des règles programmées par les humains. « Je pense que cela est symboliquement très important. D'un point de vue pratique, je ne pense pas que cela va mettre fin au monde. Je pense que la raison pour laquelle les gens croient que Q* va conduire à l'AGI est que, d'après ce que nous avons entendu jusqu'à présent, il semble qu'il combinera les deux côtés du cerveau et sera capable de connaître certaines choses par expérience, tout en étant capable de raisonner sur des faits », a déclaré Kalanovska.
L'apprentissage Q (Q-learning)
L'apprentissage Q est un type d'apprentissage par renforcement, une méthode par laquelle l'IA apprend à prendre des décisions par essais et erreurs. Dans l'apprentissage Q, un agent apprend à prendre des décisions en estimant la "qualité" des combinaisons action-état. La différence entre cette approche et l'approche actuelles d'OpenAI (connue sous le nom de Reinforcement Learning Through Human Feedback - RLHF) est qu'elle ne repose pas sur l'interaction humaine et fait tout par elle-même. Selon les chercheurs, l'apprentissage Q vise surtout à apprendre aux agents d'IA à raisonner, ce qui devrait leur permettre d'avoir de nouvelles idées.
Imaginez un robot naviguant dans un labyrinthe. Avec l'apprentissage Q, il apprend à trouver le chemin le plus rapide vers la sortie en essayant différents itinéraires, en recevant des récompenses positives définies par sa propre conception lorsqu'il se rapproche de la sortie et des récompenses négatives lorsqu'il se trouve dans une impasse. Au fil du temps, par essais et erreurs, le robot développe une stratégie (une "table Q" qui lui indique la meilleure action à entreprendre à partir de chaque position dans le labyrinthe. Ce processus est autonome et repose sur les interactions du robot avec son environnement. Il s'agit d'une sorte de planification.
Si le robot utilise la RLHF, au lieu de découvrir les choses par lui-même, un humain pourrait intervenir lorsque le robot atteint un carrefour pour indiquer si le choix du robot était judicieux ou non. Ce retour d'information pourrait prendre la forme d'ordres directs ("tourne à gauche", de suggestions ("essaie le chemin avec plus de lumière" ou d'évaluations des choix du robot ("bon robot" ou "mauvais robot". Dans l'apprentissage Q, Q* représente l'état souhaité dans lequel un agent connaît exactement la meilleure action à entreprendre dans chaque état pour maximiser sa récompense totale attendue au fil du temps.
En termes mathématiques, cela correspond à l'équation de Bellman. En mai de cette année, OpenAI a publié un article indiquant qu'ils avaient formé un modèle pour atteindre un nouvel état de l'art dans la résolution de problèmes mathématiques en récompensant chaque étape correcte du raisonnement au lieu de récompenser simplement la bonne réponse finale. Selon les experts, si les chercheurs d'OpenAI ont utilisé l'apprentissage Q ou une méthode similaire pour y parvenir, cela ouvrirait la voie à un tout nouvel ensemble de problèmes et de situations que ChatGPT serait en mesure de résoudre de manière native.
L'algorithme Q* du MRPPS
L'algorithme Q* fait partie du Maryland Refutation Proof Procedure System (MRPPS). Il s'agit d'une méthode sophistiquée de démonstration de théorèmes en IA, en particulier dans les systèmes de réponse aux questions. « L'algorithme Q* génère des nœuds dans l'espace de recherche, en appliquant des informations sémantiques et syntaxiques pour diriger la recherche. La sémantique permet de terminer les chemins et d'explorer les chemins fructueux », indique le document de recherche. Pour vous faire une idée plus claire sur le processus, considérez le scénario suivant : le détective fictif Sherlock Holmes essaie de résoudre une affaire complexe.
Il recueille des indices (informations sémantiques) et les relie logiquement (informations syntaxiques) pour parvenir à une conclusion. L'algorithme Q* fonctionne de la même manière dans l'IA, en combinant des informations sémantiques et syntaxiques pour naviguer dans des processus complexes de résolution de problèmes. Cela impliquerait qu'OpenAI se rapproche un peu plus d'un modèle capable de comprendre la réalité au-delà de simples invites textuelles et plus proche du J.A.R.V.I.S fictif (l'IA ultra avancée de Tony Stark dans le film Iron Man de Marvel) ou le Batcomputer (l'ordinateur utilisé par Batman et qui est doté d'une IA très avancée).
En somme, alors que l'apprentissage Q consiste à enseigner à l'IA à apprendre en interagissant avec son environnement, l'algorithme Q vise davantage à améliorer les capacités déductives de l'IA. Il est essentiel de comprendre ces distinctions pour apprécier les implications potentielles du projet Q* d'OpenAI. Les deux algorithmes offrent un immense potentiel pour faire progresser l'IA, mais leurs applications et leurs implications varient considérablement. Bien sûr, tout ceci n'est que spéculation, car OpenAI n'a pas expliqué le concept, même si dans une déclaration à Reuters, un porte-parole de l'entreprise a semblé confirmer l'existence du projet.
Quelques théories sur les implications potentielles du mystérieux projet Q* d'OpenAI
Sur la toile, les avis sont partagés sur la question et l'on peut relever différentes hypothèses. Selon certains critiques, si le projet Q* fait référence à une forme avancée d'apprentissage Q, cela pourrait signifier un bond en avant dans la capacité de l'IA à apprendre et à s'adapter de façon autonome dans des environnements complexes. En outre, cela pourrait permettre de résoudre toute une série de nouveaux problèmes. Une telle avancée pourrait améliorer les applications de l'IA dans des domaines très complexes tels que les véhicules autonomes, où la prise de décision en une fraction de seconde en fonction de conditions en constante évolution est cruciale.
Par ailleurs, si Q* fait référence à l'algorithme Q de MRPPS, il pourrait s'agir d'une avancée significative dans les capacités de raisonnement déductif et de résolution de problèmes de l'IA. Cela aurait un impact particulier dans les domaines nécessitant une réflexion analytique approfondie, comme l'analyse juridique, l'interprétation de données complexes et même le diagnostic médical. Quelle que soit sa nature exacte, Q* représente potentiellement une avancée significative dans le développement de l'IA, de sorte que le fait qu'il soit au cœur d'un débat existentiel d'OpenAI sonne juste. (OpenAI a déclaré que Q* n'est pas à l'origine du licenciement d'Altman).
Selon une autre spéculation, Q* pourrait nous rapprocher de systèmes d'IA plus intuitifs, plus efficaces et capables de gérer des tâches qui requièrent actuellement un haut niveau d'expertise humaine. Cela dit, ces progrès s'accompagnent de questions et de préoccupations éthiques liées l'IA, la sécurité et les implications de systèmes d'IA de plus en plus puissants dans notre vie quotidienne et dans la société en général. Parmi les risques et les préoccupations liés à l'IA, l'on peut citer :
- éthique et sécurité : à mesure que les systèmes d'IA deviennent plus avancés, il devient de plus en plus difficile de s'assurer qu'ils fonctionnent de manière éthique et sûre. Il existe un risque de conséquences involontaires, en particulier si les actions de l'IA ne sont pas parfaitement alignées sur les valeurs humaines ;
- vie privée et sécurité : avec l'avancée de l'IA, les préoccupations en matière de protection de la vie privée et de sécurité des données s'intensifient. Les systèmes d'IA capables de comprendre et d'interagir plus profondément avec les données pourraient être utilisés à mauvais escient ;
- impacts économiques : l'automatisation accrue et les capacités de l'IA pourraient entraîner des déplacements d'emplois dans certains secteurs, ce qui nécessiterait des ajustements sociétaux et de nouvelles approches en matière de développement de la main-d'œuvre. Si l'IA peut presque tout faire, pourquoi avoir des travailleurs humains ? ;
- désalignement de l'IA : le risque que les systèmes d'IA développent des objectifs ou des méthodes de fonctionnement qui ne correspondent pas aux intentions ou au bien-être de l'homme, ce qui pourrait avoir des conséquences néfastes. (Imaginez un robot ménager obsédé par l'ordre et qui ne cesse de jeter vos papiers importants ; ou qui éliminerait complètement les créateurs de désordre.)
L'IAG désigne à la capacité d'une machine à comprendre, à apprendre et à appliquer l'intelligence à diverses tâches, à l'instar des capacités cognitives humaines. Il s'agit d'une forme d'IA capable de généraliser l'apprentissage d'un domaine à un autre, faisant preuve d'une véritable adaptabilité et polyvalence. Une telle machine suscite les craintes de nombreux chercheurs qui tirent la sonnette d'alarme sur la menace qu'elle représente pour l'humanité. Mais la question divise les chercheurs : les uns pensent que l'IAG annonce la fin de l'humanité, tandis que les autres réfutent cet avenir dystopique et affirment que nous surestimons les capacités de l'IAG.
Sources : L'algorithme Q, Q-learning (PDF), OpenAI
Et vous ?
Que pensez-vous du battage médiatique autour du projet Q* ? S'agit-il de rumeurs infondées ?
Le licenciement surprise du PDG Sam Altman pourrait être lié à ce mystérieux projet Q* ?
Que pensez-vous des déclarations du pionnier de l'IA Yann LeCun concernant le projet Q* ?
Les capacités de l'IAG, le Saint Graal de la recherche en IA, sont-elles surestimées ? Est-elle un mythe ?
Que pensez-vous des préoccupations exprimées à l'égard de l'IAG ? Ces inquiétudes sont-elles fondées ?
Voir aussi
Des chercheurs d'OpenAI auraient envoyé au conseil d'administration sortant une lettre l'avertissant d'une découverte majeure en matière d'IA et de la menace que cela représente pour l'humanité
OpenAI aurait réalisé une percée majeure dans le domaine de l'IA avant l'éviction surprise de Sam Altman, la découverte a suscité des inquiétudes qui auraient joué un rôle clé dans son licenciement
ChatGPT avec la capacité « de voir, entendre et parler » est désormais disponible pour tous les utilisateurs à titre gratuit : quel impact sur la vie privée et la sécurité des utilisateurs ?