IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Projet Q* : les informations sur la mystérieuse percée en matière d'IA des chercheurs d'OpenAI ne seraient qu'un "déluge d'absurdités",
Selon des critiques tels que le pionnier de l'IA Yann LeCun

Le , par Mathis Lucas

47PARTAGES

4  0 
Le mystérieux projet Q* d'OpenAI a fait des vagues dans la communauté de l'IA au cours des derniers jours. Si OpenAI semble avoir confirmé l'existence du projet Q*, il n'existe pratiquement aucune information crédible sur ce nouveau modèle d'IA. La rumeur indique toutefois que ce mystérieux projet serait doté d'une logique proche de celle d'un être humain et serait capable de résoudre des problèmes mathématiques de base. Le modèle d'IA aurait suscité des inquiétudes au sein de la startup, ce qui a conduit au chaos observé dernièrement. Certains experts en IA estiment qu'il pourrait constituer un grand pas en avant, mais d'autres affirment qu'il ne s'agit que d'affabulations.

Q* : le modèle d'IA serait capable de résoudre des problèmes mathématiques de base

Un véritable chaos a régné au sein d'OpenAI entre le vendredi 17 et le mercredi 22 novembre 2023. Le PDG Sam Altman a été limogé à la surprise générale, puis a été réintégré quelques jours plus tard, mais nous ne savons toujours pas ce qui a été à l'origine de cet événement et aucune des parties concernées ne semble être prête à fournir des explications au grand public. De nombreuses théories ont émergé à la suite de cet événement, mais l'une des plus intéressantes concerne un énigmatique projet Q* (Q-Star) qui aurait créé de profondes dissensions au sein de la direction d'OpenAI. Ce qui aurait conduit par la suite au licenciement inattendu d'Altman.



Selon cette rumeur, une équipe dirigée par le scientifique en chef d'OpenAI, Ilya Sutskever, avait fait une découverte majeure au début de l'année, ce qui leur a permis de construire un nouveau modèle d'IA connu sous le nom de Q*. Le modèle a été décrit comme ce qui se rapproche le plus d'une superintelligence artificielle à l'heure actuelle et serait en mesure de résoudre des problèmes mathématiques de base. Cette capacité n'est peut-être pas impressionnante, mais les chercheurs estiment que cela représenterait un énorme progrès par rapport aux modèles d'IA existants, qui peinent à se généraliser en dehors des données sur lesquelles ils ont été formés.

OpenAI définit l'AGI comme un système autonome qui surpasse les humains dans la plupart des tâches à valeur économique. En outre, les chercheurs considèrent les mathématiques comme une frontière pour le développement de l'IA. Actuellement, l'IA générative est efficace pour l'écriture et la traduction des langues en prédisant statistiquement le mot suivant, et les réponses à une même question peuvent varier considérablement. Mais elle affiche de piètres performances lorsqu'elle est soumise à des tests mathématiques. Qu'il s'agisse du chatbot ChatGPT d'OpenAI ou Bard de Google, tous galèrent face aux problèmes mathématiques de base.

« Si une IA peut raisonner logiquement et s'appuyer sur des concepts abstraits, ce qui est actuellement sa principale difficulté, alors il s'agit d'un progrès considérable. Les mathématiques permettent de raisonner de manière symbolique, en disant, par exemple : "si X est plus grand que Y et Y plus grand que Z, alors X est plus grand que Z". Les modèles de langage ont traditionnellement beaucoup de mal à faire cela parce qu'ils ne raisonnent pas de manière logique, ils n'ont que des intuitions », a déclaré Charles Higgins, cofondateur de la startup Tromero, spécialisée dans l'entraînement à l'IA. OpenAI n'a ni confirmé ni infirmé aucune de ces informations.

Mais commentant les rumeurs sur le mystérieux projet Q* d'OpenAI, Yann LeCun, lauréat du prix Turing 2018 et responsable de l'IA chez Meta, a déclaré que l'on était en présence d'un déluge d'absurdités. « Veuillez ignorer le déluge d'absurdités au sujet de Q*. L'un des principaux défis pour améliorer la fiabilité du LLM est de remplacer la prédiction autorégressive des jetons par la planification. À peu près tous les meilleurs laboratoires (FAIR, DeepMind, OpenAI, etc.) travaillent sur cela et certains ont déjà publié des idées et des résultats », a déclaré le chercheur français en IA. Le projet Q* serait une tentative visant à apprendre aux modèles d'IA à planifier.

LeCun a ajouté : « il est probable que Q* soit une tentative de planification de la part d'OpenAI . Ils ont pratiquement embauché Noam Brown (de Libratus/poker et de Cicero/Diplomacy) pour travailler sur ce sujet. [Note : je plaide pour une architecture d'apprentissage profond capable de planifier depuis 2016] ».

Le nom de code Q* pourrait faire référence à l'apprentissage Q ou à l'algorithme Q*

Il convient de noter qu'il existe une certaine ambiguïté quant à la réception de la lettre susmentionnée par le conseil d'administration, des sources internes à la société ayant déclaré qu'elle n'a pas été envoyée. En outre, des experts en IA ont vite fait de dézinguer les rumeurs selon lesquelles le mystérieux projet Q* d'OpenAI serait un modèle d'IA surpuissante capable de faire preuve d'une logique proche de celle de l'homme. Selon les experts en IA, il n'en est rien. Sophia Kalanovska, cofondatrice de Tromero, pense que le nom Q* implique qu'il s'agit d'une combinaison de deux techniques d'IA bien connues : l'apprentissage Q et l'algorithme de recherche A*.

Selon elle, cela suggère que le modèle modèle Q* d'OpenAI pourrait combiner les techniques d'apprentissage en profondeur qui sous-tendent ChatGPT avec des règles programmées par les humains. « Je pense que cela est symboliquement très important. D'un point de vue pratique, je ne pense pas que cela va mettre fin au monde. Je pense que la raison pour laquelle les gens croient que Q* va conduire à l'AGI est que, d'après ce que nous avons entendu jusqu'à présent, il semble qu'il combinera les deux côtés du cerveau et sera capable de connaître certaines choses par expérience, tout en étant capable de raisonner sur des faits », a déclaré Kalanovska.

L'apprentissage Q (Q-learning)

L'apprentissage Q est un type d'apprentissage par renforcement, une méthode par laquelle l'IA apprend à prendre des décisions par essais et erreurs. Dans l'apprentissage Q, un agent apprend à prendre des décisions en estimant la "qualité" des combinaisons action-état. La différence entre cette approche et l'approche actuelles d'OpenAI (connue sous le nom de Reinforcement Learning Through Human Feedback - RLHF) est qu'elle ne repose pas sur l'interaction humaine et fait tout par elle-même. Selon les chercheurs, l'apprentissage Q vise surtout à apprendre aux agents d'IA à raisonner, ce qui devrait leur permettre d'avoir de nouvelles idées.

Imaginez un robot naviguant dans un labyrinthe. Avec l'apprentissage Q, il apprend à trouver le chemin le plus rapide vers la sortie en essayant différents itinéraires, en recevant des récompenses positives définies par sa propre conception lorsqu'il se rapproche de la sortie et des récompenses négatives lorsqu'il se trouve dans une impasse. Au fil du temps, par essais et erreurs, le robot développe une stratégie (une "table Q" qui lui indique la meilleure action à entreprendre à partir de chaque position dans le labyrinthe. Ce processus est autonome et repose sur les interactions du robot avec son environnement. Il s'agit d'une sorte de planification.

Si le robot utilise la RLHF, au lieu de découvrir les choses par lui-même, un humain pourrait intervenir lorsque le robot atteint un carrefour pour indiquer si le choix du robot était judicieux ou non. Ce retour d'information pourrait prendre la forme d'ordres directs ("tourne à gauche", de suggestions ("essaie le chemin avec plus de lumière" ou d'évaluations des choix du robot ("bon robot" ou "mauvais robot". Dans l'apprentissage Q, Q* représente l'état souhaité dans lequel un agent connaît exactement la meilleure action à entreprendre dans chaque état pour maximiser sa récompense totale attendue au fil du temps.

En termes mathématiques, cela correspond à l'équation de Bellman. En mai de cette année, OpenAI a publié un article indiquant qu'ils avaient formé un modèle pour atteindre un nouvel état de l'art dans la résolution de problèmes mathématiques en récompensant chaque étape correcte du raisonnement au lieu de récompenser simplement la bonne réponse finale. Selon les experts, si les chercheurs d'OpenAI ont utilisé l'apprentissage Q ou une méthode similaire pour y parvenir, cela ouvrirait la voie à un tout nouvel ensemble de problèmes et de situations que ChatGPT serait en mesure de résoudre de manière native.

L'algorithme Q* du MRPPS

L'algorithme Q* fait partie du Maryland Refutation Proof Procedure System (MRPPS). Il s'agit d'une méthode sophistiquée de démonstration de théorèmes en IA, en particulier dans les systèmes de réponse aux questions. « L'algorithme Q* génère des nœuds dans l'espace de recherche, en appliquant des informations sémantiques et syntaxiques pour diriger la recherche. La sémantique permet de terminer les chemins et d'explorer les chemins fructueux », indique le document de recherche. Pour vous faire une idée plus claire sur le processus, considérez le scénario suivant : le détective fictif Sherlock Holmes essaie de résoudre une affaire complexe.

Il recueille des indices (informations sémantiques) et les relie logiquement (informations syntaxiques) pour parvenir à une conclusion. L'algorithme Q* fonctionne de la même manière dans l'IA, en combinant des informations sémantiques et syntaxiques pour naviguer dans des processus complexes de résolution de problèmes. Cela impliquerait qu'OpenAI se rapproche un peu plus d'un modèle capable de comprendre la réalité au-delà de simples invites textuelles et plus proche du J.A.R.V.I.S fictif (l'IA ultra avancée de Tony Stark dans le film Iron Man de Marvel) ou le Batcomputer (l'ordinateur utilisé par Batman et qui est doté d'une IA très avancée).

En somme, alors que l'apprentissage Q consiste à enseigner à l'IA à apprendre en interagissant avec son environnement, l'algorithme Q vise davantage à améliorer les capacités déductives de l'IA. Il est essentiel de comprendre ces distinctions pour apprécier les implications potentielles du projet Q* d'OpenAI. Les deux algorithmes offrent un immense potentiel pour faire progresser l'IA, mais leurs applications et leurs implications varient considérablement. Bien sûr, tout ceci n'est que spéculation, car OpenAI n'a pas expliqué le concept, même si dans une déclaration à Reuters, un porte-parole de l'entreprise a semblé confirmer l'existence du projet.

Quelques théories sur les implications potentielles du mystérieux projet Q* d'OpenAI

Sur la toile, les avis sont partagés sur la question et l'on peut relever différentes hypothèses. Selon certains critiques, si le projet Q* fait référence à une forme avancée d'apprentissage Q, cela pourrait signifier un bond en avant dans la capacité de l'IA à apprendre et à s'adapter de façon autonome dans des environnements complexes. En outre, cela pourrait permettre de résoudre toute une série de nouveaux problèmes. Une telle avancée pourrait améliorer les applications de l'IA dans des domaines très complexes tels que les véhicules autonomes, où la prise de décision en une fraction de seconde en...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !