Le mois a été très chargé pour Google, qui s'efforce apparemment de surpasser OpenAI avec une série de publications sur l'IA. Jeudi, Google a lancé son dernier tour de passe-passe : Gemini 2.0 Flash Thinking Experimental, un nouveau modèle d'IA qui utilise des techniques de « raisonnement » en cours d'exécution similaires à o1 d'OpenAI pour parvenir à une « réflexion plus approfondie » sur les problèmes qui lui sont soumis.
Le modèle expérimental s'appuie sur la nouvelle version de Gemini 2.0 Flash de Google et fonctionne sur sa plateforme AI Studio, mais les premiers tests menés par Kyle Wiggers ont révélé des problèmes de précision dans certaines tâches de base, comme le fait de compter à tort que le mot strawberry (fraise) contient deux « R ».
Face à une question, Gemini 2.0 Flash Thinking Experimental marque une pause avant de répondre, en examinant un certain nombre de questions connexes et en « expliquant » son raisonnement en cours de route. Au bout d'un certain temps, le modèle résume ce qu'il considère comme la réponse la plus exacte.
C'est ce qui est censé se passer. Lorsque j'ai demandé à Gemini 2.0 Flash Thinking Experimental combien de R il y avait dans le mot « strawberry», il a répondu « deux ».
C'est ce qui est censé se passer. Lorsque j'ai demandé à Gemini 2.0 Flash Thinking Experimental combien de R il y avait dans le mot « strawberry», il a répondu « deux ».
Une réponse à OpenAI, ou une ambition propre ?
La présentation de ce modèle s’inscrit dans un contexte de concurrence exacerbée. Depuis le lancement de ChatGPT et ses déclinaisons, OpenAI a su capter l'attention du grand public et des professionnels, reléguant souvent Google à un rôle d'observateur. En lançant son propre modèle de raisonnement, Google semble vouloir rappeler qu’il reste un acteur clé dans l’univers de l’IA.
Cependant, ce lancement pourrait aussi être interprété comme une réaction défensive plutôt qu’une véritable rupture technologique. Si Google se targue d’apporter des avancées significatives, le concept de « raisonnement » est resté flou dans les annonces, laissant planer un doute : s'agit-il réellement d'un bond en avant ou simplement d'un alignement stratégique pour ne pas perdre de terrain ?
Quoiqu'il en soit, ces modèles dits de raisonnement diffèrent des modèles d'IA standard en incorporant des boucles de rétroaction de mécanismes d'autocontrôle, semblables aux techniques que nous avons vues pour la première fois au début de l'année 2023 avec des projets amateurs comme « Baby AGI ». Le processus nécessite plus de temps de calcul, ajoutant souvent des secondes ou des minutes supplémentaires aux temps de réponse. Les entreprises se sont tournées vers les modèles de raisonnement car les méthodes traditionnelles de mise à l'échelle du temps de formation ont montré des rendements décroissants.
En savoir plus sur Baby AGI
Baby AGI est un script Python qui utilise les API OpenAI et Pinecone, ainsi que le framework LangChain pour créer, organiser, prioriser et exécuter des tâches. Le processus de Baby AGI consiste à créer une tâche en utilisant des objectifs prédéfinis qui sont basés sur les résultats d'une tâche précédente.
Pour ce faire, il utilise les capacités de traitement du langage naturel (NLP) d'OpenAI, qui permettent au système de créer de nouvelles tâches basées sur des objectifs. Il utilise Pinecone pour stocker les résultats de cette tâche spécifique et récupérer le contexte, et le framework LangChain pour gérer le processus de prise de décision.
Par exemple, vous soumettez un objectif au système et celui-ci hiérarchise en permanence les tâches qui doivent être réalisées ou achevées pour atteindre l'objectif. Une fois ces tâches accomplies, elles sont stockées dans la mémoire.
Le système fonctionne en boucle infinie et s'exécute en 4 étapes :
- La première tâche est extraite de la liste des tâches
- La tâche est envoyée à l'agent d'exécution qui l'exécute, en fonction du contexte, à l'aide de l'API OpenAI.
- Le résultat est stocké dans Pinecone
- De nouvelles tâches sont créées et priorisées en fonction de l'objectif et du résultat de la tâche précédente.
« Nous obtenons des résultats prometteurs »
Jeff Dean, directeur scientifique de Google DeepMind, affirme que le modèle bénéficie d'une puissance de calcul supplémentaire, écrivant sur X : « Nous obtenons des résultats prometteurs lorsque nous augmentons le temps de calcul de l'inférence ». Le modèle fonctionne en s'arrêtant pour examiner plusieurs questions connexes avant de fournir ce qu'il considère comme la réponse la plus précise.
Depuis le saut d'OpenAI dans le domaine du « raisonnement » en septembre avec o1-preview et o1-mini, plusieurs entreprises se sont empressées d'atteindre la parité des fonctionnalités avec leurs propres modèles. Par exemple, DeepSeek a lancé DeepSeek-R1 au début du mois de novembre, tandis que l'équipe Qwen d'Alibaba a publié son propre modèle de « raisonnement », QwQ, au début du mois.Introducing Gemini 2.0 Flash Thinking, an experimental model that explicitly shows its thoughts.
— Jeff Dean (@JeffDean) December 19, 2024
Built on 2.0 Flash’s speed and performance, this model is trained to use thoughts to strengthen its reasoning.
And we see promising results when we increase inference time…
Si certains affirment que les modèles de raisonnement peuvent aider à résoudre des problèmes mathématiques ou académiques complexes, ces modèles pourraient ne pas convenir à tout le monde. Bien qu'ils obtiennent de bons résultats sur certains points de référence, des questions subsistent quant à leur utilité et à leur précision réelles. En outre, les coûts informatiques élevés nécessaires pour faire fonctionner les modèles de raisonnement ont suscité des interrogations quant à leur viabilité à long terme. Ce coût élevé est la raison pour laquelle le ChatGPT Pro d'OpenAI coûte 200 dollars par mois, par exemple.
Néanmoins, il semble que Google veuille vraiment s'intéresser à cette technique d'IA particulière. Logan Kilpatrick, un employé de Google travaillant dans son studio d'IA, l'a qualifiée de « première étape de notre parcours de raisonnement » dans un billet publié sur X.
Tout le monde n'est pas convaincu que les modèles de raisonnement constituent la meilleure voie à suivre. D'une part, ils ont tendance à être coûteux, en raison de l'importante puissance de calcul requise pour les faire fonctionner. Et bien qu'ils aient obtenu de bons résultats dans les tests de référence jusqu'à présent, il n'est pas certain que les modèles de raisonnement puissent maintenir ce rythme de progrès.
Source : Gemini 2.0 Flash Thinking Experimental
Et vous ?
Google cherche-t-il véritablement à innover ou simplement à ne pas perdre de terrain face à OpenAI ?
Peut-on considérer ce lancement comme un signe de maturité du secteur de l'IA, ou au contraire comme une surenchère technologique ?
En quoi le "raisonnement" tel que revendiqué par Google diffère-t-il des capacités actuelles des modèles d’OpenAI ?
Quels sont les critères permettant de mesurer l'efficacité réelle d’un modèle dit « raisonnant » ?
Les attentes élevées suscitées par ces annonces risquent-elles de conduire à une déception si les résultats ne sont pas à la hauteur ?