IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Gemini 2.0 Flash Thinking Experimental : Pour ne pas être distancé par OpenAI et son modèle o1
Google lance son propre modèle d'IA qui utilise des techniques de « raisonnement »

Le , par Stéphane le calme

8PARTAGES

5  0 
Depuis quelques années, le développement de l'intelligence artificielle s'est transformé en une véritable course technologique entre les géants du numérique. OpenAI, avec ses modèles GPT, a souvent été en tête, imposant des standards impressionnants en matière de traitement du langage naturel et de capacités de raisonnement. Mais Google, loin de rester dans l'ombre, vient de dévoiler son propre modèle d'IA axé sur le « raisonnement ». Cette annonce stratégique soulève autant d'enthousiasme que de questionnements.

Le mois a été très chargé pour Google, qui s'efforce apparemment de surpasser OpenAI avec une série de publications sur l'IA. Jeudi, Google a lancé son dernier tour de passe-passe : Gemini 2.0 Flash Thinking Experimental, un nouveau modèle d'IA qui utilise des techniques de « raisonnement » en cours d'exécution similaires à o1 d'OpenAI pour parvenir à une « réflexion plus approfondie » sur les problèmes qui lui sont soumis.

Le modèle expérimental s'appuie sur la nouvelle version de Gemini 2.0 Flash de Google et fonctionne sur sa plateforme AI Studio, mais les premiers tests menés par Kyle Wiggers ont révélé des problèmes de précision dans certaines tâches de base, comme le fait de compter à tort que le mot strawberry (fraise) contient deux « R ».

Face à une question, Gemini 2.0 Flash Thinking Experimental marque une pause avant de répondre, en examinant un certain nombre de questions connexes et en « expliquant » son raisonnement en cours de route. Au bout d'un certain temps, le modèle résume ce qu'il considère comme la réponse la plus exacte.

C'est ce qui est censé se passer. Lorsque j'ai demandé à Gemini 2.0 Flash Thinking Experimental combien de R il y avait dans le mot « strawberry», il a répondu « deux ».

Une réponse à OpenAI, ou une ambition propre ?

La présentation de ce modèle s’inscrit dans un contexte de concurrence exacerbée. Depuis le lancement de ChatGPT et ses déclinaisons, OpenAI a su capter l'attention du grand public et des professionnels, reléguant souvent Google à un rôle d'observateur. En lançant son propre modèle de raisonnement, Google semble vouloir rappeler qu’il reste un acteur clé dans l’univers de l’IA.

Cependant, ce lancement pourrait aussi être interprété comme une réaction défensive plutôt qu’une véritable rupture technologique. Si Google se targue d’apporter des avancées significatives, le concept de « raisonnement » est resté flou dans les annonces, laissant planer un doute : s'agit-il réellement d'un bond en avant ou simplement d'un alignement stratégique pour ne pas perdre de terrain ?

Quoiqu'il en soit, ces modèles dits de raisonnement diffèrent des modèles d'IA standard en incorporant des boucles de rétroaction de mécanismes d'autocontrôle, semblables aux techniques que nous avons vues pour la première fois au début de l'année 2023 avec des projets amateurs comme « Baby AGI ». Le processus nécessite plus de temps de calcul, ajoutant souvent des secondes ou des minutes supplémentaires aux temps de réponse. Les entreprises se sont tournées vers les modèles de raisonnement car les méthodes traditionnelles de mise à l'échelle du temps de formation ont montré des rendements décroissants.


En savoir plus sur Baby AGI

Baby AGI est un script Python qui utilise les API OpenAI et Pinecone, ainsi que le framework LangChain pour créer, organiser, prioriser et exécuter des tâches. Le processus de Baby AGI consiste à créer une tâche en utilisant des objectifs prédéfinis qui sont basés sur les résultats d'une tâche précédente.

Pour ce faire, il utilise les capacités de traitement du langage naturel (NLP) d'OpenAI, qui permettent au système de créer de nouvelles tâches basées sur des objectifs. Il utilise Pinecone pour stocker les résultats de cette tâche spécifique et récupérer le contexte, et le framework LangChain pour gérer le processus de prise de décision.

Par exemple, vous soumettez un objectif au système et celui-ci hiérarchise en permanence les tâches qui doivent être réalisées ou achevées pour atteindre l'objectif. Une fois ces tâches accomplies, elles sont stockées dans la mémoire.

Le système fonctionne en boucle infinie et s'exécute en 4 étapes :
  • La première tâche est extraite de la liste des tâches
  • La tâche est envoyée à l'agent d'exécution qui l'exécute, en fonction du contexte, à l'aide de l'API OpenAI.
  • Le résultat est stocké dans Pinecone
  • De nouvelles tâches sont créées et priorisées en fonction de l'objectif et du résultat de la tâche précédente.


« Nous obtenons des résultats prometteurs »

Jeff Dean, directeur scientifique de Google DeepMind, affirme que le modèle bénéficie d'une puissance de calcul supplémentaire, écrivant sur X : « Nous obtenons des résultats prometteurs lorsque nous augmentons le temps de calcul de l'inférence ». Le modèle fonctionne en s'arrêtant pour examiner plusieurs questions connexes avant de fournir ce qu'il considère comme la réponse la plus précise.

Depuis le saut d'OpenAI dans le domaine du « raisonnement » en septembre avec o1-preview et o1-mini, plusieurs entreprises se sont empressées d'atteindre la parité des fonctionnalités avec leurs propres modèles. Par exemple, DeepSeek a lancé DeepSeek-R1 au début du mois de novembre, tandis que l'équipe Qwen d'Alibaba a publié son propre modèle de « raisonnement », QwQ, au début du mois.

Si certains affirment que les modèles de raisonnement peuvent aider à résoudre des problèmes mathématiques ou académiques complexes, ces modèles pourraient ne pas convenir à tout le monde. Bien qu'ils obtiennent de bons résultats sur certains points de référence, des questions subsistent quant à leur utilité et à leur précision réelles. En outre, les coûts informatiques élevés nécessaires pour faire fonctionner les modèles de raisonnement ont suscité des interrogations quant à leur viabilité à long terme. Ce coût élevé est la raison pour laquelle le ChatGPT Pro d'OpenAI coûte 200 dollars par mois, par exemple.

Néanmoins, il semble que Google veuille vraiment s'intéresser à cette technique d'IA particulière. Logan Kilpatrick, un employé de Google travaillant dans son studio d'IA, l'a qualifiée de « première étape de notre parcours de raisonnement » dans un billet publié sur X.

Tout le monde n'est pas convaincu que les modèles de raisonnement constituent la meilleure voie à suivre. D'une part, ils ont tendance à être coûteux, en raison de l'importante puissance de calcul requise pour les faire fonctionner. Et bien qu'ils aient obtenu de bons résultats dans les tests de référence jusqu'à présent, il n'est pas certain que les modèles de raisonnement puissent maintenir ce rythme de progrès.

Source : Gemini 2.0 Flash Thinking Experimental

Et vous ?

Google cherche-t-il véritablement à innover ou simplement à ne pas perdre de terrain face à OpenAI ?

Peut-on considérer ce lancement comme un signe de maturité du secteur de l'IA, ou au contraire comme une surenchère technologique ?

En quoi le "raisonnement" tel que revendiqué par Google diffère-t-il des capacités actuelles des modèles d’OpenAI ?

Quels sont les critères permettant de mesurer l'efficacité réelle d’un modèle dit « raisonnant » ?

Les attentes élevées suscitées par ces annonces risquent-elles de conduire à une déception si les résultats ne sont pas à la hauteur ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Fluxgraveon
Membre actif https://www.developpez.com
Le 20/12/2024 à 10:32
Il y a trois lettres "r" dans "strawberry".
Il y a deux "r" fonctionnels.
0  0 
Avatar de jnspunk
Membre habitué https://www.developpez.com
Le 20/12/2024 à 14:06
Les LLM ne voient pas les R de strawberry mais ils voient des tokens.
Et on leur demande donc de compter un token qui n'existe pas dans un autre groupe de tokens, forcément ils vont avoir du mal.

Ce n'est qu'une supposition de ma part mais Ils devraient en théorie avoir bien plus de facilité pour compter les R à partir d'une image.
0  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 20/12/2024 à 23:57
C'est pire que ça : à la 4ème étape, le chatbot a carrément mélangé les lettres en essayant de découper le mot en plusieurs morceaux. Str est devenu srt. Et erry est devenu ary
0  0