Une semaine après sa dernière annonce majeure en matière d'IA, Google semble s'être surpassé. Jeudi de la semaine dernière, Google a lancé Gemini Ultra 1.0, qui était censé représenter le meilleur modèle de langage d'IA que Google pouvait rassembler - disponible dans le cadre de l'assistant d'IA rebaptisé "Gemini" (anciennement Bard). Cette fois-ci, Google annonce Gemini Pro 1.5, qui, selon la société, « atteint une qualité comparable à celle de 1.0 Ultra, tout en utilisant moins de ressources informatiques ».Deux mois à peine après le lancement de Gemini, le grand modèle de langage sur lequel Google mise pour se hisser au sommet de l'industrie de l'IA, l'entreprise annonce déjà son successeur. Google a présenté Gemini 1.5 et le met à la disposition des développeurs et des utilisateurs professionnels, avant de le proposer prochainement au grand public. L'entreprise a clairement indiqué qu'elle souhaitait faire de Gemini un outil professionnel, un assistant personnel et tout ce qui se trouve entre les deux, et qu'elle met tout en œuvre pour atteindre cet objectif.
Gemini 1.5 comporte de nombreuses améliorations : Gemini 1.5 Pro, le modèle polyvalent du système de Google, est apparemment au même niveau que le Gemini Ultra haut de gamme que l'entreprise n'a lancé que récemment, et il a surpassé Gemini 1.0 Pro dans 87 % des tests de référence. Il a été réalisé à l'aide d'une technique de plus en plus courante appelée "Mixture of Experts" (MoE), ce qui signifie qu'il n'exécute qu'une partie du modèle global lorsque vous envoyez une requête, plutôt que de traiter l'ensemble du modèle en permanence (cette approche devrait rendre le modèle plus rapide pour vous et plus efficace pour Google).
Mais il y a une nouveauté dans Gemini 1.5 qui enthousiasme toute l'entreprise, à commencer par le PDG Sundar Pichai : Gemini 1.5 dispose d'une énorme fenêtre contextuelle, ce qui signifie qu'il peut traiter des requêtes beaucoup plus importantes et examiner beaucoup plus d'informations à la fois. Cette fenêtre est d'un million de jetons, contre 128 000 pour la GPT-4 d'OpenAI et 32 000 pour la version actuelle de Gemini Pro. Les jetons sont une mesure difficile à comprendre, c'est pourquoi Pichai simplifie : « Cela représente environ 10 ou 11 heures de vidéo, des dizaines de milliers de lignes de code ». La fenêtre contextuelle permet d'interroger l'intelligence artificielle sur l'ensemble de ce contenu en une seule fois.
Un « saut générationnel », selon les chercheurs de Google
« Gemini 1.5 Pro permet d'obtenir un rappel [ndlr. "recall" en anglais, qui est la capacité d'un modèle à trouver tous les cas pertinents dans un ensemble de données] presque parfait sur les tâches de recherche en contexte long dans toutes les modalités, améliore l'état de l'art en matière d'assurance qualité des documents longs, d'assurance qualité des vidéos longues et d'ASR en contexte long, et égale ou dépasse les performances de pointe de Gemini 1.0 Ultra sur un large éventail de points de référence », écrivent les chercheurs de Google dans un document technique sur Gemini 1.5 Pro.
En d'autres termes, lorsqu'on lui présente un long document à assimiler - jusqu'à 10 millions de jetons - Gemini 1.5 peut répondre de manière appropriée à une requête spécifique dans plus de 99 % des cas. Selon les chercheurs de Google, la capacité de 10 millions de jetons de Gemini représente « un saut générationnel par rapport aux modèles existants tels que Claude 2.1 et GPT-4 Turbo, qui pour l'instant plafonnent respectivement à 200 000 et 128 000 jetons ».
« Le modèle Gemini Ultra surpasse actuellement toutes les alternatives existantes sur un large éventail de tests de référence », a déclaré François Chollet, créateur de Keras et ingénieur logiciel chez Google, dans un billet en ligne. « Google dispose d'un mécanisme de filtrage des jeux de tests de pointe qui n'a pas d'équivalent à l'extérieur, de sorte que les tests de référence surestiment probablement d'autres modèles ».
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">More broadly: the Gemini Ultra model currently beats all existing alternative on a broad range of benchmarks -- and that's with Google having a state-of-the-art test set filtering mechanism that is unmatched externally, so the benchmarks are likely overestimating other models.</p>— François Chollet (@fchollet) <a href="https://twitter.com/fchollet/status/1756004581971214503?ref_src=twsrc%5Etfw">February 9, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Citant ces tests, Jeff Dean, scientifique en chef chez Google DeepMind et Google Research, a déclaré dans un message en ligne : « Pour le texte, Gemini 1.5 Pro atteint 100 % de rappel jusqu'à 530k tokens, 99,7 % jusqu'à 1M tokens et 99,2 % de précision jusqu'à 10M tokens ».
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Needle in a Haystack tests<br><br>The tech report also details a number of microbenchmark “needle in a haystack” tests (modeled after <a href="https://twitter.com/GregKamradt?ref_src=twsrc%5Etfw">@GregKamradt</a>’s <a href="https://t.co/Hms5EalX1L">https://t.co/Hms5EalX1L</a>
La grande capacité de Gemini 1.5 Pro lui permet de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
