Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul »,

Explique le PDG Sundar Pichai

Le 16 février 2024 à 12:55, par Stéphane le calme

56PARTAGES

Une semaine après sa dernière annonce majeure en matière d'IA, Google semble s'être surpassé. Jeudi de la semaine dernière, Google a lancé Gemini Ultra 1.0, qui était censé représenter le meilleur modèle de langage d'IA que Google pouvait rassembler - disponible dans le cadre de l'assistant d'IA rebaptisé "Gemini" (anciennement Bard). Cette fois-ci, Google annonce Gemini Pro 1.5, qui, selon la société, « atteint une qualité comparable à celle de 1.0 Ultra, tout en utilisant moins de ressources informatiques ».

Deux mois à peine après le lancement de Gemini, le grand modèle de langage sur lequel Google mise pour se hisser au sommet de l'industrie de l'IA, l'entreprise annonce déjà son successeur. Google a présenté Gemini 1.5 et le met à la disposition des développeurs et des utilisateurs professionnels, avant de le proposer prochainement au grand public. L'entreprise a clairement indiqué qu'elle souhaitait faire de Gemini un outil professionnel, un assistant personnel et tout ce qui se trouve entre les deux, et qu'elle met tout en œuvre pour atteindre cet objectif.

Gemini 1.5 comporte de nombreuses améliorations : Gemini 1.5 Pro, le modèle polyvalent du système de Google, est apparemment au même niveau que le Gemini Ultra haut de gamme que l'entreprise n'a lancé que récemment, et il a surpassé Gemini 1.0 Pro dans 87 % des tests de référence. Il a été réalisé à l'aide d'une technique de plus en plus courante appelée "Mixture of Experts" (MoE), ce qui signifie qu'il n'exécute qu'une partie du modèle global lorsque vous envoyez une requête, plutôt que de traiter l'ensemble du modèle en permanence (cette approche devrait rendre le modèle plus rapide pour vous et plus efficace pour Google).

Mais il y a une nouveauté dans Gemini 1.5 qui enthousiasme toute l'entreprise, à commencer par le PDG Sundar Pichai : Gemini 1.5 dispose d'une énorme fenêtre contextuelle, ce qui signifie qu'il peut traiter des requêtes beaucoup plus importantes et examiner beaucoup plus d'informations à la fois. Cette fenêtre est d'un million de jetons, contre 128 000 pour la GPT-4 d'OpenAI et 32 000 pour la version actuelle de Gemini Pro. Les jetons sont une mesure difficile à comprendre, c'est pourquoi Pichai simplifie : « Cela représente environ 10 ou 11 heures de vidéo, des dizaines de milliers de lignes de code ». La fenêtre contextuelle permet d'interroger l'intelligence artificielle sur l'ensemble de ce contenu en une seule fois.

Envoyé par Sundar Pichai

La semaine dernière, nous avons lancé notre modèle le plus performant, Gemini 1.0 Ultra, et nous avons fait un grand pas en avant pour rendre les produits Google plus utiles, en commençant par Gemini Advanced. Aujourd'hui, les développeurs et les clients du cloud peuvent commencer à construire avec 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI.

Nos équipes continuent de repousser les limites de nos derniers modèles en plaçant la sécurité au cœur de leurs préoccupations. Elles font des progrès rapides. En fait, nous sommes prêts à présenter la prochaine génération : Gemini 1.5. Il présente des améliorations spectaculaires dans un certain nombre de dimensions et 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul.

Cette nouvelle génération offre également une percée dans la compréhension des contextes longs. Nous avons pu augmenter de manière significative la quantité d'informations que nos modèles peuvent traiter - en exécutant jusqu'à 1 million de tokens de manière cohérente, nous avons obtenu la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour.

L'allongement de la fenêtre contextuelle nous laisse entrevoir les possibilités qui s'offrent à nous. Elles permettront des capacités entièrement nouvelles et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis d'offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes. Demis en dit plus sur les capacités, la sécurité et la disponibilité ci-dessous.

Un « saut générationnel », selon les chercheurs de Google

« Gemini 1.5 Pro permet d'obtenir un rappel [ndlr. "recall" en anglais, qui est la capacité d'un modèle à trouver tous les cas pertinents dans un ensemble de données] presque parfait sur les tâches de recherche en contexte long dans toutes les modalités, améliore l'état de l'art en matière d'assurance qualité des documents longs, d'assurance qualité des vidéos longues et d'ASR en contexte long, et égale ou dépasse les performances de pointe de Gemini 1.0 Ultra sur un large éventail de points de référence », écrivent les chercheurs de Google dans un document technique sur Gemini 1.5 Pro.

En d'autres termes, lorsqu'on lui présente un long document à assimiler - jusqu'à 10 millions de jetons - Gemini 1.5 peut répondre de manière appropriée à une requête spécifique dans plus de 99 % des cas. Selon les chercheurs de Google, la capacité de 10 millions de jetons de Gemini représente « un saut générationnel par rapport aux modèles existants tels que Claude 2.1 et GPT-4 Turbo, qui pour l'instant plafonnent respectivement à 200 000 et 128 000 jetons ».

« Le modèle Gemini Ultra surpasse actuellement toutes les alternatives existantes sur un large éventail de tests de référence », a déclaré François Chollet, créateur de Keras et ingénieur logiciel chez Google, dans un billet en ligne. « Google dispose d'un mécanisme de filtrage des jeux de tests de pointe qui n'a pas d'équivalent à l'extérieur, de sorte que les tests de référence surestiment probablement d'autres modèles ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">More broadly: the Gemini Ultra model currently beats all existing alternative on a broad range of benchmarks -- and that's with Google having a state-of-the-art test set filtering mechanism that is unmatched externally, so the benchmarks are likely overestimating other models.</p>— François Chollet (@fchollet) <a href="https://twitter.com/fchollet/status/1756004581971214503?ref_src=twsrc%5Etfw">February 9, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Citant ces tests, Jeff Dean, scientifique en chef chez Google DeepMind et Google Research, a déclaré dans un message en ligne : « Pour le texte, Gemini 1.5 Pro atteint 100 % de rappel jusqu'à 530k tokens, 99,7 % jusqu'à 1M tokens et 99,2 % de précision jusqu'à 10M tokens ».

[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Needle in a Haystack tests<br><br>The tech report also details a number of microbenchmark “needle in a haystack” tests (modeled after <a href="https://twitter.com/GregKamradt?ref_src=twsrc%5Etfw">@GregKamradt</a>’s <a href="https://t.co/Hms5EalX1L">https://t.co/Hms5EalX1L</a>

that probe the model’s ability to retrieve specific information from its context.<br><br>For text, Gemini 1.5 Pro… <a href="https://t.co/75isTIRCsg">pic.twitter.com/75isTIRCsg</a></p>— Jeff Dean (@🏡

(@JeffDean) <a href="https://twitter.com/JeffDean/status/1758150158813213176?ref_src=twsrc%5Etfw">February 15, 2024</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

La grande capacité de Gemini 1.5 Pro lui permet de réaliser des exploits tels que l'ingestion de la transcription de 402 pages du vol Apollo 11 (326 914 jetons) puis, lorsqu'on le lui demande, de trouver « trois moments comiques » dans les échanges entre les astronautes d'Apollo 11 et d'identifier le texte de la transcription qui correspond à un croquis dessiné à la main d'une botte marchant sur la surface lunaire.

Lors de l'alimentation de Sherlock Jr, un film de 45 minutes de Buster Keaton datant de 1924 (2 674 images à 1FPS, 684K jetons), Gemini 1.5 Pro a répondu à l'invite « Donne-moi quelques informations clés sur le morceau de papier qui est retiré de la poche de la personne, et le timecode de ce moment » en récitant le texte de la note dans le film et l'heure à laquelle la scène s'est déroulée.

Google offre gratuitement aux développeurs et aux entreprises clientes un aperçu limité de Gemini 1.5 Pro avec une fenêtre contextuelle de 1 million de jetons par l'intermédiaire de ses services AI Studio et Vertex AI. La disponibilité générale avec une fenêtre contextuelle de 128K jetons sera annoncée ultérieurement, de même que la structure de prix de la méga-entreprise.

Fiche technique : le meilleur modèle de codage existant ?

Pour ceux qui souhaitent se plonger dans les détails techniques, Google a publié un rapport technique sur Gemini 1.5 qui semble montrer que Gemini est plus performant que GPT-4 Turbo sur diverses tâches, mais il est également important de noter que la sélection et l'interprétation de ces benchmarks peuvent être subjectives. Le rapport donne quelques chiffres sur l'amélioration de la version 1.5 par rapport à la version 1.0, indiquant qu'elle est 28,9 % plus performante que la version 1.0 Pro en « mathématiques, sciences et raisonnement » et 5,2 % plus performante dans ces domaines que la version 1.0 Ultra.

Selon natrual2code, Gemini 1.5 Pro dispose de la meilleure précision en codage :

Les points saillants de Gemini 1.5

Google a noté les points forts de la nouvelle version. Ci-dessous un extrait de son communiqué :

Une architecture très efficace

Gemini 1.5 s'appuie sur nos recherches de pointe en matière d'architecture Transformer et MoE. Alors qu'un transformateur traditionnel fonctionne comme un grand réseau neuronal, les modèles MoE sont divisés en réseaux neuronaux "experts" plus petits.

En fonction du type d'entrée, les modèles MoE apprennent à activer de manière sélective les voies expertes les plus pertinentes de leur réseau neuronal. Cette spécialisation améliore considérablement l'efficacité du modèle. Google a été l'un des premiers adoptants et pionniers de la technique MoE pour l'apprentissage profond grâce à des recherches telles que Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 et bien d'autres encore.

Nos dernières innovations en matière d'architecture de modèle permettent à Gemini 1.5 d'apprendre des tâches complexes plus rapidement et de maintenir la qualité, tout en étant plus efficace pour la formation et le service. Ces gains d'efficacité permettent à nos équipes d'itérer, de former et de fournir des versions plus avancées de Gemini plus rapidement que jamais, et nous travaillons à d'autres optimisations.

Plus de contexte, plus de capacités utiles

La "fenêtre contextuelle" d'un modèle d'IA est constituée de jetons, qui sont les éléments de base utilisés pour traiter les informations. Les jetons peuvent être des parties ou des sous-sections entières de mots, d'images, de vidéos, de sons ou de codes. Plus la fenêtre contextuelle d'un modèle est grande, plus il peut absorber et traiter d'informations dans une invite donnée, ce qui rend ses résultats plus cohérents, plus pertinents et plus utiles.

Grâce à une série d'innovations en matière d'apprentissage automatique, nous avons augmenté la capacité de la fenêtre contextuelle de 1.5 Pro bien au-delà des 32 000 jetons prévus à l'origine pour Gemini 1.0. Nous pouvons désormais utiliser jusqu'à 1 million de jetons en production.

Cela signifie que 1.5 Pro peut traiter de grandes quantités d'informations en une seule fois, y compris 1 heure de vidéo, 11 heures d'audio, des bases de code de plus de 30 000 lignes de code ou plus de 700 000 mots. Dans le cadre de nos recherches, nous avons également testé avec succès jusqu'à 10 millions de jetons.

Raisonnement complexe sur de grandes quantités d'informations

1.5 Pro est capable d'analyser, de classer et de résumer de grandes quantités d'informations dans un document donné. Par exemple, lorsqu'on lui donne les 402 pages de la transcription de la mission d'Apollo 11 sur la lune, il peut raisonner sur les conversations, les événements et les détails trouvés dans le document.

Une meilleure compréhension et un meilleur raisonnement entre les différentes modalités

1.5 Pro peut effectuer des tâches de compréhension et de raisonnement très sophistiquées pour différentes modalités, y compris la vidéo. Par exemple, lorsqu'on lui présente un film muet de 44 minutes de Buster Keaton, le modèle peut analyser avec précision les différents points de l'intrigue et les événements, et même raisonner sur de petits détails du film qui pourraient facilement passer inaperçus.

OpenAI dévoile de son côté Sora

Pour ne pas être en reste, OpenAI a dévoilé jeudi Sora, un modèle de conversion de texte...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul »,

Explique le PDG Sundar Pichai

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », Explique le PDG Sundar Pichai

Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul »,

Explique le PDG Sundar Pichai