Gemini Pro 1.5, le premier modèle disponible, est multimodal, optimisé pour diverses tâches, et peut traiter jusqu'à 1 million de jetons. Il excelle dans l'analyse, la classification et le résumé d'informations, même avec des volumes importants, comme une heure de vidéo ou 11 heures d'audio. La capacité à raisonner sur des contextes longs ouvre de nouvelles possibilités, notamment dans la compréhension vidéo, la résolution de problèmes avec des blocs de code étendus, et la traduction de langues rares.
« La semaine dernière, nous avons lancé notre modèle le plus performant, Gemini 1.0 Ultra, et nous avons fait un grand pas en avant pour rendre les produits Google plus utiles, en commençant par Gemini Advanced. Aujourd'hui, les développeurs et les clients du cloud peuvent commencer à construire avec 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI.
Nos équipes continuent de repousser les limites de nos derniers modèles en plaçant la sécurité au cœur de leurs préoccupations. Elles font des progrès rapides. En fait, nous sommes prêts à présenter la prochaine génération : Gemini 1.5. Il présente des améliorations spectaculaires dans un certain nombre de dimensions et 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul.
Cette nouvelle génération offre également une percée dans la compréhension des contextes longs. Nous avons pu augmenter de manière significative la quantité d'informations que nos modèles peuvent traiter - en exécutant jusqu'à 1 million de tokens de manière cohérente, nous avons obtenu la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour.
L'allongement de la fenêtre contextuelle nous laisse entrevoir les possibilités qui s'offrent à nous. Elles permettront des capacités entièrement nouvelles et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis d'offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes. Demis en dit plus sur les capacités, la sécurité et la disponibilité ci-dessous », Sundar Pichai, PDG de Google et d'Alphabet.
Comparaison entre Gemini 1.5 Pro et GPT-4 Vision pour le traitement vidéo
À travers son compte Twitter, une développeuse de Google DeepMind a partagé qu'elle avait enregistré une vidéo d'une tâche, et Gemini a généré du code pour la reproduire. Cependant, il est important de noter que le code généré par Gemini n'est pas entièrement opérationnel, soulignant ainsi l'importance de vérifier attentivement les résultats produits par l'intelligence artificielle.
🤯 Mind officially blown:
— 👩*💻 Paige Bailey (@DynamicWebPaige) February 22, 2024
I recorded a screen capture of a task (looking for an apartment on Zillow). Gemini was able to generate Selenium code to replicate that task, and described everything I did step-by-step.
It even caught that my threshold was set to $3K, even though I… pic.twitter.com/IU7kvnYHlt
L'intégration de modèles tels que GPT-4 Vision et Gemini 1.5 Pro pour le traitement vidéo suscite un intérêt, mais des interrogations persistent quant à leur efficacité et à leur coût. GPT-4 Vision semble offrir une démo basée sur une séquence d'images, tandis que Gemini 1.5 Pro prétend pouvoir traiter jusqu'à une heure de vidéo, mais des inquiétudes émergent quant à la variation des fréquences d'échantillonnage et à la cohérence des résultats. La question du coût demeure centrale, avec des utilisateurs soulignant la nécessité d'une clarification sur la comparaison des jetons utilisés entre les deux modèles et sur la véritable efficacité économique.
Un débat émerge également sur la méthodologie de traitement des vidéos. Certains avis suggèrent que le processus ne se limite pas à une simple division en images, mais que Gemini 1.5 Pro segmente les vidéos en scènes, les contextualise sur plusieurs scènes, et peut générer un index et un résumé. Cette approche plus sophistiquée pourrait influencer la qualité des informations extraites, mais des préoccupations subsistent quant à la cohérence technique de cette méthodologie.
L'évaluation de ces modèles pour le traitement vidéo nécessite une compréhension approfondie de leurs performances pratiques, de leur coût réel et de leur capacité à répondre aux besoins spécifiques des utilisateurs. La transparence sur la méthodologie de traitement, la fréquence d'échantillonnage et les coûts associés est cruciale pour prendre des décisions informées et optimiser l'utilisation de ces technologies émergentes.
1.5 Pro a été soumis à des évaluations exhaustives couvrant divers domaines tels que textes, codes, images, audio et vidéo, surpassant 87 % des points de référence utilisés pour les grands modèles de langage (LLM) par rapport à 1.0 Pro. En comparaison avec 1.0 Ultra sur ces mêmes critères, les performances de 1.5 Pro sont largement similaires.
Malgré l'augmentation de la fenêtre contextuelle, Gemini 1.5 Pro maintient des niveaux élevés de performance. Dans l'évaluation Needle In A Haystack (NIAH), où un fragment de texte spécifique est inséré intentionnellement dans un long bloc de texte, 1.5 Pro a identifié le texte intégré dans 99 % des cas, même dans des blocs de données d'un million de jetons.
De la sécurité à l'apprentissage Multimodal
Les capacités d'"apprentissage en contexte" de Gemini 1.5 Pro sont impressionnantes, lui permettant d'acquérir de nouvelles compétences à partir d'informations fournies dans une longue invite, sans nécessiter de focalisation supplémentaire. Des tests sur le benchmark Machine Translation from One Book (MTOB) démontrent sa capacité à apprendre à traduire vers le kalamang, une langue rare avec moins de 200 locuteurs, à un niveau comparable à celui d'une personne apprenant à partir du même contenu.
En tant que premier modèle à grande échelle avec une fenêtre contextuelle étendue, 1.5 Pro est soumis à des évaluations continues et à de nouveaux critères de référence pour tester ses capacités évolutives. Des tests approfondis d'éthique et de sécurité sont effectués conformément aux principes d'IA et aux politiques strictes de Google.
Depuis le lancement de la version 1.0 Ultra en décembre, des ajustements ont été apportés pour améliorer la sécurité, des recherches sur les risques ont été menées, et des techniques d'équipe d'experts ont été développées pour tester divers dommages potentiels. Avant le déploiement de la version 1.5 Pro, une approche responsable a été adoptée, avec des évaluations approfondies dans des domaines tels que la sécurité du contenu et les préjudices liés à la représentation, et des tests continus sont prévus pour tenir compte des nouvelles capacités de contexte long.
L'architecture de modèle repose sur des recherches avancées en matière de Transformer et MoE, offrant des performances accrues tout en maintenant la qualité. Gemini 1.5 Pro a été testé sur diverses modalités (texte, code, images, audio, vidéo), surpassant son prédécesseur sur 87 % des points de référence. Des tests approfondis d'éthique et de sécurité ont été effectués, et le modèle est proposé aux développeurs et entreprises via AI Studio et Vertex AI, avec une fenêtre contextuelle standard de 128 000 jetons.
La fonctionnalité la plus notable de Gemini Pro 1.5 est son utilisation de la vidéo comme entrée, ouvrant de nouvelles perspectives pour des applications diverses. Des tests pratiques ont démontré la capacité du modèle à identifier des objets dans une vidéo et à fournir des informations pertinentes, marquant une avancée significative dans l'application de l'IA à des données multimodales.
L'enthousiasme autour de Gemini Pro 1.5 est tempéré par des questions éthiques et de sécurité cruciales. Bien que Google affirme avoir soumis le modèle à des tests approfondis, la question de la fiabilité éthique des résultats persiste. Les risques potentiels liés à la représentation, bien que explorés, nécessitent une vigilance continue, en particulier avec l'introduction de nouvelles capacités de contexte long dans la version 1.5 Pro.
En outre, la déclaration sur les performances similaires à celles de 1.0 Ultra soulève des interrogations. Si la comparaison est valable sur les points de référence spécifiques, elle ne fournit pas une image complète de la valeur ajoutée réelle de la mise à jour. L'utilisation expérimentale de la vidéo comme entrée est certes innovante, mais des questions subsistent quant à la manipulation de données visuelles de manière éthique et équitable, ainsi qu'à la gestion de la confidentialité des utilisateurs.
Source : Google
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon
Google lance Gemini Pro. Son modèle d'IA est accessible pour les développeurs et les entreprises via Google AI Studio et Vertex AI, mais sa tarification fait déjà l'objet de critiques