
Gemini Pro 1.5, le premier modèle disponible, est multimodal, optimisé pour diverses tâches, et peut traiter jusqu'à 1 million de jetons. Il excelle dans l'analyse, la classification et le résumé d'informations, même avec des volumes importants, comme une heure de vidéo ou 11 heures d'audio. La capacité à raisonner sur des contextes longs ouvre de nouvelles possibilités, notamment dans la compréhension vidéo, la résolution de problèmes avec des blocs de code étendus, et la traduction de langues rares.
« La semaine dernière, nous avons lancé notre modèle le plus performant, Gemini 1.0 Ultra, et nous avons fait un grand pas en avant pour rendre les produits Google plus utiles, en commençant par Gemini Advanced. Aujourd'hui, les développeurs et les clients du cloud peuvent commencer à construire avec 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI.
Nos équipes continuent de repousser les limites de nos derniers modèles en plaçant la sécurité au cœur de leurs préoccupations. Elles font des progrès rapides. En fait, nous sommes prêts à présenter la prochaine génération : Gemini 1.5. Il présente des améliorations spectaculaires dans un certain nombre de dimensions et 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul.
Cette nouvelle génération offre également une percée dans la compréhension des contextes longs. Nous avons pu augmenter de manière significative la quantité d'informations que nos modèles peuvent traiter - en exécutant jusqu'à 1 million de tokens de manière cohérente, nous avons obtenu la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour.
L'allongement de la fenêtre contextuelle nous laisse entrevoir les possibilités qui s'offrent à nous. Elles permettront des capacités entièrement nouvelles et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis d'offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes. Demis en dit plus sur les capacités, la sécurité et la disponibilité ci-dessous », Sundar Pichai, PDG de Google et d'Alphabet.
Comparaison entre Gemini 1.5 Pro et GPT-4 Vision pour le traitement vidéo
À travers son compte Twitter, une développeuse de Google DeepMind a partagé qu'elle avait enregistré une vidéo d'une tâche, et Gemini a généré du code pour la reproduire. Cependant, il est important de noter que le code généré par Gemini n'est pas entièrement opérationnel, soulignant ainsi l'importance de vérifier attentivement les résultats produits par l'intelligence artificielle.
🤯 Mind officially blown:
— 👩*💻 Paige Bailey (@DynamicWebPaige) February 22, 2024
I recorded a screen capture of a task (looking for an apartment on Zillow). Gemini was able to generate Selenium code to replicate that task, and described everything I did step-by-step.
It even caught that my threshold was set to $3K, even though I… pic.twitter.com/IU7kvnYHlt
L'intégration de modèles tels que GPT-4 Vision et Gemini 1.5 Pro pour le traitement vidéo suscite un intérêt, mais des interrogations persistent quant à leur efficacité et à leur coût. GPT-4 Vision semble offrir une démo basée sur une séquence d'images, tandis que Gemini 1.5 Pro prétend pouvoir traiter jusqu'à une heure de vidéo, mais des inquiétudes émergent quant à la variation des fréquences d'échantillonnage et à la cohérence des résultats. La question du coût demeure centrale, avec des utilisateurs soulignant la nécessité d'une clarification sur la comparaison des jetons utilisés entre les deux modèles et sur la véritable efficacité économique.
Un débat émerge également sur la méthodologie de traitement des vidéos. Certains avis suggèrent que le processus ne se limite pas à une simple division en images, mais que Gemini 1.5 Pro segmente les vidéos en scènes, les contextualise sur plusieurs scènes, et peut générer un index et un résumé. Cette approche plus sophistiquée pourrait influencer la qualité des informations extraites, mais des préoccupations subsistent quant à la cohérence technique de cette méthodologie.
L'évaluation de ces modèles pour le traitement vidéo nécessite une compréhension approfondie de leurs performances pratiques, de leur coût réel et de leur capacité à répondre aux besoins spécifiques des utilisateurs. La transparence sur la méthodologie de traitement, la fréquence d'échantillonnage et les coûts associés est cruciale pour prendre des décisions informées et optimiser l'utilisation de ces technologies émergentes.
1.5 Pro a été soumis à des évaluations exhaustives couvrant divers domaines tels que textes, codes, images, audio et vidéo, surpassant 87 % des points de référence utilisés pour les grands modèles de langage (LLM) par rapport à 1.0 Pro. En comparaison avec 1.0 Ultra sur ces mêmes critères, les performances de 1.5 Pro sont largement similaires.
Malgré l'augmentation de la fenêtre contextuelle, Gemini 1.5 Pro maintient des niveaux élevés de performance. Dans l'évaluation Needle In A Haystack (NIAH), où un fragment de texte spécifique est inséré intentionnellement dans un long bloc de texte, 1.5 Pro a identifié le texte intégré dans 99 % des cas, même dans des blocs de données d'un million de jetons.
De la sécurité à l'apprentissage Multimodal
Les capacités d'"apprentissage en contexte" de Gemini 1.5 Pro sont impressionnantes, lui permettant d'acquérir de nouvelles compétences à partir d'informations fournies dans une longue invite, sans nécessiter de focalisation supplémentaire. Des tests sur le benchmark Machine Translation from One Book (MTOB) démontrent sa capacité à apprendre à traduire vers le kalamang, une langue rare avec moins de 200 locuteurs, à un niveau comparable à celui d'une personne apprenant à partir du même contenu.
En tant que premier modèle à grande échelle avec une fenêtre contextuelle étendue, 1.5 Pro est soumis à des évaluations continues et à de nouveaux critères de référence pour tester ses capacités évolutives. Des tests approfondis d'éthique et de sécurité sont effectués conformément aux principes d'IA et aux politiques strictes de Google.
Depuis le lancement de la version 1.0 Ultra en décembre, des ajustements ont été apportés pour améliorer la sécurité, des recherches sur les risques ont été menées, et des techniques d'équipe d'experts ont été développées pour tester divers dommages potentiels. Avant le déploiement de la version 1.5 Pro, une approche responsable a été...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.