IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos,
Avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb

Le , par Bruno

183PARTAGES

5  0 
Google a récemment annoncé Gemini Pro 1.5, la dernière mise à jour de sa série de modèles d'IA Gemini. Cette version offre des améliorations significatives, notamment une fenêtre contextuelle de 1 million de jetons, surpassant largement les précédents détenteurs du record tels que Claude 2.1 (200 000 jetons) et gpt-4-turbo (128 000 jetons). Cependant, il est important de noter que la comparaison directe entre ces modèles est quelque peu nuancée en raison des différences d'implémentation des jetons. Elle permet une compréhension approfondie des contextes longs. La nouvelle architecture MoE (Mélange d'experts) et des innovations dans l'apprentissage automatique rendent Gemini 1.5 plus performant et efficace pour la formation et le service.

Gemini Pro 1.5, le premier modèle disponible, est multimodal, optimisé pour diverses tâches, et peut traiter jusqu'à 1 million de jetons. Il excelle dans l'analyse, la classification et le résumé d'informations, même avec des volumes importants, comme une heure de vidéo ou 11 heures d'audio. La capacité à raisonner sur des contextes longs ouvre de nouvelles possibilités, notamment dans la compréhension vidéo, la résolution de problèmes avec des blocs de code étendus, et la traduction de langues rares.


« La semaine dernière, nous avons lancé notre modèle le plus performant, Gemini 1.0 Ultra, et nous avons fait un grand pas en avant pour rendre les produits Google plus utiles, en commençant par Gemini Advanced. Aujourd'hui, les développeurs et les clients du cloud peuvent commencer à construire avec 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI.

Nos équipes continuent de repousser les limites de nos derniers modèles en plaçant la sécurité au cœur de leurs préoccupations. Elles font des progrès rapides. En fait, nous sommes prêts à présenter la prochaine génération : Gemini 1.5. Il présente des améliorations spectaculaires dans un certain nombre de dimensions et 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul.

Cette nouvelle génération offre également une percée dans la compréhension des contextes longs. Nous avons pu augmenter de manière significative la quantité d'informations que nos modèles peuvent traiter - en exécutant jusqu'à 1 million de tokens de manière cohérente, nous avons obtenu la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour.

L'allongement de la fenêtre contextuelle nous laisse entrevoir les possibilités qui s'offrent à nous. Elles permettront des capacités entièrement nouvelles et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis d'offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes. Demis en dit plus sur les capacités, la sécurité et la disponibilité ci-dessous », Sundar Pichai, PDG de Google et d'Alphabet.

Comparaison entre Gemini 1.5 Pro et GPT-4 Vision pour le traitement vidéo

À travers son compte Twitter, une développeuse de Google DeepMind a partagé qu'elle avait enregistré une vidéo d'une tâche, et Gemini a généré du code pour la reproduire. Cependant, il est important de noter que le code généré par Gemini n'est pas entièrement opérationnel, soulignant ainsi l'importance de vérifier attentivement les résultats produits par l'intelligence artificielle.



L'intégration de modèles tels que GPT-4 Vision et Gemini 1.5 Pro pour le traitement vidéo suscite un intérêt, mais des interrogations persistent quant à leur efficacité et à leur coût. GPT-4 Vision semble offrir une démo basée...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 16/04/2024 à 20:59
1  0