IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4
Et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

Le , par Stéphane le calme

2.4KPARTAGES

5  0 
Google a dévoilé un nouveau modèle d'intelligence artificielle qui, selon lui, surpasse ChatGPT dans la plupart des tests et affiche un « raisonnement avancé » dans plusieurs formats, y compris la possibilité de visualiser et de noter les devoirs de physique d'un étudiant. Le modèle, appelé Gemini, est le premier à être annoncé depuis le sommet mondial sur la sécurité de l’IA du mois dernier, au cours duquel les entreprises technologiques ont convenu de collaborer avec les gouvernements pour tester des systèmes avancés avant et après leur lancement. Google a déclaré qu'il était en discussion avec le nouveau AI Safety Institute du Royaume-Uni pour tester la version la plus puissante de Gemini, qui sera publiée l'année prochaine.

Google a adopté une approche prudente lors du lancement de son chatbot IA, Bard, plus tôt cette année, le décrivant comme « une expérience ». Bard a commis une erreur dans sa propre démo publicitaire, en fournissant une mauvaise réponse à une question sur l'espace. Mais Google fait de grandes affirmations concernant son nouveau modèle, le décrivant comme étant « le plus performant » à ce jour et a suggéré qu'il peut surpasser les experts humains dans une série de tests d'intelligence.

Alphabet a présenté mercredi son modèle d'intelligence artificielle le plus avancé, une technologie capable de traiter différentes formes d'informations telles que la vidéo, l'audio et le texte. Appelé Gemini, le modèle d'IA très attendu du propriétaire de Google possède des « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon l'entreprise.

Citation Envoyé par Google
Gemini est également notre modèle le plus flexible à ce jour : capable de fonctionner efficacement sur tout, des centres de données aux appareils mobiles. Ses capacités de pointe amélioreront considérablement la façon dont les développeurs et les entreprises clientes construisent et évoluent avec l’IA.

Nous avons optimisé Gemini 1.0, notre première version, pour trois tailles différentes :
  • Gemini Ultra — notre modèle le plus grand et le plus performant pour les tâches très complexes.
  • Gemini Pro : notre meilleur modèle pour évoluer vers un large éventail de tâches.
  • Gemini Nano — notre modèle le plus efficace pour les tâches sur appareil.

Google a déclaré qu'Ultra avait surpassé les modèles d'IA « de pointe », y compris le modèle le plus puissant de ChatGPT, GPT-4, dans 30 des 32 tests de référence, y compris en matière de raisonnement et de compréhension des images. Le modèle Pro a surpassé GPT-3.5, la technologie qui sous-tend la version en accès gratuit de ChatGPT, dans six tests sur huit.

Le modèle est disponible en trois versions et est « multimodal », ce qui signifie qu’il peut comprendre simultanément du texte, de l’audio, des images, de la vidéo et du code informatique.

Gemini, qui sera intégré aux produits Google, y compris son moteur de recherche, est initialement lancé mercredi dans plus de 170 pays, dont les États-Unis, sous la forme d'une mise à niveau du chatbot de Google, Bard. Cependant, la mise à niveau Bard ne sera pas publiée au Royaume-Uni et en Europe, car Google demande l'autorisation des régulateurs.

Deux versions plus petites de Gemini, Pro et Nano, seront publiées mercredi. Le modèle Pro est accessible sur le chatbot Bard de Google et la version Nano sera sur les téléphones mobiles utilisant le système Android de Google.

L'itération la plus puissante, Ultra, est testée en externe et ne sera rendue publique que début 2024, date à laquelle elle sera également intégrée à une version de Bard appelée Bard Advanced.

Google a déclaré qu'Ultra était le premier modèle d'IA à surpasser les experts humains, avec un score de 90 %, à un test multitâche appelé MMLU, qui couvre 57 matières, dont les mathématiques, la physique, le droit, la médecine et l'éthique. Ultra va désormais alimenter un nouvel outil d'écriture de code appelé AlphaCode2, qui, selon Google, pourrait surpasser 85 % des programmeurs informatiques humains de niveau concurrent.


Gemini en action dans des interactions non textuelles : la démo de Google

C'est dans les interactions non textuelles que les Gemini brille vraiment, déclare Demis Hassabis, responsable de Google DeepMind. « Nous l’avons construit de A à Z pour qu’il soit nativement multimodal », dit-il. « C'est l'une des nouvelles capacités dont il dispose… le type d'intégration et de raisonnement transparents qu'il peut réaliser entre les modalités ».

Dans une démo, le YouTuber Mark Rober s'est servi de Bard pour créer l'avion en papier parfait (notamment en prenant des photos de ses créations pour obtenir des commentaires fournis par l'IA). Dans une autre démo, des parents ont téléchargé des photos des devoirs de leurs enfants pour obtenir de l'aide pour déterminer où leurs calculs avaient mal tourné.


Nous pouvons aussi parler de cette démo où Gemini s'est montré capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes d'un humain ou de réagir à des situations par l’humour. Une des forces de la démonstration en vidéo est qu'à un moment, l’utilisateur ne pose plus de questions; c’est Gemini qui devine seul le contexte et qui parle.


Mais pour le moment, ce ne sont que des démos et des vidéos promotionnelles. Sundar Pichai, PDG d'Alphabet, dit qu'il considère ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l'ère de Gemini.

Quelques particularités de Gemini

Ceci est extrait de la communication de Google.

Capacités de nouvelle génération

Jusqu'à présent, l'approche standard de création de modèles multimodaux impliquait la formation de composants distincts pour différentes modalités, puis leur assemblage pour imiter approximativement certaines de ces fonctionnalités. Ces modèles peuvent parfois être efficaces pour accomplir certaines tâches, comme décrire des images, mais ont du mal à répondre à un raisonnement plus conceptuel et complexe.

Nous avons conçu Gemini pour qu'il soit nativement multimodal, pré-entraîné dès le départ sur différentes modalités. Nous l’avons ensuite affiné avec des données multimodales supplémentaires pour affiner encore son efficacité. Cela aide Gemini à comprendre et à raisonner de manière transparente sur toutes sortes d’entrées, bien mieux que les modèles multimodaux existants – et ses capacités sont à la pointe de la technologie dans presque tous les domaines.

Raisonnement sophistiqué

Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à donner un sens à des informations écrites et visuelles complexes. Cela le rend particulièrement compétent pour découvrir des connaissances qui peuvent être difficiles à discerner parmi de grandes quantités de données.

Sa capacité remarquable à extraire des informations de centaines de milliers de documents grâce à la lecture, au filtrage et à la compréhension des informations contribuera à réaliser de nouvelles avancées à la vitesse du numérique dans de nombreux domaines, de la science à la finance.


Comprendre le texte, les images, l'audio et plus encore

Gemini 1.0 a été formé pour reconnaître et comprendre simultanément du texte, des images, du son et bien plus encore, afin de mieux comprendre les informations nuancées et de pouvoir répondre aux questions relatives à des sujets complexes. Cela le rend particulièrement efficace pour expliquer le raisonnement dans des matières complexes comme les mathématiques et la physique.


Codage avancé

Notre première version de Gemini peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, comme Python, Java, C++ et Go. Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles de base pour le codage au monde.

Gemini Ultra excelle dans plusieurs tests de codage, notamment HumanEval, une norme industrielle importante pour évaluer les performances des tâches de codage, et Natural2Code, notre ensemble de données interne réservé, qui utilise des sources générées par l'auteur au lieu d'informations basées sur le Web.

Gemini peut également être utilisé comme moteur pour des systèmes de codage plus avancés. Il y a deux ans, nous présentions AlphaCode, le premier système de génération de code d'IA à atteindre un niveau de performance compétitif dans les compétitions de programmation.

À l'aide d'une version spécialisée de Gemini, nous avons créé un système...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 16/04/2024 à 20:59
1  0