
Google a adopté une approche prudente lors du lancement de son chatbot IA, Bard, plus tôt cette année, le décrivant comme « une expérience ». Bard a commis une erreur dans sa propre démo publicitaire, en fournissant une mauvaise réponse à une question sur l'espace. Mais Google fait de grandes affirmations concernant son nouveau modèle, le décrivant comme étant « le plus performant » à ce jour et a suggéré qu'il peut surpasser les experts humains dans une série de tests d'intelligence.
Alphabet a présenté mercredi son modèle d'intelligence artificielle le plus avancé, une technologie capable de traiter différentes formes d'informations telles que la vidéo, l'audio et le texte. Appelé Gemini, le modèle d'IA très attendu du propriétaire de Google possède des « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon l'entreprise.

Le modèle est disponible en trois versions et est « multimodal », ce qui signifie qu’il peut comprendre simultanément du texte, de l’audio, des images, de la vidéo et du code informatique.
Gemini, qui sera intégré aux produits Google, y compris son moteur de recherche, est initialement lancé mercredi dans plus de 170 pays, dont les États-Unis, sous la forme d'une mise à niveau du chatbot de Google, Bard. Cependant, la mise à niveau Bard ne sera pas publiée au Royaume-Uni et en Europe, car Google demande l'autorisation des régulateurs.
Deux versions plus petites de Gemini, Pro et Nano, seront publiées mercredi. Le modèle Pro est accessible sur le chatbot Bard de Google et la version Nano sera sur les téléphones mobiles utilisant le système Android de Google.
L'itération la plus puissante, Ultra, est testée en externe et ne sera rendue publique que début 2024, date à laquelle elle sera également intégrée à une version de Bard appelée Bard Advanced.
Google a déclaré qu'Ultra était le premier modèle d'IA à surpasser les experts humains, avec un score de 90 %, à un test multitâche appelé MMLU, qui couvre 57 matières, dont les mathématiques, la physique, le droit, la médecine et l'éthique. Ultra va désormais alimenter un nouvel outil d'écriture de code appelé AlphaCode2, qui, selon Google, pourrait surpasser 85 % des programmeurs informatiques humains de niveau concurrent.
Gemini en action dans des interactions non textuelles : la démo de Google
C'est dans les interactions non textuelles que les Gemini brille vraiment, déclare Demis Hassabis, responsable de Google DeepMind. « Nous l’avons construit de A à Z pour qu’il soit nativement multimodal », dit-il. « C'est l'une des nouvelles capacités dont il dispose… le type d'intégration et de raisonnement transparents qu'il peut réaliser entre les modalités ».
Dans une démo, le YouTuber Mark Rober s'est servi de Bard pour créer l'avion en papier parfait (notamment en prenant des photos de ses créations pour obtenir des commentaires fournis par l'IA). Dans une autre démo, des parents ont téléchargé des photos des devoirs de leurs enfants pour obtenir de l'aide pour déterminer où leurs calculs avaient mal tourné.
Nous pouvons aussi parler de cette démo où Gemini s'est montré capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes d'un humain ou de réagir à des situations par l’humour. Une des forces de la démonstration en vidéo est qu'à un moment, l’utilisateur ne pose plus de questions; c’est Gemini qui devine seul le contexte et qui parle.
Mais pour le moment, ce ne sont que des démos et des vidéos promotionnelles. Sundar Pichai, PDG d'Alphabet, dit qu'il considère ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l'ère de Gemini.
Quelques particularités de Gemini
Ceci est extrait de la communication de Google.
Capacités de nouvelle génération
Jusqu'à présent, l'approche standard de création de modèles multimodaux impliquait la formation de composants distincts pour différentes modalités, puis leur assemblage pour imiter approximativement certaines de ces fonctionnalités. Ces modèles peuvent parfois être efficaces pour accomplir certaines tâches, comme décrire des images, mais ont du mal à répondre à un raisonnement plus conceptuel et complexe.
Nous avons conçu Gemini pour qu'il soit nativement multimodal, pré-entraîné dès le départ sur différentes modalités. Nous l’avons ensuite affiné avec des données multimodales supplémentaires pour affiner encore son efficacité. Cela aide Gemini à comprendre et à raisonner de manière transparente sur toutes sortes d’entrées, bien mieux que les modèles multimodaux existants – et ses capacités sont à la pointe de la technologie dans presque tous les domaines.
Raisonnement sophistiqué
Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à donner un sens à des informations écrites et visuelles complexes. Cela le rend particulièrement compétent pour découvrir des connaissances qui peuvent être difficiles à discerner parmi de grandes quantités de données.
Sa capacité remarquable à extraire des informations de centaines de milliers de documents grâce à la lecture, au filtrage et à la compréhension des informations contribuera à réaliser de nouvelles avancées à la vitesse du numérique dans de nombreux domaines, de la science à la finance.
Comprendre le texte, les images, l'audio et plus encore
Gemini 1.0 a été formé pour reconnaître et comprendre simultanément du texte, des images, du son et bien plus encore, afin de mieux comprendre les informations nuancées et de pouvoir répondre aux questions relatives à des sujets complexes. Cela le rend particulièrement efficace pour expliquer le raisonnement dans des matières complexes comme les mathématiques et la physique.
Codage avancé
Notre première version de Gemini peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, comme Python, Java, C++ et Go. Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles de base pour le codage au monde.
Gemini Ultra excelle dans plusieurs tests de codage, notamment HumanEval, une norme industrielle importante pour évaluer les performances des tâches de codage, et Natural2Code, notre ensemble de données interne réservé, qui utilise des sources générées par l'auteur au lieu d'informations basées sur le Web.
Gemini peut également être utilisé comme moteur pour des systèmes de codage plus avancés. Il y a deux ans, nous présentions AlphaCode, le premier système de génération de code d'IA à atteindre un niveau de performance compétitif dans les compétitions de programmation.
À l'aide d'une version spécialisée de Gemini, nous avons créé un système...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.