Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4

Et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

Le 7 décembre 2023 à 07:54, par Stéphane le calme

2.4KPARTAGES

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4.
Il dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon Alphabet

Google a dévoilé un nouveau modèle d'intelligence artificielle qui, selon lui, surpasse ChatGPT dans la plupart des tests et affiche un « raisonnement avancé » dans plusieurs formats, y compris la possibilité de visualiser et de noter les devoirs de physique d'un étudiant. Le modèle, appelé Gemini, est le premier à être annoncé depuis le sommet mondial sur la sécurité de l’IA du mois dernier, au cours duquel les entreprises technologiques ont convenu de collaborer avec les gouvernements pour tester des systèmes avancés avant et après leur lancement. Google a déclaré qu'il était en discussion avec le nouveau AI Safety Institute du Royaume-Uni pour tester la version la plus puissante de Gemini, qui sera publiée l'année prochaine.

Google a adopté une approche prudente lors du lancement de son chatbot IA, Bard, plus tôt cette année, le décrivant comme « une expérience ». Bard a commis une erreur dans sa propre démo publicitaire, en fournissant une mauvaise réponse à une question sur l'espace. Mais Google fait de grandes affirmations concernant son nouveau modèle, le décrivant comme étant « le plus performant » à ce jour et a suggéré qu'il peut surpasser les experts humains dans une série de tests d'intelligence.

Alphabet a présenté mercredi son modèle d'intelligence artificielle le plus avancé, une technologie capable de traiter différentes formes d'informations telles que la vidéo, l'audio et le texte. Appelé Gemini, le modèle d'IA très attendu du propriétaire de Google possède des « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon l'entreprise.

Envoyé par Google

Gemini est également notre modèle le plus flexible à ce jour : capable de fonctionner efficacement sur tout, des centres de données aux appareils mobiles. Ses capacités de pointe amélioreront considérablement la façon dont les développeurs et les entreprises clientes construisent et évoluent avec l’IA.

Nous avons optimisé Gemini 1.0, notre première version, pour trois tailles différentes :

Gemini Ultra — notre modèle le plus grand et le plus performant pour les tâches très complexes.
Gemini Pro : notre meilleur modèle pour évoluer vers un large éventail de tâches.
Gemini Nano — notre modèle le plus efficace pour les tâches sur appareil.

Google a déclaré qu'Ultra avait surpassé les modèles d'IA « de pointe », y compris le modèle le plus puissant de ChatGPT, GPT-4, dans 30 des 32 tests de référence, y compris en matière de raisonnement et de compréhension des images. Le modèle Pro a surpassé GPT-3.5, la technologie qui sous-tend la version en accès gratuit de ChatGPT, dans six tests sur huit.

Le modèle est disponible en trois versions et est « multimodal », ce qui signifie qu’il peut comprendre simultanément du texte, de l’audio, des images, de la vidéo et du code informatique.

Gemini, qui sera intégré aux produits Google, y compris son moteur de recherche, est initialement lancé mercredi dans plus de 170 pays, dont les États-Unis, sous la forme d'une mise à niveau du chatbot de Google, Bard. Cependant, la mise à niveau Bard ne sera pas publiée au Royaume-Uni et en Europe, car Google demande l'autorisation des régulateurs.

Deux versions plus petites de Gemini, Pro et Nano, seront publiées mercredi. Le modèle Pro est accessible sur le chatbot Bard de Google et la version Nano sera sur les téléphones mobiles utilisant le système Android de Google.

L'itération la plus puissante, Ultra, est testée en externe et ne sera rendue publique que début 2024, date à laquelle elle sera également intégrée à une version de Bard appelée Bard Advanced.

Google a déclaré qu'Ultra était le premier modèle d'IA à surpasser les experts humains, avec un score de 90 %, à un test multitâche appelé MMLU, qui couvre 57 matières, dont les mathématiques, la physique, le droit, la médecine et l'éthique. Ultra va désormais alimenter un nouvel outil d'écriture de code appelé AlphaCode2, qui, selon Google, pourrait surpasser 85 % des programmeurs informatiques humains de niveau concurrent.

Gemini en action dans des interactions non textuelles : la démo de Google

C'est dans les interactions non textuelles que les Gemini brille vraiment, déclare Demis Hassabis, responsable de Google DeepMind. « Nous l’avons construit de A à Z pour qu’il soit nativement multimodal », dit-il. « C'est l'une des nouvelles capacités dont il dispose… le type d'intégration et de raisonnement transparents qu'il peut réaliser entre les modalités ».

Dans une démo, le YouTuber Mark Rober s'est servi de Bard pour créer l'avion en papier parfait (notamment en prenant des photos de ses créations pour obtenir des commentaires fournis par l'IA). Dans une autre démo, des parents ont téléchargé des photos des devoirs de leurs enfants pour obtenir de l'aide pour déterminer où leurs calculs avaient mal tourné.

Nous pouvons aussi parler de cette démo où Gemini s'est montré capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes d'un humain ou de réagir à des situations par l’humour. Une des forces de la démonstration en vidéo est qu'à un moment, l’utilisateur ne pose plus de questions; c’est Gemini qui devine seul le contexte et qui parle.

Mais pour le moment, ce ne sont que des démos et des vidéos promotionnelles. Sundar Pichai, PDG d'Alphabet, dit qu'il considère ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l'ère de Gemini.

Quelques particularités de Gemini

Ceci est extrait de la communication de Google.

Capacités de nouvelle génération

Jusqu'à présent, l'approche standard de création de modèles multimodaux impliquait la formation de composants distincts pour différentes modalités, puis leur assemblage pour imiter approximativement certaines de ces fonctionnalités. Ces modèles peuvent parfois être efficaces pour accomplir certaines tâches, comme décrire des images, mais ont du mal à répondre à un raisonnement plus conceptuel et complexe.

Nous avons conçu Gemini pour qu'il soit nativement multimodal, pré-entraîné dès le départ sur différentes modalités. Nous l’avons ensuite affiné avec des données multimodales supplémentaires pour affiner encore son efficacité. Cela aide Gemini à comprendre et à raisonner de manière transparente sur toutes sortes d’entrées, bien mieux que les modèles multimodaux existants – et ses capacités sont à la pointe de la technologie dans presque tous les domaines.

Raisonnement sophistiqué

Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à donner un sens à des informations écrites et visuelles complexes. Cela le rend particulièrement compétent pour découvrir des connaissances qui peuvent être difficiles à discerner parmi de grandes quantités de données.

Sa capacité remarquable à extraire des informations de centaines de milliers de documents grâce à la lecture, au filtrage et à la compréhension des informations contribuera à réaliser de nouvelles avancées à la vitesse du numérique dans de nombreux domaines, de la science à la finance.

Comprendre le texte, les images, l'audio et plus encore

Gemini 1.0 a été formé pour reconnaître et comprendre simultanément du texte, des images, du son et bien plus encore, afin de mieux comprendre les informations nuancées et de pouvoir répondre aux questions relatives à des sujets complexes. Cela le rend particulièrement efficace pour expliquer le raisonnement dans des matières complexes comme les mathématiques et la physique.

Codage avancé

Notre première version de Gemini peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, comme Python, Java, C++ et Go. Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles de base pour le codage au monde.

Gemini Ultra excelle dans plusieurs tests de codage, notamment HumanEval, une norme industrielle importante pour évaluer les performances des tâches de codage, et Natural2Code, notre ensemble de données interne réservé, qui utilise des sources générées par l'auteur au lieu d'informations basées sur le Web.

Gemini peut également être utilisé comme moteur pour des systèmes de codage plus avancés. Il y a deux ans, nous présentions AlphaCode, le premier système de génération de code d'IA à atteindre un niveau de performance compétitif dans les compétitions de programmation.

À l'aide d'une version spécialisée de Gemini, nous avons créé un système de génération de code plus avancé, AlphaCode 2, qui excelle dans la résolution de problèmes de programmation compétitifs qui vont au-delà du codage pour impliquer des mathématiques complexes et de l'informatique théorique.

La course à l'IA

Gemini semble avoir établi une « nouvelle norme », soulignant sa capacité à apprendre de sources autres que le texte, comme les images, selon Chirag Dekate, des analystes de Gartner. Il a déclaré que cela pourrait « permettre des innovations susceptibles de transformer l’IA générative ».

Google a jusqu'à présent eu du mal à attirer autant d'attention et autant d'utilisateurs que le chatbot viral ChatGPT d'OpenAI. Mais il affirme que la version la plus puissante de Gemini surpasse la plate-forme GPT-4 d'OpenAI (qui pilote ChatGPT) sur 30 des 32 benchmarks académiques largement utilisés.

Cependant, une nouvelle version plus puissante du logiciel OpenAI devrait être publiée l'année prochaine, le directeur général Sam Altman affirmant que les nouveaux produits de l'entreprise feraient ressembler les produits actuels à « un parent pittoresque ».

Il reste à voir si les récents troubles au sein d'OpenAI (qui ont vu Altman être licencié puis réembauché en l'espace de quelques jours) auront un impact sur ce lancement.

L'entreprise fait également face à une nouvelle concurrence de la part de xAI d'Elon Musk, qui cherche à lever jusqu'à 1 milliard de dollars pour investir dans la recherche et le développement. La société chinoise Baidu avance également avec ses propres produits d’IA.

Mais à mesure que la technologie évolue rapidement, les craintes quant à son potentiel nocif augmentent également

Les gouvernements du monde entier tentent d’élaborer des règles, voire des lois, pour contenir les éventuels risques futurs liés à l’IA.

En novembre, le sujet a été discuté lors d'un sommet au Royaume-Uni, où les signataires ont convenu d'une déclaration appelant à son développement en toute sécurité. Le roi a également déclaré que les dangers possibles devaient être affrontés avec un sentiment « d'urgence, d'unité et de force collective ».

Conclusion

L’annonce de Gemini par Google marque une étape importante dans le développement de l’intelligence artificielle. Avec ses capacités améliorées et son intégration dans une multitude de services, Gemini pourrait bien transformer notre interaction avec la technologie et ouvrir la voie à de nouvelles possibilités dans le domaine de l’IA. Reste à voir comment les utilisateurs et le marché réagiront à cette innovation prometteuse.

Sources : Google, DeepMind

Et vous ?

Quelles sont les implications de l’utilisation de modèles d’IA aussi avancés que Gemini dans notre vie quotidienne ?

Comment pensez-vous que Gemini changera la manière dont nous interagissons avec les services en ligne et les appareils intelligents ?

Quels sont les avantages et les inconvénients potentiels de l’intégration de Gemini dans des services tels que la recherche Google, Gmail et Android ?

Gemini pourrait-il contribuer à une meilleure compréhension et résolution des problèmes complexes dans des domaines tels que la science et la technologie ?

Quel impact Gemini aura-t-il sur le développement et l’apprentissage des langages de programmation ?

En quoi l’approche de Google avec Gemini diffère-t-elle de celle d’autres entreprises comme OpenAI avec GPT-4 ?

Quelles précautions devraient être prises pour assurer la sécurité et la confidentialité des utilisateurs avec l’utilisation de Gemini ?

Comment Google devrait-il aborder la question de la transparence et de la responsabilité avec l’utilisation de modèles d’IA comme Gemini ?

Vous avez lu gratuitement 920 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4

Et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4 Et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4

Et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »