Google a adopté une approche prudente lors du lancement de son chatbot IA, Bard, plus tôt cette année, le décrivant comme « une expérience ». Bard a commis une erreur dans sa propre démo publicitaire, en fournissant une mauvaise réponse à une question sur l'espace. Mais Google fait de grandes affirmations concernant son nouveau modèle, le décrivant comme étant « le plus performant » à ce jour et a suggéré qu'il peut surpasser les experts humains dans une série de tests d'intelligence.
Alphabet a présenté mercredi son modèle d'intelligence artificielle le plus avancé, une technologie capable de traiter différentes formes d'informations telles que la vidéo, l'audio et le texte. Appelé Gemini, le modèle d'IA très attendu du propriétaire de Google possède des « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon l'entreprise.
Envoyé par Google
Le modèle est disponible en trois versions et est « multimodal », ce qui signifie qu’il peut comprendre simultanément du texte, de l’audio, des images, de la vidéo et du code informatique.
Gemini, qui sera intégré aux produits Google, y compris son moteur de recherche, est initialement lancé mercredi dans plus de 170 pays, dont les États-Unis, sous la forme d'une mise à niveau du chatbot de Google, Bard. Cependant, la mise à niveau Bard ne sera pas publiée au Royaume-Uni et en Europe, car Google demande l'autorisation des régulateurs.
Deux versions plus petites de Gemini, Pro et Nano, seront publiées mercredi. Le modèle Pro est accessible sur le chatbot Bard de Google et la version Nano sera sur les téléphones mobiles utilisant le système Android de Google.
L'itération la plus puissante, Ultra, est testée en externe et ne sera rendue publique que début 2024, date à laquelle elle sera également intégrée à une version de Bard appelée Bard Advanced.
Google a déclaré qu'Ultra était le premier modèle d'IA à surpasser les experts humains, avec un score de 90 %, à un test multitâche appelé MMLU, qui couvre 57 matières, dont les mathématiques, la physique, le droit, la médecine et l'éthique. Ultra va désormais alimenter un nouvel outil d'écriture de code appelé AlphaCode2, qui, selon Google, pourrait surpasser 85 % des programmeurs informatiques humains de niveau concurrent.
Gemini en action dans des interactions non textuelles : la démo de Google
C'est dans les interactions non textuelles que les Gemini brille vraiment, déclare Demis Hassabis, responsable de Google DeepMind. « Nous l’avons construit de A à Z pour qu’il soit nativement multimodal », dit-il. « C'est l'une des nouvelles capacités dont il dispose… le type d'intégration et de raisonnement transparents qu'il peut réaliser entre les modalités ».
Dans une démo, le YouTuber Mark Rober s'est servi de Bard pour créer l'avion en papier parfait (notamment en prenant des photos de ses créations pour obtenir des commentaires fournis par l'IA). Dans une autre démo, des parents ont téléchargé des photos des devoirs de leurs enfants pour obtenir de l'aide pour déterminer où leurs calculs avaient mal tourné.
Nous pouvons aussi parler de cette démo où Gemini s'est montré capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes d'un humain ou de réagir à des situations par l’humour. Une des forces de la démonstration en vidéo est qu'à un moment, l’utilisateur ne pose plus de questions; c’est Gemini qui devine seul le contexte et qui parle.
Mais pour le moment, ce ne sont que des démos et des vidéos promotionnelles. Sundar Pichai, PDG d'Alphabet, dit qu'il considère ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l'ère de Gemini.
Quelques particularités de Gemini
Ceci est extrait de la communication de Google.
Capacités de nouvelle génération
Jusqu'à présent, l'approche standard de création de modèles multimodaux impliquait la formation de composants distincts pour différentes modalités, puis leur assemblage pour imiter approximativement certaines de ces fonctionnalités. Ces modèles peuvent parfois être efficaces pour accomplir certaines tâches, comme décrire des images, mais ont du mal à répondre à un raisonnement plus conceptuel et complexe.
Nous avons conçu Gemini pour qu'il soit nativement multimodal, pré-entraîné dès le départ sur différentes modalités. Nous l’avons ensuite affiné avec des données multimodales supplémentaires pour affiner encore son efficacité. Cela aide Gemini à comprendre et à raisonner de manière transparente sur toutes sortes d’entrées, bien mieux que les modèles multimodaux existants – et ses capacités sont à la pointe de la technologie dans presque tous les domaines.
Raisonnement sophistiqué
Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à donner un sens à des informations écrites et visuelles complexes. Cela le rend particulièrement compétent pour découvrir des connaissances qui peuvent être difficiles à discerner parmi de grandes quantités de données.
Sa capacité remarquable à extraire des informations de centaines de milliers de documents grâce à la lecture, au filtrage et à la compréhension des informations contribuera à réaliser de nouvelles avancées à la vitesse du numérique dans de nombreux domaines, de la science à la finance.
Comprendre le texte, les images, l'audio et plus encore
Gemini 1.0 a été formé pour reconnaître et comprendre simultanément du texte, des images, du son et bien plus encore, afin de mieux comprendre les informations nuancées et de pouvoir répondre aux questions relatives à des sujets complexes. Cela le rend particulièrement efficace pour expliquer le raisonnement dans des matières complexes comme les mathématiques et la physique.
Codage avancé
Notre première version de Gemini peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, comme Python, Java, C++ et Go. Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles de base pour le codage au monde.
Gemini Ultra excelle dans plusieurs tests de codage, notamment HumanEval, une norme industrielle importante pour évaluer les performances des tâches de codage, et Natural2Code, notre ensemble de données interne réservé, qui utilise des sources générées par l'auteur au lieu d'informations basées sur le Web.
Gemini peut également être utilisé comme moteur pour des systèmes de codage plus avancés. Il y a deux ans, nous présentions AlphaCode, le premier système de génération de code d'IA à atteindre un niveau de performance compétitif dans les compétitions de programmation.
À l'aide d'une version spécialisée de Gemini, nous avons créé un système de génération de code plus avancé, AlphaCode 2, qui excelle dans la résolution de problèmes de programmation compétitifs qui vont au-delà du codage pour impliquer des mathématiques complexes et de l'informatique théorique.
La course à l'IA
Gemini semble avoir établi une « nouvelle norme », soulignant sa capacité à apprendre de sources autres que le texte, comme les images, selon Chirag Dekate, des analystes de Gartner. Il a déclaré que cela pourrait « permettre des innovations susceptibles de transformer l’IA générative ».
Google a jusqu'à présent eu du mal à attirer autant d'attention et autant d'utilisateurs que le chatbot viral ChatGPT d'OpenAI. Mais il affirme que la version la plus puissante de Gemini surpasse la plate-forme GPT-4 d'OpenAI (qui pilote ChatGPT) sur 30 des 32 benchmarks académiques largement utilisés.
Cependant, une nouvelle version plus puissante du logiciel OpenAI devrait être publiée l'année prochaine, le directeur général Sam Altman affirmant que les nouveaux produits de l'entreprise feraient ressembler les produits actuels à « un parent pittoresque ».
Il reste à voir si les récents troubles au sein d'OpenAI (qui ont vu Altman être licencié puis réembauché en l'espace de quelques jours) auront un impact sur ce lancement.
L'entreprise fait également face à une nouvelle concurrence de la part de xAI d'Elon Musk, qui cherche à lever jusqu'à 1 milliard de dollars pour investir dans la recherche et le développement. La société chinoise Baidu avance également avec ses propres produits d’IA.
Mais à mesure que la technologie évolue rapidement, les craintes quant à son potentiel nocif augmentent également
Les gouvernements du monde entier tentent d’élaborer des règles, voire des lois, pour contenir les éventuels risques futurs liés à l’IA.
En novembre, le sujet a été discuté lors d'un sommet au Royaume-Uni, où les signataires ont convenu d'une déclaration appelant à son développement en toute sécurité. Le roi a également déclaré que les dangers possibles devaient être affrontés avec un sentiment « d'urgence, d'unité et de force collective ».
Conclusion
L’annonce de Gemini par Google marque une étape importante dans le développement de l’intelligence artificielle. Avec ses capacités améliorées et son intégration dans une multitude de services, Gemini pourrait bien transformer notre interaction avec la technologie et ouvrir la voie à de nouvelles possibilités dans le domaine de l’IA. Reste à voir comment les utilisateurs et le marché réagiront à cette innovation prometteuse.
Sources : Google, DeepMind
Et vous ?
Quelles sont les implications de l’utilisation de modèles d’IA aussi avancés que Gemini dans notre vie quotidienne ?
Comment pensez-vous que Gemini changera la manière dont nous interagissons avec les services en ligne et les appareils intelligents ?
Quels sont les avantages et les inconvénients potentiels de l’intégration de Gemini dans des services tels que la recherche Google, Gmail et Android ?
Gemini pourrait-il contribuer à une meilleure compréhension et résolution des problèmes complexes dans des domaines tels que la science et la technologie ?
Quel impact Gemini aura-t-il sur le développement et l’apprentissage des langages de programmation ?
En quoi l’approche de Google avec Gemini diffère-t-elle de celle d’autres entreprises comme OpenAI avec GPT-4 ?
Quelles précautions devraient être prises pour assurer la sécurité et la confidentialité des utilisateurs avec l’utilisation de Gemini ?
Comment Google devrait-il aborder la question de la transparence et de la responsabilité avec l’utilisation de modèles d’IA comme Gemini ?