Google travaille sur le projet Gemini qu'il a présenté comme un ensemble de grands modèles de langage (LLM) combinant diverses technologies. Alors que l'entreprise entretient un silence total autour de ce développement, un récent article indique que Gemini devrait être au moins cinq fois plus puissant que GPT-4 (le plus puissant modèle de langage d'OpenAI) grâce à ses capacités multimodales et à l'accès potentiel aux vastes bases de données d'entraînement propriétaires de Google provenant de divers services. Google reprendrait ainsi la tête de la course à l'IA. Cependant, aucune information officielle ne permet pour l'instant de corroborer cette affirmation.Gemini : la réponse stratégique de Google à ChatGPT et GPT-4 d'OpenAI ?
L'intensification de la course à l'IA a poussé Alphabet, la société mère de Google, à fusionner ses deux équipes de recherche sur l'IA, Google Brain et DeepMind, en une seule entité appelée Google DeepMind. Le but déclaré d'Alphabet est de centraliser ses efforts et d'optimiser ses investissements. En plus, ces deux équipes ont un palmarès impressionnant. DeepMind est le créateur d'AlphaGo, l'IA qui a battu un champion du monde du jeu de Go en 2016, d'AlphaFold qui prédit la structure des protéines, etc. Google Brain a contribué à Google Traduction, et a notamment créé TensorFlow, ainsi que le modèle LaMDA sur lequel est basé le chatbot d'IA Bard.
De cette fusion est né le projet Gemini, une série de grands modèles de langage qui combinent les capacités de GPT-4 avec des techniques de formation tirées d'AlphaGo, telles que l'apprentissage par renforcement et la recherche arborescente. Il aurait le potentiel de détrôner ChatGPT en tant que solution d'IA générative la plus dominante de la planète. Gemini semble être la réponse stratégique de Google à ChatGPT. Le lancement de ChatGPT a ébranlé Google dans ses fondements. La menace était telle que le géant de la recherche a dû déclarer un code rouge et commencer à investir pour rattraper son retard sur OpenAI dans le domaine de l'IA générative.
Cet effort s'est traduit non seulement par la sortie de Bard, mais aussi de Gemini. Alors que Bard peine à séduire les utilisateurs, Gemini vise à remettre en question la domination de ChatGPT sur le marché très concurrentiel de l'IA générative. Pour ce faire, Gemini devrait s'appuyer sur ses capacités multimodales et à l'accès potentiel aux vastes données d'entraînement propriétaires de Google provenant de divers services. Les analystes estiment que le marché de l'IA générative pourrait valoir 1 300 milliards de dollars d'ici 2032. Il est donc clair que Google investit à fond dans cet espace pour maintenir sa position de leader dans le développement de l'IA.
Si beaucoup s'attendent à ce que Gemini soit commercialisé à l'automne 2023, on ne sait pas grand-chose sur les capacités du modèle. En mai dernier, Sundar Pichai, PDG de Google et d'Alphabet, a publié un billet de blogue présentant une vue d'ensemble du modèle, en insistant sur ses capacités multimodales : « Gemini a été créé dès le départ pour être multimodal, très efficace en matière d'intégration d'outils et d'API et construit pour permettre de futures innovations, comme la mémoire et la planification. Bien qu'il soit encore tôt, nous voyons déjà des capacités multimodales impressionnantes qui n'ont pas été vues dans les modèles précédents ».
« Une fois affiné et rigoureusement testé pour la sécurité, Gemini sera disponible en différentes tailles et capacités, tout comme PaLM 2 », a-t-il ajouté. Depuis, peu de choses ont filtré sur la sortie officielle, à part l'interview de Demis Hassabis, PDG de Google DeepMind, avec Wired, notant que "Gemini combinera certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques étonnantes des grands modèles". D'autres sources...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.