
son système d’IA qui combine les forces d’AlphaGo aux capacités des grands modèles de langage
Google DeepMind, le laboratoire d’intelligence artificielle de Google, travaille sur un nouveau système appelé Gemini qui promet de dépasser les capacités de ChatGPT, le chatbot développé par OpenAI. C’est ce qu’a déclaré Demis Hassabis, le cofondateur et PDG de DeepMind, lors d’une interview.
DeepMind est un pionnier de la recherche en IA depuis dix ans. La société, basée à Londres, au Royaume-Uni, a fait ses preuves avec les systèmes tels qu’AlphaCode, AlphaGo et AlphaFold. Le système d'IA AlphaGo de DeepMind a réussi l'exploit de terrasser Lee Sedol, l'un des meilleurs joueurs du jeu de Go au monde. La société a été rachetée par Alphabet, la société mère de Google, le géant de la recherche et DeepMind ayant entretenu des liens étroits ces dernières années. Après des systèmes d'IA pour le jeu de Go (AlphaGo) et la programmation (AlphaCode), DeepMind a annoncé qu'il se prépare désormais à se lancer sur le marché des chatbots.
Gemini est un modèle de langage de grande taille qui traite du texte et qui est similaire à GPT-4, la technologie qui alimente ChatGPT. Mais Hassabis affirme que son équipe va combiner cette technologie avec des techniques utilisées dans AlphaGo, le programme qui a battu un champion du jeu de Go en 2016. L’objectif est de doter le système de nouvelles capacités telles que la planification ou la résolution de problèmes.
« À un niveau élevé, vous pouvez penser à Gemini comme combinant certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques incroyables des grands modèles », explique Hassabis. « Nous avons aussi quelques innovations qui vont être assez intéressantes ».
Gemini a été présenté pour la première fois lors de la conférence des développeurs de Google le mois dernier, lorsque la société a annoncé une série de nouveaux projets d’IA. AlphaGo était basé sur une technique que DeepMind a perfectionnée appelée l’apprentissage par renforcement, dans laquelle un logiciel apprend à résoudre des problèmes difficiles qui nécessitent de choisir des actions à entreprendre comme dans le Go ou les jeux vidéo en faisant des tentatives répétées et en recevant un retour d’information sur ses performances. Il utilisait également une méthode appelée recherche arborescente pour explorer et mémoriser les coups possibles sur le plateau.
La prochaine grande avancée pour les modèles de langage pourrait impliquer qu’ils effectuent davantage de tâches sur internet et sur les ordinateurs. Gemini est encore en développement, un processus qui prendra plusieurs mois, selon Hassabis. Il pourrait coûter des dizaines ou des centaines de millions de dollars. Sam Altman, PDG d’OpenAI, a déclaré en avril que la création de GPT-4 avait coûté plus de 100 millions de dollars.
Rattraper son retard
Lorsque Gemini sera achevé, il pourrait jouer un rôle majeur dans la réponse de Google à la menace concurrentielle posée par ChatGPT et d’autres technologies d’IA génératives. La société de recherche a été pionnière dans de nombreuses techniques qui ont permis le récent torrent de nouvelles idées en IA, mais a choisi de développer et de déployer des produits basés sur celles-ci avec prudence. Depuis le lancement de ChatGPT, Google s’est empressé de sortir son propre chatbot, Bard, et d’intégrer l’IA générative dans son moteur de recherche et de nombreux autres produits.
Pour stimuler la recherche en IA, la société a fusionné en avril l’unité DeepMind d’Hassabis avec le principal laboratoire d’IA de Google, Brain, pour créer Google DeepMind. Hassabis affirme que la nouvelle équipe réunira deux poids lourds qui ont été à la base des progrès récents en IA.
Les perspectives d’avenir : libérer le pouvoir de Gemini
Former un modèle de langage sophistiqué comme Gemini implique de fournir au logiciel d’apprentissage automatique d’énormes quantités de texte soigneusement sélectionnées. Hassabis explique que son équipe utilise des données provenant de sources diverses et variées, telles que des livres, des articles, des blogs, des réseaux sociaux ou des conversations en ligne. Il précise que les données sont filtrées pour éliminer les contenus inappropriés ou biaisés.
L’un des principaux défis auxquels DeepMind doit faire face est de s’assurer que Gemini respecte les normes éthiques et les principes de Google en matière d’IA responsable. Hassabis affirme que son équipe travaille en étroite collaboration avec les experts en éthique et en politique de Google pour garantir que le système soit sûr, fiable et bénéfique pour la société.
« Nous voulons nous assurer que Gemini soit un outil utile et positif pour les gens », dit-il. « Nous voulons qu’il soit capable de répondre à des questions, de fournir des informations, de générer du contenu créatif ou de divertir les utilisateurs ».
Hassabis envisage que Gemini puisse être utilisé dans divers domaines, tels que l’éducation, la santé, le divertissement ou les affaires. Il espère que le système pourra aider les gens à apprendre de nouvelles choses, à résoudre des problèmes, à exprimer leur créativité ou à se connecter avec d’autres.
« Nous pensons que Gemini a le potentiel de changer la façon dont les gens interagissent avec l’IA et avec le monde », dit-il. « Nous sommes impatients de partager nos progrès avec le public et d’obtenir leurs commentaires ».
Un rival de taille pour ChatGPT ?
Gemini n’est pas le seul modèle de langage à vouloir rivaliser avec ChatGPT. D’autres acteurs majeurs du domaine de l’IA, tels que Facebook, Microsoft ou Amazon, travaillent également sur leurs propres systèmes. Hassabis reconnaît que la concurrence est rude, mais il affirme que DeepMind a un avantage unique : son expérience et son expertise dans l’apprentissage par renforcement et la recherche arborescente.
« Nous pensons que ces techniques sont essentielles pour créer des systèmes d’IA capables de raisonner, de planifier et de résoudre des problèmes complexes », dit-il. « Nous pensons que Gemini sera le premier modèle de langage à intégrer ces capacités de manière efficace et robuste ».
Hassabis se dit confiant dans le fait que Gemini surpassera ChatGPT et les autres modèles de langage existants ou à venir. Il affirme que le système sera capable de générer des réponses plus pertinentes, plus cohérentes et plus diversifiées que ses concurrents. Il ajoute que le système sera également capable de s’adapter aux besoins et aux préférences des utilisateurs, en leur offrant une expérience personnalisée et engageante.
« Nous pensons que Gemini sera le modèle de langage le plus avancé et le plus polyvalent jamais créé », dit-il. « Nous pensons qu’il ouvrira la voie à une nouvelle génération d’IA générative qui aura un impact positif sur le monde ».
DeepMind n'en est pas à son coup d'essai
Il convient de noter que Gemini n'est pas la première incursion de DeepMind dans les modèles de langage. L'année dernière, la société a présenté Sparrow, un chatbot qui, selon le laboratoire, était moins susceptible que d'autres modèles linguistiques de donner des réponses « dangereuses » ou « inappropriées » aux questions.

Hassabis a déclaré en janvier que DeepMind envisagerait de publier Sparrow pour une bêta privée dans le courant de l'année ; on ne sait pas si ces plans sont toujours sur la bonne voie.
Gemini est cependant le travail le plus ambitieux de DeepMind dans ce segment à ce jour, du moins si l'on en croit les premiers rapports. The Information a rapporté en...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.