Google Bard fait un grand bond en avant et devance GPT-4 dans le classement des modèles d'IA les plus performants,

Il est toutefois toujours moins performant que GPT-4 Turbo

Le 27 janvier 2024 à 17:22, par Mathis Lucas

252PARTAGES

Google Bard fait un grand bond en avant et devance GPT-4 dans le classement des modèles d'IA les plus performants
il est toutefois toujours moins performant que GPT-4 Turbo

Google a récemment publié une nouvelle version de Bard basée sur son grand modèle de langage (LLM) Gemini Pro. Les évaluations ont révélé que cette nouvelle mouture a surclassé GPT-4 en matière de performance et occupe désormais la deuxième place du classement HuggingFace Chatbot Arena. Il se classe juste derrière GPT-4 Turbo. Ce résultat important a suscité l'enthousiasme et l'impatience de la communauté technologique pendant que Google se prépare à publier son très attendu Gemini Ultra. De son côté, OpenAI se prépare également à lancer le GPT-5 et s'attend à ce que ce nouveau grand modèle de langage le rapproche un peu plus de l'AGI.

OpenAI mène actuellement la danse dans la course à l'IA avec les différentes variantes de ChatGPT. Google a tenté de gratter des parts de marché à ChatGPT en lançant son propre chatbot d'IA appelé Bard, mais celui-ci a affiché des performances mitigées et est resté à la traîne tout au long de l'année écoulée. Pour corriger ses lacunes, Google a lancé le mois dernier un nouveau modèle d'IA appelé Gemini qui se décline en trois versions : Gemini Nano (de petite taille), Gemini Pro (de taille moyenne) et Gemini Ultra (de très grande taille). Il semble que Google vient de remporter une victoire face à GPT-4 grâce à Gemini Pro.

La plateforme lmsys.org (large model systems organization), qui classe les grands modèles de langage suivant leurs performances, a annoncé cette semaine que la nouvelle version de Bard, basée sur le modèle Gemini Pro, a récemment dépassé le GPT-4 d'OpenAI, décrochant ainsi la deuxième place dans le classement mondial, juste derrière GPT-4 Turbo. Selon les analystes, le saut de Bard par rapport à GPT-4 marque un moment charnière dans la course à l'IA. Il reflète les progrès rapides des capacités de l'IA et la concurrence intense entre les géants de la technologie pour prendre la tête dans ce domaine transformateur.

Jeff Dean, responsable de l'IA chez Google, a annoncé sur X le nouveau modèle Bard, piloté par un Gemini Pro portant le suffixe "scale". « Grâce aux mises à jour de Gemini, Bard est bien meilleur et possède beaucoup plus de capacités par rapport au lancement de mars », a écrit Dean. Il n'explique pas ce que signifie le mot "scale", mais le nom suggère qu'il pourrait s'agir d'une version plus grande (mise à l'échelle) du modèle Pro précédent, qui, d'après les tests, ne bat même pas GPT-3.5 (la version gratuite de ChatGPT). Gemini Pro est le deuxième modèle Gemini de Google, derrière le modèle haut de gamme Gemini Ultra.

La communauté attend avec impatience la sortie de Gemini Ultra, le prochain grand projet de Google dans le domaine de l'IA. Cette version devrait mettre en évidence les capacités de Google en matière d'apprentissage automatique et d'IA, et potentiellement établir de nouvelles références dans l'industrie. Cette progression ne témoigne pas seulement des prouesses de Google, mais signale également un changement plus large dans le paysage de l'IA. Elle pousse OpenAI à travailler plus rapidement à l'élaboration du GPT-5. Cela signifie que nous pourrions bientôt voir une IA plus avancée et plus intelligente.

Le nouveau modèle Bard devance les modèles GPT-4 0314 (publié en mars 2023) et GPT-4 0613 (publié à l'été 2023), mais reste derrière GPT-4 Turbo (publié en novembre 2023). Le nouveau Bard est le premier à pénétrer dans la phalange GPT-4. Le site Chatbot Arena applique le système de notation Elo utilisé aux échecs et dans les sports électroniques pour évaluer et comparer les performances de différents modèles de langage. Dans l'arène, différents modèles s'affrontent dans des duels anonymes, choisis au hasard. Les utilisateurs interagissent avec les modèles et votent pour les réponses qu'ils préfèrent.

Ces votes sont utilisés pour déterminer le classement dans le tableau d'affichage. La plateforme recueille toutes les interactions des utilisateurs, mais ne compte les votes que si les noms des modèles sont inconnus, c'est-à-dire si l'utilisateur n'a pas demandé à utiliser un modèle précis. Comme il s'agit d'évaluations d'utilisateurs ou de qualité perçue, les résultats de Chatbot Arena peuvent différer des résultats d'un benchmark synthétique typique. C'est aussi le problème : le nouveau modèle Bard n'a été évalué qu'environ 3 000 fois jusqu'à présent, alors que les modèles GPT-4 ont été évalués jusqu'à 30 000 fois.

Le résultat peut donc encore changer, et les écarts dans l'analyse comparative sont généralement faibles. Quoi qu'il en soit, les analystes estiment qu'il s'agit d'une prouesse respectable pour Google et cela suscite la curiosité quant à Gemini Ultra, le modèle d'IA le plus performant de Google, qui sera bientôt commercialisé et qui devrait surpasser Gemini Pro-scale. « Je soupçonne depuis un moment que les performances de Bard ont été limitées par le coût. Google ne fait pas payer Bard et ils ne voulaient pas faire tourner gratuitement un modèle de langage pour tout le monde pour toujours », a écrit un critique.

Il a poursuivi : « peut-être qu'ils ont fait une percée dans le coût de l'inférence pour leurs meilleurs modèles. Ou peut-être encore qu'ils en ont eu assez que tout le monde se moque d'eux parce qu'ils étaient en retard et qu'ils ont décidé d'en assumer le coût pendant un certain temps. Je pense toujours qu'ils devraient lancer un abonnement pour que nous puissions voir leur meilleur modèle fonctionner en public ». D'autres remettent en cause le classement de Chatbot Arena et attendent que d'autres benchmarks confirment ces résultats. En attendant, Google semble bien décidé à rattraper son retard sur OpenAI.

Si OpenAI n'introduit pas rapidement un nouveau modèle, il risque de perdre son avance. Les spéculations vont bon train : le modèle d'IA Llama 3 de Meta se profile à l'horizon et a le potentiel de surpasser le GPT-4. D'autre part, Google a intégré des fonctions d'IA générative dans Google Chrome. Google introduit la fonction "Aidez-moi à écrire" sur tous les sites Web. En cliquant avec le bouton droit de la souris sur n'importe quelle zone de texte, les utilisateurs peuvent accéder à cette fonction, qui invite l'IA de Google à s'enquérir de leurs besoins en matière d'écriture et à générer ensuite un premier projet.

Qu'il s'agisse de rédiger une critique de restaurant bien articulée, de créer un RSVP amical pour un événement ou de faire une demande officielle de location d'appartement, cette fonctionnalité est conçue pour aider les utilisateurs. L'intégration de cette fonctionnalité dans Google Chrome pourrait réduire considérablement la nécessité pour les utilisateurs de rédiger des contenus sur ChatGPT. Beaucoup de personnes travaillent directement sur le Web, qu'il s'agisse d'envoyer des courriels, de rédiger un article ou de créer des présentations.

Source : HuggingFace Chatbot Arena

Et vous ?

Que pensez-vous de la position de Google Bard dans ce classement ?

Que pensez-vous de la méthode utilisée par le site pour classer les modèles d'IA ?

Pensez-vous qu'OpenAI pourrait se faire devancer par l'un de ses rivaux cette année ? Pourquoi ?

Avez-vous essayé le nouveau Bard basé sur le modèle Gemini Pro-scale ? Si oui, que pensez-vous de ses performances ?

Voir aussi

Google Bard : une MAJ pour l'extension YouTube de l'outil d'IA permet d'analyser des vidéos pour extraire des points clés, sans nécessiter la lecture de la vidéo

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4 et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

Google veut déployer "l'IA la plus avancée, la plus sûre et la plus responsable au monde" en 2024, mais le chemin à parcourir est encore long et pourrait comporter des défis majeurs

Vous avez lu gratuitement 2 754 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :