Grok 3 : l'IA d'Elon Musk domine le Chatbot Arena, surpassant R1 de DeepSeek et o1 d'OpenAI, mais dévoile des lacunes en matière de logique,

Rappelant que le chemin vers l'AGI est encore long

Le 18 février 2025 à 17:41, par Stéphane le calme

228PARTAGES

Comme Elon Musk l'a indiqué plus tôt, son entreprise d'IA, xAI, a publié son dernier modèle d'IA phare, Grok 3, et a dévoilé de nouvelles fonctionnalités pour les applications iOS et web de Grok. Grok, la réponse de xAI à des modèles tels que GPT-4o d'OpenAI et Gemini de Google, peut analyser des images et répondre à des questions. Grok 3, qui est en cours de développement depuis plusieurs mois, devait être lancé en 2024, mais cette date n'a pas été respectée. L'équipe de xAI a affirmé que la première itération de Grok 3 avait été mieux notée que les concurrents existants sur Chatbot Arena, un site web financé par crowdfunding qui met en concurrence différents modèles d'IA dans le cadre de tests en aveugle.

La société xAI d'Elon Musk a dévoilé son dernier modèle d'intelligence artificielle, Grok 3, affirmant qu'il peut surpasser les offres d'OpenAI et de la société chinoise DeepSeek sur la base de tests préliminaires, qui comprenaient des tests standardisés en mathématiques, en sciences et en codage.

« Nous sommes très heureux de présenter Grok 3, qui est, selon nous, un ordre de grandeur plus performant que Grok 2 en très peu de temps », a déclaré Musk lors d'une démonstration de Grok 3 diffusée en streaming sur sa plateforme de médias sociaux X.

L'équipe a également indiqué qu'elle lançait un nouveau produit appelé « Deep Search », qui servirait de « moteur de recherche de nouvelle génération ».

Grok 3 sera déployé pour les abonnés premium de X, à partir de mardi aux États-Unis, et sera également accessible par le biais d'un abonnement séparé pour les versions web et applicatives du modèle, a déclaré l'équipe xAI.

S'exprimant lors du Sommet mondial des gouvernements à Dubaï la semaine dernière, Musk a qualifié le modèle « d'effroyablement intelligent », doté de puissantes capacités de raisonnement, affirmant qu'il surpassait tous les autres modèles existants dans les tests internes de xAI. « C'est peut-être la dernière fois qu'une IA est meilleure que Grok », avait déclaré Musk à l'occasion, ajoutant qu'elle avait été entraînée sur « un grand nombre de données synthétiques » et qu'elle était capable de réfléchir à ses erreurs pour parvenir à une cohérence logique.

Vers la fin de la démonstration du produit, Musk a déclaré que l'entreprise continuerait à améliorer le modèle. « Nous devons souligner qu'il s'agit d'une sorte de bêta, ce qui signifie que vous devez vous attendre à quelques imperfections au début, mais nous allons l'améliorer rapidement, presque tous les jours », a-t-il déclaré, ajoutant que l'assistance vocale pour le modèle sortirait ultérieurement.

https://t.co/hEfQ31gANQ
— xAI (@xai) February 18, 2025

Vaste ensemble de données d'entraînement

xAI a utilisé un énorme centre de données à Memphis pour entraîner Grok 3. Ce centre dispose d'environ 200 000 GPU. Dans un post sur X, Musk a affirmé que Grok 3 a été développé avec une puissance de calcul 10 fois supérieure à celle de son prédécesseur, Grok 2. Et avec un ensemble de données d'entraînement plus complet, qui comprendrait des documents juridiques. Tous les modèles et fonctionnalités de Grok 3 ne sont pas encore disponibles. Certains sont encore en version bêta. Mais le déploiement a déjà commencé.

Selon Musk, Grok 3 est beaucoup plus performant que Grok 2. Selon lui, il s'agit d'une IA qui recherche la vérité au maximum, même si cette vérité va parfois à l'encontre de ce qui est politiquement correct.

xAI affirme que Grok 3 surpasse GPT-4o dans des tests de référence tels que AIME (qui évalue les performances d'un modèle sur des questions mathématiques) et GPQA (qui teste les modèles sur des problèmes de physique, de biologie et de chimie de niveau doctoral). Une première version de Grok 3 a également obtenu d'excellents résultats au Chatbot Arena. Selon xAI, il s'agit d'un test géré par l'utilisateur qui oppose des modèles d'IA les uns aux autres, et les utilisateurs votent pour leurs réponses préférées.

Un triomphe dans le Chatbot Arena

Grok 3 a brillé par ses capacités dans des catégories telles que la fluidité des conversations, la gestion des contextes complexes et la personnalisation des réponses. Ces domaines sont cruciaux pour les utilisateurs qui cherchent des assistants virtuels capables de comprendre et d'interagir de manière naturelle et efficace. Le modèle de Musk semble dominer ces aspects, se plaçant en tête du Chatbot Arena, un espace où les meilleurs modèles sont confrontés les uns aux autres dans diverses catégories de tests.

Avec sa base technologique avancée et une architecture optimisée, Grok 3 surpasse ses concurrents dans la plupart des benchmarks. Ses interactions sont plus cohérentes, ses réponses plus pertinentes, et sa capacité à maintenir le contexte sur de longues conversations reste un atout majeur. Cela place le modèle comme l'un des plus prometteurs sur le marché des chatbots, attirant les regards des entreprises et des utilisateurs qui cherchent à intégrer l'intelligence artificielle dans leurs applications quotidiennes.

Deux modèles de la nouvelle famille Grok 3, Grok 3 Reasoning et Grok 3 mini Reasoning, peuvent soigneusement « réfléchir » à des problèmes, à l'instar des modèles de « raisonnement » tels que l'o3-mini d'OpenAI et le R1 de la société d'IA chinoise DeepSeek. Les modèles de raisonnement essaient de vérifier eux-mêmes les faits avant de fournir des résultats, ce qui leur permet d'éviter certains des pièges qui font normalement trébucher les modèles.

xAI affirme que Grok 3 Reasoning surpasse la meilleure version de o3-mini - o3-mini-high - sur plusieurs benchmarks populaires, y compris un benchmark mathématique plus récent appelé AIME 2025.

Ces modèles de raisonnement sont accessibles via l'application Grok. Les utilisateurs peuvent demander à Grok 3 de « penser » ou, pour les requêtes plus difficiles, d'utiliser le mode « Big Brain » pour un raisonnement qui fait appel à des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :