
La société xAI d'Elon Musk a dévoilé son dernier modèle d'intelligence artificielle, Grok 3, affirmant qu'il peut surpasser les offres d'OpenAI et de la société chinoise DeepSeek sur la base de tests préliminaires, qui comprenaient des tests standardisés en mathématiques, en sciences et en codage.
« Nous sommes très heureux de présenter Grok 3, qui est, selon nous, un ordre de grandeur plus performant que Grok 2 en très peu de temps », a déclaré Musk lors d'une démonstration de Grok 3 diffusée en streaming sur sa plateforme de médias sociaux X.
L'équipe a également indiqué qu'elle lançait un nouveau produit appelé « Deep Search », qui servirait de « moteur de recherche de nouvelle génération ».
Grok 3 sera déployé pour les abonnés premium de X, à partir de mardi aux États-Unis, et sera également accessible par le biais d'un abonnement séparé pour les versions web et applicatives du modèle, a déclaré l'équipe xAI.
S'exprimant lors du Sommet mondial des gouvernements à Dubaï la semaine dernière, Musk a qualifié le modèle « d'effroyablement intelligent », doté de puissantes capacités de raisonnement, affirmant qu'il surpassait tous les autres modèles existants dans les tests internes de xAI. « C'est peut-être la dernière fois qu'une IA est meilleure que Grok », avait déclaré Musk à l'occasion, ajoutant qu'elle avait été entraînée sur « un grand nombre de données synthétiques » et qu'elle était capable de réfléchir à ses erreurs pour parvenir à une cohérence logique.
Vers la fin de la démonstration du produit, Musk a déclaré que l'entreprise continuerait à améliorer le modèle. « Nous devons souligner qu'il s'agit d'une sorte de bêta, ce qui signifie que vous devez vous attendre à quelques imperfections au début, mais nous allons l'améliorer rapidement, presque tous les jours », a-t-il déclaré, ajoutant que l'assistance vocale pour le modèle sortirait ultérieurement.
— xAI (@xai) February 18, 2025Vaste ensemble de données d'entraînement
xAI a utilisé un énorme centre de données à Memphis pour entraîner Grok 3. Ce centre dispose d'environ 200 000 GPU. Dans un post sur X, Musk a affirmé que Grok 3 a été développé avec une puissance de calcul 10 fois supérieure à celle de son prédécesseur, Grok 2. Et avec un ensemble de données d'entraînement plus complet, qui comprendrait des documents juridiques. Tous les modèles et fonctionnalités de Grok 3 ne sont pas encore disponibles. Certains sont encore en version bêta. Mais le déploiement a déjà commencé.
Selon Musk, Grok 3 est beaucoup plus performant que Grok 2. Selon lui, il s'agit d'une IA qui recherche la vérité au maximum, même si cette vérité va parfois à l'encontre de ce qui est politiquement correct.
xAI affirme que Grok 3 surpasse GPT-4o dans des tests de référence tels que AIME (qui évalue les performances d'un modèle sur des questions mathématiques) et GPQA (qui teste les modèles sur des problèmes de physique, de biologie et de chimie de niveau doctoral). Une première version de Grok 3 a également obtenu d'excellents résultats au Chatbot Arena. Selon xAI, il s'agit d'un test géré par l'utilisateur qui oppose des modèles d'IA les uns aux autres, et les utilisateurs votent pour leurs réponses préférées.
Un triomphe dans le Chatbot Arena
Grok 3 a brillé par ses capacités dans des catégories telles que la fluidité des conversations, la gestion des contextes complexes et la personnalisation des réponses. Ces domaines sont cruciaux pour les utilisateurs qui cherchent des assistants virtuels capables de comprendre et d'interagir de manière naturelle et efficace. Le modèle de Musk semble dominer ces aspects, se plaçant en tête du Chatbot Arena, un espace où les meilleurs modèles sont confrontés les uns aux autres dans diverses catégories de tests.
Avec sa base technologique avancée et une architecture optimisée, Grok 3 surpasse ses concurrents dans la plupart des benchmarks. Ses interactions sont plus cohérentes, ses réponses plus pertinentes, et sa capacité à maintenir le contexte sur de longues conversations reste un atout majeur. Cela place le modèle comme l'un des plus prometteurs sur le marché des chatbots, attirant les regards des entreprises et des utilisateurs qui cherchent à intégrer l'intelligence artificielle dans leurs applications quotidiennes.
Deux modèles de la nouvelle famille Grok 3, Grok 3 Reasoning et Grok 3 mini Reasoning, peuvent soigneusement « réfléchir » à des problèmes, à l'instar des modèles de « raisonnement » tels que l'o3-mini d'OpenAI et le R1 de la société d'IA chinoise DeepSeek. Les modèles de raisonnement essaient de vérifier eux-mêmes les faits avant de fournir des résultats, ce qui leur permet d'éviter certains des pièges qui font normalement trébucher les modèles.
xAI affirme que Grok 3 Reasoning surpasse la meilleure version de o3-mini - o3-mini-high - sur plusieurs benchmarks populaires, y compris un benchmark mathématique plus récent appelé AIME 2025.
Ces modèles de raisonnement sont accessibles via l'application Grok. Les utilisateurs peuvent demander à Grok 3 de « penser » ou, pour les requêtes plus difficiles, d'utiliser le mode « Big Brain » pour un raisonnement qui fait appel à des calculs supplémentaires. xAI décrit les modèles de raisonnement comme étant les mieux adaptés aux questions de mathématiques, de sciences et de programmation.
Musk a indiqué que certaines « pensées » des modèles de raisonnement sont masquées dans l'application Grok afin d'éviter la distillation, une méthode utilisée par les développeurs de modèles d'IA pour extraire des connaissances d'autres modèles. Récemment, DeepSeek a été accusé de distiller les modèles d'OpenAI pour créer ses propres modèles.
Les modèles de raisonnement de Grok sont à la base d'une nouvelle fonctionnalité de l'application Grok appelée DeepSearch, la réponse de xAI aux outils de recherche alimentés par l'IA tels que la recherche approfondie d'OpenAI. DeepSearch scrute Internet et X pour analyser les informations et fournir un résumé en réponse à une question.
Les abonnés au niveau Premium+ de X (50 $ par mois) auront accès à Grok 3 en premier, et les autres fonctionnalités seront protégées par un nouveau plan que xAI appelle SuperGrok. Proposé à 30 dollars par mois ou 300 dollars par an (si l'on en croit les fuites), SuperGrok débloque des requêtes de raisonnement et de DeepSearch supplémentaires, ainsi qu'une génération d'images illimitée.
Les limites du Grok 3 : Le manque de logique fondamentale
Malgré ses performances impressionnantes dans des catégories complexes de communication, Grok 3 présente un point faible important : son incapacité à résoudre des problèmes logiques simples. Des tests réalisés sur des questions logiques de base, comme des jeux de mots ou des raisonnements mathématiques simples, révèlent que le modèle peine à donner des réponses cohérentes ou justes.
Ce problème met en lumière la différence entre la performance d'un chatbot avancé et les véritables capacités de l'intelligence artificielle générale (AGI). L'AGI, par définition, se réfère à un système capable de comprendre, d'apprendre et de résoudre toute tâche intellectuelle qu'un être humain peut accomplir. Bien que Grok 3 puisse effectuer des tâches de communication avec une aisance impressionnante, il ne possède pas encore la profondeur cognitive requise pour exceller dans des domaines comme la logique formelle ou la résolution de problèmes complexes en dehors de son domaine d'entraînement spécifique.
Sur X, Andrej Karpathy a mis en exergue certaines limites de Grok 3 :
[QUOTE]J'ai reçu un accès anticipé à Grok 3 plus tôt dans la journée, ce qui fait de moi, je pense, l'un des premiers à pouvoir effectuer une vérification rapide des vibrations.
Penser
Tout d'abord, Grok 3 dispose clairement d'un modèle de réflexion à la pointe de la technologie (bouton « Think ») et s'est très bien débrouillé avec ma question sur le jeu Settler's of Catan :
« Crée une page web de jeu de société montrant une grille d'hexagones, comme dans le jeu Les colons de Catan. Chaque grille d'hexagones est numérotée de 1 à N, où N est le nombre total d'hexagones. Rends-la générique, de sorte que l'on puisse modifier le nombre " d'anneaux" à l'aide d'un curseur. Par exemple, dans Catan, le rayon est de 3 hexagones. Une seule page html s'il te plaît ».
Peu de modèles y parviennent de manière fiable. Les meilleurs modèles de réflexion d'OpenAI (par exemple o1-pro, à 200 $/mois) y parviennent également, mais ce n'est pas le cas de DeepSeek-R1, de Gemini 2.0 Flash Thinking et de Claude.
❌ Il n'a pas résolu ma question « Emoji mystery » où je donne un visage souriant avec un message attaché caché dans des sélecteurs de variation Unicode, même lorsque je donne un indice fort sur la façon de le décoder sous la forme de code Rust. Le progrès le plus important que j'ai vu est celui de DeepSeek-R1 qui a partiellement décodé le message.
❓ Il a résolu quelques tableaux de tic tac toe que je lui ai donnés avec une chaîne de pensée plutôt agréable/nette (beaucoup de modèles SOTA échouent souvent à ce niveau !). J'ai donc augmenté la difficulté et lui ai demandé de générer 3 tableaux de tic tac toe « difficiles », ce à quoi il a échoué (en générant des tableaux/textes absurdes), mais o1 pro a fait de même[...].
Résumé. D'après une vérification rapide sur ~2 heures ce matin, Grok 3 + Thinking se situe à peu près au niveau de l'état de l'art des modèles les plus puissants d'OpenAI (o1-pro, $200/mois), et légèrement mieux que DeepSeek-R1 et Gemini 2.0 Flash Thinking. Ce qui est assez incroyable si l'on considère que l'équipe est partie de zéro il y a environ 1 an, cette échelle de temps pour atteindre l'état de l'art est sans précédent. N'oubliez pas non plus les mises en garde - les modèles sont stochastiques et peuvent donner des réponses légèrement différentes à chaque fois, et il est très tôt, nous devrons donc attendre beaucoup plus d'évaluations au cours des prochains jours/semaines....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.