Vaste ensemble de données d'entraînement

Un triomphe dans le Chatbot Arena

Les limites du Grok 3 : Le manque de logique fondamentale

J'ai reçu un accès anticipé à Grok 3 plus tôt dans la journée, ce qui fait de moi, je pense, l'un des premiers à pouvoir effectuer une vérification rapide des vibrations.



Penser



Tout d'abord, Grok 3 dispose clairement d'un modèle de réflexion à la pointe de la technologie (bouton « Think ») et s'est très bien débrouillé avec ma question sur le jeu Settler's of Catan :



« Crée une page web de jeu de société montrant une grille d'hexagones, comme dans le jeu Les colons de Catan. Chaque grille d'hexagones est numérotée de 1 à N, où N est le nombre total d'hexagones. Rends-la générique, de sorte que l'on puisse modifier le nombre " d'anneaux" à l'aide d'un curseur. Par exemple, dans Catan, le rayon est de 3 hexagones. Une seule page html s'il te plaît ».



Peu de modèles y parviennent de manière fiable. Les meilleurs modèles de réflexion d'OpenAI (par exemple o1-pro, à 200 $/mois) y parviennent également, mais ce n'est pas le cas de DeepSeek-R1, de Gemini 2.0 Flash Thinking et de Claude.



❌ Il n'a pas résolu ma question « Emoji mystery » où je donne un visage souriant avec un message attaché caché dans des sélecteurs de variation Unicode, même lorsque je donne un indice fort sur la façon de le décoder sous la forme de code Rust. Le progrès le plus important que j'ai vu est celui de DeepSeek-R1 qui a partiellement décodé le message.



❓ Il a résolu quelques tableaux de tic tac toe que je lui ai donnés avec une chaîne de pensée plutôt agréable/nette (beaucoup de modèles SOTA échouent souvent à ce niveau !). J'ai donc augmenté la difficulté et lui ai demandé de générer 3 tableaux de tic tac toe « difficiles », ce à quoi il a échoué (en générant des tableaux/textes absurdes), mais o1 pro a fait de même[...].



Résumé. D'après une vérification rapide sur ~2 heures ce matin, Grok 3 + Thinking se situe à peu près au niveau de l'état de l'art des modèles les plus puissants d'OpenAI (o1-pro, $200/mois), et légèrement mieux que DeepSeek-R1 et Gemini 2.0 Flash Thinking. Ce qui est assez incroyable si l'on considère que l'équipe est partie de zéro il y a environ 1 an, cette échelle de temps pour atteindre l'état de l'art est sans précédent. N'oubliez pas non plus les mises en garde - les modèles sont stochastiques et peuvent donner des réponses légèrement différentes à chaque fois, et il est très tôt, nous devrons donc attendre beaucoup plus d'évaluations au cours des prochains jours/semaines. Les premiers résultats de l'arène LM semblent en effet très encourageants. Je suis impatient d'ajouter Grok 3 à mon « conseil LLM » et d'entendre ce qu'il en pense à l'avenir.

I was given early access to Grok 3 earlier today, making me I think one of the first few who could run a quick vibe check.



Thinking

✅ First, Grok 3 clearly has an around state of the art thinking model ("Think" button) and did great out of the box on my Settler's of Catan… pic.twitter.com/qIrUAN1IfD — Andrej Karpathy (@karpathy) February 18, 2025

Loin de l'AGI : Un aperçu du futur

Conclusion : Le chemin vers l'AGI reste semé d'embûches



La société xAI d'Elon Musk a dévoilé son dernier modèle d'intelligence artificielle, Grok 3, affirmant qu'il peut surpasser les offres d'OpenAI et de la société chinoise DeepSeek sur la base de tests préliminaires, qui comprenaient des tests standardisés en mathématiques, en sciences et en codage.« Nous sommes très heureux de présenter Grok 3, qui est, selon nous, un ordre de grandeur plus performant que Grok 2 en très peu de temps », a déclaré Musk lors d'une démonstration de Grok 3 diffusée en streaming sur sa plateforme de médias sociaux X.L'équipe a également indiqué qu'elle lançait un nouveau produit appelé « Deep Search », qui servirait de « moteur de recherche de nouvelle génération ».Grok 3 sera déployé pour les abonnés premium de X, à partir de mardi aux États-Unis, et sera également accessible par le biais d'un abonnement séparé pour les versions web et applicatives du modèle, a déclaré l'équipe xAI.S'exprimant lors du Sommet mondial des gouvernements à Dubaï la semaine dernière, Musk a qualifié le modèle « d'effroyablement intelligent », doté de puissantes capacités de raisonnement, affirmant qu'il surpassait tous les autres modèles existants dans les tests internes de xAI. « C'est peut-être la dernière fois qu'une IA est meilleure que Grok », avait déclaré Musk à l'occasion, ajoutant qu'elle avait été entraînée sur « un grand nombre de données synthétiques » et qu'elle était capable de réfléchir à ses erreurs pour parvenir à une cohérence logique.Vers la fin de la démonstration du produit, Musk a déclaré que l'entreprise continuerait à améliorer le modèle. « Nous devons souligner qu'il s'agit d'une sorte de bêta, ce qui signifie que vous devez vous attendre à quelques imperfections au début, mais nous allons l'améliorer rapidement, presque tous les jours », a-t-il déclaré, ajoutant que l'assistance vocale pour le modèle sortirait ultérieurement.xAI a utilisé un énorme centre de données à Memphis pour entraîner Grok 3. Ce centre dispose d'environ 200 000 GPU. Dans un post sur X, Musk a affirmé que Grok 3 a été développé avec une puissance de calcul 10 fois supérieure à celle de son prédécesseur, Grok 2. Et avec un ensemble de données d'entraînement plus complet, qui comprendrait des documents juridiques. Tous les modèles et fonctionnalités de Grok 3 ne sont pas encore disponibles. Certains sont encore en version bêta. Mais le déploiement a déjà commencé.Selon Musk, Grok 3 est beaucoup plus performant que Grok 2. Selon lui, il s'agit d'une IA qui recherche la vérité au maximum, même si cette vérité va parfois à l'encontre de ce qui est politiquement correct.xAI affirme que Grok 3 surpasse GPT-4o dans des tests de référence tels que AIME (qui évalue les performances d'un modèle sur des questions mathématiques) et GPQA (qui teste les modèles sur des problèmes de physique, de biologie et de chimie de niveau doctoral). Une première version de Grok 3 a également obtenu d'excellents résultats au Chatbot Arena. Selon xAI, il s'agit d'un test géré par l'utilisateur qui oppose des modèles d'IA les uns aux autres, et les utilisateurs votent pour leurs réponses préférées.Grok 3 a brillé par ses capacités dans des catégories telles que la fluidité des conversations, la gestion des contextes complexes et la personnalisation des réponses. Ces domaines sont cruciaux pour les utilisateurs qui cherchent des assistants virtuels capables de comprendre et d'interagir de manière naturelle et efficace. Le modèle de Musk semble dominer ces aspects, se plaçant en tête du Chatbot Arena, un espace où les meilleurs modèles sont confrontés les uns aux autres dans diverses catégories de tests.Avec sa base technologique avancée et une architecture optimisée, Grok 3 surpasse ses concurrents dans la plupart des benchmarks. Ses interactions sont plus cohérentes, ses réponses plus pertinentes, et sa capacité à maintenir le contexte sur de longues conversations reste un atout majeur. Cela place le modèle comme l'un des plus prometteurs sur le marché des chatbots, attirant les regards des entreprises et des utilisateurs qui cherchent à intégrer l'intelligence artificielle dans leurs applications quotidiennes.Deux modèles de la nouvelle famille Grok 3, Grok 3 Reasoning et Grok 3 mini Reasoning, peuvent soigneusement « réfléchir » à des problèmes, à l'instar des modèles de « raisonnement » tels que l'o3-mini d'OpenAI et le R1 de la société d'IA chinoise DeepSeek. Les modèles de raisonnement essaient de vérifier eux-mêmes les faits avant de fournir des résultats, ce qui leur permet d'éviter certains des pièges qui font normalement trébucher les modèles.xAI affirme que Grok 3 Reasoning surpasse la meilleure version de o3-mini - o3-mini-high - sur plusieurs benchmarks populaires, y compris un benchmark mathématique plus récent appelé AIME 2025.Ces modèles de raisonnement sont accessibles via l'application Grok. Les utilisateurs peuvent demander à Grok 3 de « penser » ou, pour les requêtes plus difficiles, d'utiliser le mode « Big Brain » pour un raisonnement qui fait appel à des calculs supplémentaires. xAI décrit les modèles de raisonnement comme étant les mieux adaptés aux questions de mathématiques, de sciences et de programmation.Musk a indiqué que certaines « pensées » des modèles de raisonnement sont masquées dans l'application Grok afin d'éviter la distillation, une méthode utilisée par les développeurs de modèles d'IA pour extraire des connaissances d'autres modèles. Récemment, DeepSeek a été accusé de distiller les modèles d'OpenAI pour créer ses propres modèles Les modèles de raisonnement de Grok sont à la base d'une nouvelle fonctionnalité de l'application Grok appelée DeepSearch, la réponse de xAI aux outils de recherche alimentés par l'IA tels que la recherche approfondie d'OpenAI. DeepSearch scrute Internet et X pour analyser les informations et fournir un résumé en réponse à une question.Les abonnés au niveau Premium+ de X (50 $ par mois) auront accès à Grok 3 en premier, et les autres fonctionnalités seront protégées par un nouveau plan que xAI appelle SuperGrok. Proposé à 30 dollars par mois ou 300 dollars par an (si l'on en croit les fuites), SuperGrok débloque des requêtes de raisonnement et de DeepSearch supplémentaires, ainsi qu'une génération d'images illimitée.Malgré ses performances impressionnantes dans des catégories complexes de communication, Grok 3 présente un point faible important : son incapacité à résoudre des problèmes logiques simples. Des tests réalisés sur des questions logiques de base, comme des jeux de mots ou des raisonnements mathématiques simples, révèlent que le modèle peine à donner des réponses cohérentes ou justes.Ce problème met en lumière la différence entre la performance d'un chatbot avancé et les véritables capacités de l'intelligence artificielle générale (AGI). L'AGI, par définition, se réfère à un système capable de comprendre, d'apprendre et de résoudre toute tâche intellectuelle qu'un être humain peut accomplir. Bien que Grok 3 puisse effectuer des tâches de communication avec une aisance impressionnante, il ne possède pas encore la profondeur cognitive requise pour exceller dans des domaines comme la logique formelle ou la résolution de problèmes complexes en dehors de son domaine d'entraînement spécifique.Sur X, Andrej Karpathy a mis en exergue certaines limites de Grok 3 :Il est crucial de comprendre que l'AGI reste un objectif lointain. Même les modèles les plus avancés, comme le Grok 3, ne sont que des étapes dans le voyage vers une intelligence artificielle véritablement autonome et capable de raisonnement logique étendu. Grok 3, comme ses prédécesseurs, excelle dans des tâches spécifiques et prévisibles, mais ne dispose pas encore de la flexibilité cognitive nécessaire pour rivaliser avec l'intellect humain dans des domaines plus complexes.Les experts soulignent que bien que Grok 3 représente un pas en avant dans le domaine des chatbots et de l'intelligence artificielle conversationnelle, il n'est pas proche d'atteindre le niveau d'intelligence humaine globale. Il est encore loin d'être capable de traiter des questions fondamentales de logique ou de raisonnement abstrait qui seraient considérées comme triviales pour un enfant humain.Grok 3 d'Elon Musk est une réussite en matière de chatbots et d'interaction IA, mais il met en évidence la distinction fondamentale entre les intelligences spécialisées et l'intelligence générale. Il est un excellent exemple de ce que l'on peut accomplir avec des algorithmes de traitement du langage naturel et d'apprentissage automatique avancés. Cependant, il est également un rappel que l'AGI, un objectif de longue date dans le domaine de l'IA, reste un horizon éloigné. Les défis de la logique, de la compréhension profonde et de l'apprentissage généralisé doivent encore être surmontés avant que nous puissions véritablement parler d'une intelligence artificielle générale.Dans cette course vers l'AGI, le Grok 3 montre que nous avons encore beaucoup à découvrir et à construire avant que l'IA puisse rivaliser avec l'esprit humain dans toute sa complexité. En attendant, Elon Musk a déclaré au début du mois que sa startup d'IA xAI lancerait Grok 3 qui allait surpasser les modèles d'IA existants , pari tenu ?Source : vidéo de présentation dans le texteQuels sont les principaux obstacles techniques qui empêchent Grok 3 de résoudre des problèmes logiques de base, et comment ces obstacles pourraient-ils être surmontés dans de futures versions ?Est-il réaliste de comparer un chatbot comme Grok 3 à une intelligence humaine, même dans des domaines spécifiques comme la compréhension du langage ?L'AGI doit-elle nécessairement être capable de traiter des problèmes logiques complexes, ou peut-elle se limiter à exceller dans des domaines spécifiques sans atteindre une compréhension générale ?Est-ce que la spécialisation dans certains domaines (comme la conversation ou la gestion de contextes) est un atout ou un inconvénient pour l'émergence de l'AGI ?Le modèle de Grok 3 nous rapproche-t-il d’une IA qui pourrait avoir un impact réel sur des industries telles que la santé, l'éducation ou l'automobile, malgré ses limites actuelles en logique ?