IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Grok 3 : l'IA d'Elon Musk domine le Chatbot Arena, surpassant R1 de DeepSeek et o1 d'OpenAI, mais dévoile des lacunes en matière de logique,
Rappelant que le chemin vers l'AGI est encore long

Le , par Stéphane le calme

80PARTAGES

12  1 
Comme Elon Musk l'a indiqué plus tôt, son entreprise d'IA, xAI, a publié son dernier modèle d'IA phare, Grok 3, et a dévoilé de nouvelles fonctionnalités pour les applications iOS et web de Grok. Grok, la réponse de xAI à des modèles tels que GPT-4o d'OpenAI et Gemini de Google, peut analyser des images et répondre à des questions. Grok 3, qui est en cours de développement depuis plusieurs mois, devait être lancé en 2024, mais cette date n'a pas été respectée. L'équipe de xAI a affirmé que la première itération de Grok 3 avait été mieux notée que les concurrents existants sur Chatbot Arena, un site web financé par crowdfunding qui met en concurrence différents modèles d'IA dans le cadre de tests en aveugle.

La société xAI d'Elon Musk a dévoilé son dernier modèle d'intelligence artificielle, Grok 3, affirmant qu'il peut surpasser les offres d'OpenAI et de la société chinoise DeepSeek sur la base de tests préliminaires, qui comprenaient des tests standardisés en mathématiques, en sciences et en codage.

« Nous sommes très heureux de présenter Grok 3, qui est, selon nous, un ordre de grandeur plus performant que Grok 2 en très peu de temps », a déclaré Musk lors d'une démonstration de Grok 3 diffusée en streaming sur sa plateforme de médias sociaux X.

L'équipe a également indiqué qu'elle lançait un nouveau produit appelé « Deep Search », qui servirait de « moteur de recherche de nouvelle génération ».

Grok 3 sera déployé pour les abonnés premium de X, à partir de mardi aux États-Unis, et sera également accessible par le biais d'un abonnement séparé pour les versions web et applicatives du modèle, a déclaré l'équipe xAI.

S'exprimant lors du Sommet mondial des gouvernements à Dubaï la semaine dernière, Musk a qualifié le modèle « d'effroyablement intelligent », doté de puissantes capacités de raisonnement, affirmant qu'il surpassait tous les autres modèles existants dans les tests internes de xAI. « C'est peut-être la dernière fois qu'une IA est meilleure que Grok », avait déclaré Musk à l'occasion, ajoutant qu'elle avait été entraînée sur « un grand nombre de données synthétiques » et qu'elle était capable de réfléchir à ses erreurs pour parvenir à une cohérence logique.

Vers la fin de la démonstration du produit, Musk a déclaré que l'entreprise continuerait à améliorer le modèle. « Nous devons souligner qu'il s'agit d'une sorte de bêta, ce qui signifie que vous devez vous attendre à quelques imperfections au début, mais nous allons l'améliorer rapidement, presque tous les jours », a-t-il déclaré, ajoutant que l'assistance vocale pour le modèle sortirait ultérieurement.

Vaste ensemble de données d'entraînement

xAI a utilisé un énorme centre de données à Memphis pour entraîner Grok 3. Ce centre dispose d'environ 200 000 GPU. Dans un post sur X, Musk a affirmé que Grok 3 a été développé avec une puissance de calcul 10 fois supérieure à celle de son prédécesseur, Grok 2. Et avec un ensemble de données d'entraînement plus complet, qui comprendrait des documents juridiques. Tous les modèles et fonctionnalités de Grok 3 ne sont pas encore disponibles. Certains sont encore en version bêta. Mais le déploiement a déjà commencé.

Selon Musk, Grok 3 est beaucoup plus performant que Grok 2. Selon lui, il s'agit d'une IA qui recherche la vérité au maximum, même si cette vérité va parfois à l'encontre de ce qui est politiquement correct.

xAI affirme que Grok 3 surpasse GPT-4o dans des tests de référence tels que AIME (qui évalue les performances d'un modèle sur des questions mathématiques) et GPQA (qui teste les modèles sur des problèmes de physique, de biologie et de chimie de niveau doctoral). Une première version de Grok 3 a également obtenu d'excellents résultats au Chatbot Arena. Selon xAI, il s'agit d'un test géré par l'utilisateur qui oppose des modèles d'IA les uns aux autres, et les utilisateurs votent pour leurs réponses préférées.


Un triomphe dans le Chatbot Arena

Grok 3 a brillé par ses capacités dans des catégories telles que la fluidité des conversations, la gestion des contextes complexes et la personnalisation des réponses. Ces domaines sont cruciaux pour les utilisateurs qui cherchent des assistants virtuels capables de comprendre et d'interagir de manière naturelle et efficace. Le modèle de Musk semble dominer ces aspects, se plaçant en tête du Chatbot Arena, un espace où les meilleurs modèles sont confrontés les uns aux autres dans diverses catégories de tests.

Avec sa base technologique avancée et une architecture optimisée, Grok 3 surpasse ses concurrents dans la plupart des benchmarks. Ses interactions sont plus cohérentes, ses réponses plus pertinentes, et sa capacité à maintenir le contexte sur de longues conversations reste un atout majeur. Cela place le modèle comme l'un des plus prometteurs sur le marché des chatbots, attirant les regards des entreprises et des utilisateurs qui cherchent à intégrer l'intelligence artificielle dans leurs applications quotidiennes.


Deux modèles de la nouvelle famille Grok 3, Grok 3 Reasoning et Grok 3 mini Reasoning, peuvent soigneusement « réfléchir » à des problèmes, à l'instar des modèles de « raisonnement » tels que l'o3-mini d'OpenAI et le R1 de la société d'IA chinoise DeepSeek. Les modèles de raisonnement essaient de vérifier eux-mêmes les faits avant de fournir des résultats, ce qui leur permet d'éviter certains des pièges qui font normalement trébucher les modèles.

xAI affirme que Grok 3 Reasoning surpasse la meilleure version de o3-mini - o3-mini-high - sur plusieurs benchmarks populaires, y compris un benchmark mathématique plus récent appelé AIME 2025.


Ces modèles de raisonnement sont accessibles via l'application Grok. Les utilisateurs peuvent demander à Grok 3 de « penser » ou, pour les requêtes plus difficiles, d'utiliser le mode « Big Brain » pour un raisonnement qui fait appel à des calculs supplémentaires. xAI décrit les modèles de raisonnement comme étant les mieux adaptés aux questions de mathématiques, de sciences et de programmation.

Musk a indiqué que certaines « pensées » des modèles de raisonnement sont masquées dans l'application Grok afin d'éviter la distillation, une méthode utilisée par les développeurs de modèles d'IA pour extraire des connaissances d'autres modèles. Récemment, DeepSeek a été accusé de distiller les modèles d'OpenAI pour créer ses propres modèles.

Les modèles de raisonnement de Grok sont à la base d'une nouvelle fonctionnalité de l'application Grok appelée DeepSearch, la réponse de xAI aux outils de recherche alimentés par l'IA tels que la recherche approfondie d'OpenAI. DeepSearch scrute Internet et X pour analyser les informations et fournir un résumé en réponse à une question.

Les abonnés au niveau Premium+ de X (50 $ par mois) auront accès à Grok 3 en premier, et les autres fonctionnalités seront protégées par un nouveau plan que xAI appelle SuperGrok. Proposé à 30 dollars par mois ou 300 dollars par an (si l'on en croit les fuites), SuperGrok débloque des requêtes de raisonnement et de DeepSearch supplémentaires, ainsi qu'une génération d'images illimitée.


Les limites du Grok 3 : Le manque de logique fondamentale

Malgré ses performances impressionnantes dans des catégories complexes de communication, Grok 3 présente un point faible important : son incapacité à résoudre des problèmes logiques simples. Des tests réalisés sur des questions logiques de base, comme des jeux de mots ou des raisonnements mathématiques simples, révèlent que le modèle peine à donner des réponses cohérentes ou justes.

Ce problème met en lumière la différence entre la performance d'un chatbot avancé et les véritables capacités de l'intelligence artificielle générale (AGI). L'AGI, par définition, se réfère à un système capable de comprendre, d'apprendre et de résoudre toute tâche intellectuelle qu'un être humain peut accomplir. Bien que Grok 3 puisse effectuer des tâches de communication avec une aisance impressionnante, il ne possède pas encore la profondeur cognitive requise pour exceller dans des domaines comme la logique formelle ou la résolution de problèmes complexes en dehors de son domaine d'entraînement spécifique.

Sur X, Andrej Karpathy a mis en exergue certaines limites de Grok 3 :

[QUOTE]J'ai reçu un accès anticipé à Grok 3 plus tôt dans la journée, ce qui fait de moi, je pense, l'un des premiers à pouvoir effectuer une vérification rapide des vibrations.

Penser

Tout d'abord, Grok 3 dispose clairement d'un modèle de réflexion à la pointe de la technologie (bouton « Think ») et s'est très bien débrouillé avec ma question sur le jeu Settler's of Catan :

« Crée une page web de jeu de société montrant une grille d'hexagones, comme dans le jeu Les colons de Catan. Chaque grille d'hexagones est numérotée de 1 à N, où N est le nombre total d'hexagones. Rends-la générique, de sorte que l'on puisse modifier le nombre " d'anneaux" à l'aide d'un curseur. Par exemple, dans Catan, le rayon est de 3 hexagones. Une seule page html s'il te plaît ».

Peu de modèles y parviennent de manière fiable. Les meilleurs modèles de réflexion d'OpenAI (par exemple o1-pro, à 200 $/mois) y parviennent également, mais ce n'est pas le cas de DeepSeek-R1, de Gemini 2.0 Flash Thinking et de Claude.

❌ Il n'a pas résolu ma question « Emoji mystery » où je donne un visage souriant avec un message attaché caché dans des sélecteurs de variation Unicode, même lorsque je donne un indice fort sur la façon de le décoder sous la forme de code Rust. Le progrès le plus important que j'ai vu est celui de DeepSeek-R1 qui a partiellement décodé le message.

❓ Il a résolu quelques tableaux de tic tac toe que je lui ai donnés avec une chaîne de pensée plutôt agréable/nette (beaucoup de modèles SOTA échouent souvent à ce niveau !). J'ai donc augmenté la difficulté et lui ai demandé de générer 3 tableaux de tic tac toe « difficiles », ce à quoi il a échoué (en générant des tableaux/textes absurdes), mais o1 pro a fait de même[...].

Résumé. D'après une vérification rapide sur ~2 heures ce matin, Grok 3 + Thinking se situe à peu près au niveau de l'état de l'art des modèles les plus puissants d'OpenAI (o1-pro, $200/mois), et légèrement mieux que DeepSeek-R1 et Gemini 2.0 Flash Thinking. Ce qui est assez incroyable si l'on considère que l'équipe est partie de zéro il y a environ 1 an, cette échelle de temps pour atteindre l'état de l'art est sans précédent. N'oubliez pas non plus les mises en garde - les modèles sont stochastiques et peuvent donner des réponses légèrement différentes à chaque fois, et il est très tôt, nous devrons donc attendre beaucoup plus d'évaluations au cours des prochains jours/semaines....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Pierre Louis Chevalier
Expert éminent sénior https://www.developpez.com
Le 18/02/2025 à 22:21
Citation Envoyé par smobydick Voir le message
Mistral ai tout le monde s'en tape ? Le nombre de téléchargements dépasse à peine les 100k sur Android en même temps....
C'est suivi par l'actualité developpez.com en tout cas, dernière annonce en date du 9 février 2025 : Mistral AI met à jour Le Chat, offrant un concurrent gratuit à ChatGPT, et annonce son nouveau modèle multimodal Pixtral Large avec des capacités améliorées

Par contre pour faire des comparaisons avec le Top 4 c'est loin du compte, classé 37eme sur Chatbot arena avec Mistral-Large-2407

Le top de la battle pour savoir qui a la plus grosse... LLM, c'est Sam Altman avec ChatGPT, Google avec Gemini, Elon Musk avec Grok, et Deepseek et Qwen pour la Chine.
2  0 
Avatar de popo
Expert confirmé https://www.developpez.com
Le 19/02/2025 à 11:43
Citation Envoyé par Anthony Voir le message
Alors que l'entreprise d'intelligence artificielle (IA) xAI d'Elon Musk vient de publier Grok 3, X a fait parler d'elle en augmentant le prix de son abonnement Premium+ à 50 dollars par mois ou 350 dollars par an. Bien que ce niveau d'abonnement comprenne l'accès à Grok 3, il représente une forte augmentation, avec un prix presque doublé.
Citation Envoyé par Anthony Voir le message
Récemment, la société a fait valoir dans un dossier juridique que tous les comptes X/Twitter appartiennent en fin de compte à Elon Musk, et non aux utilisateurs individuels.
Et après ça, il vient pleurer parce les gens délaissent X/Twitter !
C'est à ce demander de quelle façon il a eu son diplôme en économie.
3  1 
Avatar de popo
Expert confirmé https://www.developpez.com
Le 24/02/2025 à 11:17
Citation Envoyé par Stéphane le calme Voir le message
Grok a bloqué les résultats disant que Musk et Trump « répandent la désinformation »
Donc, le free speech, c'est uniquement quand ça l'arrange !
2  0 
Avatar de smobydick
Membre averti https://www.developpez.com
Le 18/02/2025 à 18:31
Mistral ai tout le monde s'en tape ? Le nombre de téléchargements dépasse à peine les 100k sur Android en même temps....
1  0 
Avatar de idiallo
Membre éprouvé https://www.developpez.com
Le 19/02/2025 à 15:18
Le top de la battle pour savoir qui a la plus grosse... LLM, c'est Sam Altman avec ChatGPT, Mark Zuckerberg avec Gemini, Elon Musk avec Grok, et Deepseek et Qwen pour la Chine.
Gemini, c'est Google, pas Meta
1  0 
Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 24/02/2025 à 18:00
Pas du tout. La vérité vraie c'est qu'en fait, c'est un complot :
le chef de l'ingénierie de xAI a accusé un ex-employé d'OpenAI (l'entreprise rivale de Sam Altman) qui travaille désormais chez xAI d'avoir mis à jour l'invite du système de Grok sans autorisation.
0  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 27/02/2025 à 11:04
Quel est votre avis sur le sujet ?
Que pensez-vous du mode vocal sans restriction de Grok d'Elon Musk ?
Cela existe déjà, mais à des endroits moins connu du grand public.
Mais il n'y a pas besoin d'être un expert du sujet pour trouver des chatbot similaire.

Quelle comparaison faites-vous entre le chabot non censuré d'Elon Musk et l'approche d'OpenAI ?
L'approche d'OpenAI est pudiponde, comme de plus en plus de chose aujourd'hui, notamment aux US... On est dans l’excès normatif, personne ne prend de risque, tout doit être "safe".
Et après on se demande pourquoi les gens sont immatures...

Quel est l'intérêt de cette fonctionnalité ? Les utilisateurs ont-ils besoin d'un chatbot qui se comporte de cette manière ?
Les utilisateurs ont besoin d'un chatbot qui se comporte de la manière dont le veut l'utilisateur, est qui est fiable et de qualité.
Par contre, là où Grok pose problème, c'est vis à vis de la prise en compte de contenus haineux. Car l'utilisateur, s'il pose une question sur un sujet, peut se retrouver avec une réponse haineuse présentée comme si c'était une réponse neutre, objective.
0  0