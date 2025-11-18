La société xAI d'Elon Musk a publié la dernière version de son chatbot, Grok 4.1, et Musk a déclaré que les utilisateurs devraient « remarquer une augmentation significative de la vitesse et de la qualité » par rapport aux versions précédentes. Il est disponible sur grok.com, X et dans les applications Apple iOS et Google Android. « Il est plus sensible aux nuances d'intention, plus convaincant dans la conversation et plus cohérent dans sa personnalité, tout en conservant l'intelligence et la fiabilité exceptionnelles de ses prédécesseurs », a déclaré xAI;
Elon Musk est un homme d'affaires et entrepreneur connu pour diriger Tesla, SpaceX, Twitter et xAI. Musk est la personne la plus riche du monde depuis 2021. En 2015, il a cofondé OpenAI afin de faire progresser la recherche en intelligence artificielle (IA), mais l'a quittée par la suite. Son mécontentement croissant vis-à-vis de l'orientation de l'organisation et de son leadership dans le boom de l'IA dans les années 2020 l'a conduit à créer xAI. xAI est une entreprise américaine spécialisée dans l'IA et créée par Elon Musk et Igor Babuschkin le 12 juillet 2023. Il se veut être un concurrent à l'entreprise OpenAI, notamment grâce à son projet de superordinateur Colossus en construction à Memphis.
En août, xAI, la société d'Elon Musk spécialisée dans l'intelligence artificielle (IA), a rendu Grok 4 gratuit pour tous les utilisateurs, quelques jours seulement après qu'OpenAI a dévoilé son dernier modèle GPT-5. Cependant, il y a un hic : la version gratuite de Grok 4 ne permet d'effectuer qu'un nombre limité de requêtes par jour, au-delà duquel l'utilisateur est invité à souscrire à un abonnement. Avec ces lancements si rapprochés, la concurrence entre les deux géants de l'IA n'a jamais été aussi passionnante.
Pourtant, la dernière mise à jour de Grok a été critiquée pour ces dérapages. En effet, Grok, une IA qui est censée incarner la neutralité algorithmique glisse, sous prétexte de « liberté dexpression », vers une machine de propagande politique, capable de réhabiliter Adolf Hitler, glorifier Musk, et blâmer des victimes de catastrophes naturelles. Pour les critiques, ce nest plus seulement une provocation, cest une dérive qui est dangereuse.
Il peut être utilisé comme Grok 4.1 Thinking et en mode non raisonné, qui n'utilise aucun jeton pour une réponse immédiate. Il obtient de meilleurs résultats en matière d'intelligence émotionnelle et d'écriture créative que ses versions précédentes. Il présente également un taux d'hallucinations beaucoup plus faible. Le modèle Grok 4 sans raisonnement avait un taux d'hallucinations de 12 %, contre 4,2 % pour le modèle Grok 4.1 sans raisonnement.
Déploiement silencieux, du 1er au 14 novembre 2025
xAI a procédé à un déploiement silencieux progressif des versions préliminaires de Grok 4.1 sur une part de plus en plus importante du trafic de production sur grok.com, X et les applications mobiles. Au cours de ces deux semaines de déploiement silencieux, ils ont effectué des évaluations aveugles par paires en continu sur le trafic en direct.
Par rapport au modèle de production précédent en termes de trafic, Grok 4.1 est préféré dans 64,78 % des cas.
Capacité générale
Voici les résultats de Grok 4.1 en matière d'évaluations aveugles des préférences humaines :
Dans Text Arena de LMArena, Grok 4.1 Thinking (nom de code : quasarflux) occupe la première place avec 1483 Elo, soit une avance confortable de 31 points sur le modèle non-xAI le plus performant. Grok 4.1 en mode non raisonné (nom de code : tensor) n'utilise aucun jeton de réflexion pour une réponse immédiate et se classe n° 2 avec 1465 Elo. Grok 4.1 non raisonné surpasse la configuration entièrement raisonnée de tous les autres modèles du classement public. Grok 4.1 surpasse largement Grok 4, qui occupait la 33e place du classement général.
Intelligence émotionnelle
Afin de mesurer les progrès du modèle en matière de personnalité et de compétences interpersonnelles, xAI a évalué Grok 4.1 sur EQ-Bench3. EQ-Bench est un test évalué par LLM qui évalue les capacités d'intelligence émotionnelle active, la compréhension, la perspicacité, l'empathie et les compétences interpersonnelles. Le test comprend 45 scénarios de jeux de rôle difficiles, dont la plupart constituent des invites pré-écrites s'étalant sur 3 tours. Le benchmark évalue les performances des modèles en validant leurs réponses par rapport à plusieurs critères. De plus, le benchmark effectue des comparaisons par paires afin de fournir un calcul Elo normalisé pour chaque modèle du classement.
Voici le score de la rubrique et le score Elo normalisé en exécutant le référentiel officiel du benchmark. Les scores ont été calculés avec les paramètres d'échantillonnage par défaut, le juge prescrit (Claude Sonnet 3.7) et aucune invite système, conformément au benchmark.
Écriture créative
Ils ont également mesuré les performances des modèles 4.1 sur le benchmark Creative Writing v3. Dans ce benchmark, les modèles génèrent des réponses à 32 invites d'écriture distinctes sur 3 itérations. Comme pour EQ-Bench, les scores sont calculés à l'aide de rubriques et du score Elo normalisé du modèle.
Réduction des hallucinations
Les modèles rapides (sans raisonnement) équipés d'outils de recherche fournissent des réponses rapides, mais ils peuvent être vulnérables aux erreurs factuelles en raison de la profondeur de raisonnement limitée et des budgets d'appel d'outils restreints.
Dans Grok 4.1 post-formation, xAI s'est concentré sur la réduction des hallucinations factuelles pour les invites de recherche d'informations. Par la suite, ils ont observé une réduction significative du taux d'hallucinations pour les invites de recherche d'informations de production échantillonnées.
Ils ont évalué le taux d'hallucinations sur un échantillon stratifié de requêtes de recherche d'informations réelles provenant du trafic de production. Ils ont également évalué FActScore, un benchmark public composé de 500 questions biographiques sur des individus.
Le modèle Grok 4.1 semble être une mise à jour intermédiaire avant la sortie de Grok 5. En août, Elon Musk a annoncé mettre en open source son modèle Grok 2.5 au nom de la transparence. De plus, l'entreprise d'IA rendra également le modèle Grok 3 open source dans environ six mois. Il semble que Musk travaille selon un cycle annuel. En outre, Musk a précédemment déclaré que Grok 5 devrait être lancé d'ici la fin 2025.
Source : Annonce de xAI
