IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

xAI dévoile son chatbot d'IA Grok 1.5 avec un "raisonnement amélioré" qui accroit ses performances en codage et en mathématiques,
Mais il reste à la traîne par rapport à OpenAI et à Anthropic

Le , par Mathis Lucas

98PARTAGES

3  0 
xAI dévoile son chatbot d'IA Grok 1.5 avec un "raisonnement amélioré" qui accroit ses performances en codage et en mathématiques
mais il reste à la traîne par rapport à OpenAI et à Anthropic

La startup xAI d'Elon Musk vient de dévoiler Grok 1.5, la nouvelle version du grand modèle de langage qui pilote son chatbot d'IA Grok. xAI a annoncé que Grok-1.5 bénéficie d'un "raisonnement amélioré", notamment pour les tâches liées au codage et aux mathématiques. Le nouveau modèle a plus que doublé le score de Grok-1 sur le benchmark mathématique populaire MATH et a obtenu plus de 10 points de pourcentage de plus sur le test HumanEval (de génération de code et de capacités de résolution de problèmes). Toutefois, malgré ses performances, Grok 1.5 reste à la traîne par rapport aux modèles tels que Gemini Pro 1.5, GPT-4 et Claude 3 Opus.

Grok est un chatbot d'IA développé par la startup xAI lancée par Elon Musk l'année dernière. Musk a notamment lancé xAI pour développer un rival de ChatGPT, le chatbot d'OpenAI qu'il accuse d'être woke et de promouvoir les idées de gauche, tout en censurant les voix des conservateurs. Contrairement à ses rivaux, Grok a la capacité d'accéder à des informations en temps réel grâce à une intégration avec le réseau social X (ex-Twitter). En outre, Grok se différencie des autres par le fait qu'il est prêt à s'attaquer à des questions "épicées" et est programmé pour le faire d'une manière à la fois spirituelle et un peu rebelle.

Bien que la première version de Grok, Grok 1, ait fait sensation sur X, son côté "audacieux" et "rebelle" n'a pas attiré grand monde et il n'a pas suscité autant de réactions dans la communauté comme ses rivaux GPT-4 d'OpenAI et Claude d'Anthopic. L'entreprise a toutefois poursuivi ses développements et a annoncé mercredi que la version Grok 1.5 est prête. Le nouveau modèle sera bientôt disponible pour les utilisateurs payants existants et les premiers testeurs sur le réseau social X. Les nouvelles fonctionnalités comprennent "des capacités de raisonnement améliorées et une longueur de contexte de 128 000 jetons.


Pour mémoire, la longueur de contexte (ou fenêtre contextuelle) correspond au nombre de mots ou de pages que le modèle peut traiter en une seule fois. Une longueur de contexte de 128 000 jetons correspond à environ 100 000 mots ou 300 pages de livre. Cela signifie que Grok 1.5 peut traiter des questions plus complexes comportant davantage d'exemples. À titre de comparaison, Claude 3 Opus a une longueur de contexte de 200 000 jetons et celle de GPT-4 Turbo est de 128 000 jetons. Mistral Large, Mistral Medium, Mistral 8x7B et Gemini Pro ont chacun une longueur de contexte bien plus petite de 32 800 jetons.

À l'heure actuelle, aucun grand modèle de langage (LLM) ne dispose d'une longueur de contexte supérieure à 200 000 jetons. Les modèles Claude 3 Opus et Claude 3 Sonnet (dont la longueur de contexte est également de 200 000 jetons) détiennent donc le record en ce qui concerne la longueur de la fenêtre de contexte. Pour en revenir à Grok 1.5, les résultats des tests révèlent qu'il a plus que doublé le score de Grok-1 sur le benchmark "MATH" et a obtenu plus de 10 points de pourcentage de plus sur HumanEval (qui évalue les capacités en matière de génération de code informatique et de résolution de problèmes).

Plus précisément, Grok 1.5 a obtenu un score de 50,6 % sur le benchmark MATH et 90 % au test de référence GSM8K. Ces deux tests couvrent un large éventail de problèmes mathématiques allant de l'école primaire au niveau de compétition de l'école secondaire. Pour la génération de code et la résolution de problèmes, Grok-1.5 a obtenu un score de 74,1 % sur le test HumanEval. Sur le test de compréhension du langage MMLU, Grok 1.5 a obtenu un score d'environ 81 %. C'est un grand bond en avant par rapport aux 73 % de Grok-1, mais il est loin derrière les leaders actuels du marché GPT-4 et Claude 3 Opus.

Sur le benchmark MMLU, GPT-4 et Claude 3 Opus ont chacun obtenu un score d'environ 86 %. Dans le test "Needle in a Haystack" (l'aiguille dans une botte de foin), qui vérifie si le modèle d'IA peut trouver de manière fiable des informations spécifiques dans la fenêtre contextuelle, Grok 1.5 a obtenu un résultat parfait. Toutefois, ce test n'est pas très significatif, car il utilise le modèle comme une fonction de recherche coûteuse. Selon les experts du milieu, des éléments plus pertinents, mais beaucoup plus difficiles à tester, seraient le nombre d'erreurs ou d'omissions lors de la synthèse de documents très volumineux.

D'autres entreprises d'IA, telles que Google ou Anthropic, utilisent également ce critère finalement trompeur pour vanter les performances de la fenêtre contextuelle de leur modèle. Évoquant la fenêtre contextuelle de Grok-1.5, xAI a déclaré dans un billet de blogue : « Grok-1.5 peut utiliser des informations provenant de documents beaucoup plus longs. En outre, le modèle peut gérer des invites plus longues et plus complexes tout en conservant sa capacité à suivre les instructions au fur et à mesure que sa fenêtre contextuelle s'agrandit ». Google et Anthropic ont déjà fait des déclarations similaires précédemment.

Selon le billet de blogue, xAI met l'accent sur l'innovation, en particulier dans le cadre de la formation. Grok-1.5 serait basé sur un framework de formation distribué spécialisé construit sur JAX, Rust et Kubernetes. Cette pile de formation permettrait à l'équipe de prototyper des idées et de former de nouvelles architectures à l'échelle avec un minimum d'effort. L'entreprise explique : « l'un des plus grands défis de la formation de grands modèles de langage (LLM) sur de grands clusters de calcul est l'optimisation de la fiabilité et de la disponibilité du travail de formation ». xAI présente son infrastructure comme suit :

Citation Envoyé par xAI


La recherche de pointe sur les grands modèles de langage (LLM) qui s'exécute sur des clusters GPU massifs exige une infrastructure robuste et flexible. Grok-1.5 est construit sur un framework d'entraînement distribué personnalisé basé sur JAX, Rust et Kubernetes. Cette pile de formation permet à notre équipe de prototyper des idées et de former de nouvelles architectures à l'échelle avec un minimum d'effort. Un défi majeur de la formation des LLM sur de grands clusters de calcul est de maximiser la fiabilité et le temps de disponibilité du travail de formation.

Notre framework de formation personnalisé garantit que les nœuds problématiques sont automatiquement détectés et éjectés de la tâche de formation. Nous avons également optimisé les points de contrôle, le chargement des données et le redémarrage des tâches de formation afin de minimiser les temps d'arrêt en cas de défaillance.

Bien sûr, il est difficile de prédire comment ces résultats se traduiront en matière d'utilisation réelle. Les benchmarks couramment utilisés pour tester les modèles, qui mesurent des choses aussi ésotériques que les performances lors de réponse à des questions d'examen de chimie de niveau supérieur, ne reflètent pas vraiment la façon dont l'utilisateur moyen interagit avec les modèles aujourd'hui. En ce qui concerne le caractère "rebelle" et "audacieux" de Grok, les changements éventuels apportés par Grok-1.5 dans ces domaines ne sont pas clairs. L'entreprise n'y fait pas allusion dans son billet de blogue de mardi.

L'annonce de Grok 1.5 intervient quelques jours après que xAI a publié Grok-1 en open source, bien que sans le code nécessaire pour l'affiner ou l'entraîner davantage. Plus récemment, Musk a déclaré qu'un plus grand nombre d'utilisateurs de X (en particulier les utilisateurs qui paient l'abonnement Premium de 8 dollars par mois) auraient accès au chatbot Grok, qui n'était auparavant disponible que pour les clients X Premium+ (qui paient 16 dollars par mois).

Grok-1 est le plus grand modèle de mélange d'experts disponible en open source à ce jour. Cependant, ses performances sont inférieures à celles de modèles open source plus petits et plus efficaces. Le billet de blogue de xAI n'a pas fait de commentaires sur d'éventuels projets visant à publier Grok 1.5 en open source.

Source : Grok 1.5

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des améliorations apportées par le modèle d'IA Grok 1.5 ? Quid de ses performances ?
En limitant l'accès de Grok à la version payante de X, Musk tient-il sa promesse de développer une IA ouverte et bénéfique à tous ?

Voir aussi

Elon Musk défie ChatGPT avec son bot IA Grok, premier produit de son entreprise xAI. Présenté comme plus audacieux que ses concurrents, il s'inspire d'un roman de science-fiction humoristique

Elon Musk publie le code source de son chatbot d'IA Grok dans le cadre de la dernière escalade de la guerre de l'IA, il est publié sous la licence Apache 2.0 qui autorise l'utilisation commerciale

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité
Vous avez lu gratuitement 3 977 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de virginieh
Membre expérimenté https://www.developpez.com
Le 22/04/2024 à 7:42
Citation Envoyé par Aiekick Voir le message
au debut j'étais admiratif d'elon musk. je me disait, le mec aprt de zero et va au bout de ses reves.

maintenant je pense que c'est un paradoxe. a la fois tres intelligent, et un cretin fini. une sorte de politique quoi
Oui enfin part de zéro ...

Tu connais l'histoire du millionnaire ? (je sais plus lequel c'est censé être)
Comment je suis devenu millionnaire ? C'est très simple, j'ai acheté une pomme moche, je l'ai frottée et revendue le double, puis j'ai acheté 2 pommes et j'ai recommencé. Puis mon grand père m'a donné 1 million.

Si tu enlève des "self-made" tous ceux qui ont lancé leur(s) boite(s) sponsorisées par leurs parents il n'en reste plus beaucoup.
7  0 
Avatar de Mingolito
Expert éminent https://www.developpez.com
Le 04/07/2025 à 15:28
Au lieu de raconter des conneries tu ferais mieux de vendre tes actions Tesla et de cesser de défendre cet escroc.
Le taux de pollution de l'eau et de l'air sur les quartiers environnants est au dessus des normes permises, cette implantation est criminelle, ces gens vont mourir du cancer à terme.
Il a implanté sa cochonnerie inutile et polluante en plein milieu d'un quartier très pauvre, peut être qu'il s'est dit que ces gens n'ont pas les moyens de payer un avocat pour les défendre, tu penses bien qu'il aurait pas implanté cette grosse merde chez ses potes riche en plein milieu de Beverly Hills.
Il aurait du alimenter son monstre inutile avec du solaire et des méga batteries Tesla.

Même une turbine gaz c'est une turbine de trop, tu devrais voir les vidéos des voisins du site qui suffoquent sous la pollution de ces turbines, et pour qui leur vie est devenue un enfer, tu t'en fou tu habites pas la bas.

8  2 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 07/01/2026 à 4:30
Je suis d'accord avec lui sur le principe : c'est celui qui fait la requête qui doit être tenu pour responsable.
Là où la responsabilité de l'éditeur de Grok doit être engagée, c'est quand l'image produite ne correspond pas à la requête.
Si la personne demande du CSAM, c'est à elle de se prendre les pénalités.
Si la personne n'en demande pas mais Grok en produit, c'est à l'éditeur de se les prendre.
L'éditeur doit s'assurer de la fiabilité de ce qu'il fournit, mais pas de ce que l'utilisateur en fait.
Et si Grok produit des images ne correspondant pas à la requête, une circonstance aggravante contre l'éditeur est qu'il ne fournisse pas de moyen de corriger, comme supprimer l'image mal générée.

Donc oui sur le fond, il a raison, mais qu'il s'assure au moins de fournir un outil qui fonctionne comme demandé et, pour les cas où ça ne correspond pas (qui arrivent forcément étant donné la techno), les capacités de correction minimales qu'il se doit d'implémenter (e.g. suppression d'image). Autrement il a quand même sa part de responsabilité.
6  2 
Avatar de David_g
Membre éprouvé https://www.developpez.com
Le 07/01/2026 à 10:08
Citation Envoyé par jnspunk Voir le message
C'est faux, on ne peut pas empêcher le "jailbreak".
Vouloir "corriger" Grok c'est comme repeindre son mur au lieu de réparer la fuite d'eau qu'il y a derrière : ce n'est pas l'idée la plus brillante.
Cela revient à dire qu'il ne faut pas mettre de serrure sur tes portes car on peut facilement les ouvrir.
En soi, peu de gens finalement feront l'effort ou auront les compétences pour. c'est un peu pareil pour ces deepfakes etc, dés que tu enleves les solutions qui ne demande aucun effort, tu réduis de beaucoup le nombre de cas.

Ici n'importe quel glandu peut mettre n'importe quelle nana à quatre pattes en string etc (beaucoup d'entre eux ont un compte payant et donc cherche aussi des vues comme le mec qui a fait cela à la première ministre suédoise)

S'il devait aller chercher des modèles d'IA, installer un générateur en local etc ou si cela lui demande de comprendre comment aller chercher des solutions pour "hacker" le prompt, 90% ne feront pas l'effort. c'est d'ailleurs le cas pour un photomontage, tu vois personne prendre le temps de se former à toshop/gimp pour réussir à voir quelque chose de qualité parce que cela trop d'effort. tu ajouterais une option dans toshop pour cela, ben bizarrement on en verra plus (alors certes c'est en local donc tu le sauras pas).
6  2 
Avatar de Aiekick
Membre extrêmement actif https://www.developpez.com
Le 20/04/2024 à 12:44
au debut j'étais admiratif d'elon musk. je me disait, le mec aprt de zero et va au bout de ses reves.

maintenant je pense que c'est un paradoxe. a la fois tres intelligent, et un cretin fini. une sorte de politique quoi
3  0 
Avatar de Mingolito
Expert éminent https://www.developpez.com
Le 20/06/2025 à 14:14
Oui enfin la c'est un cas particulier, au lieu d'utiliser des turbines performantes et agréés, son super Grok utilise des turbines de secours ultra polluantes, et qui empoisonnent les habitants aux alentour.

Avec ses milliards au lieu d'acheter twitter pour en faire de la merde, il aurait pu faire construire un parc solaire avec des batteries pour alimenter son truc, donc ça se voie que le Musk en a rien à foutre ni des gens ni de la planète. Ah oui il a dit qu'il allait abandonner la terre pour devenir le roi de Mars, enfin je ne sais pas s'il va oser un jour embarquer dans son Starship en carton. Jeff Bezos au moins lui il a osé embarquer dans sa fusée phallique, alors que Elon a jamais osé mettre les pieds dans une de ses fusées.
3  0 
Avatar de Mingolito
Expert éminent https://www.developpez.com
Le 23/06/2025 à 2:54
Tu n'a pas compris le problème, c'est pas juste un problème de turbine à gaz banal c'est que l'installation d'Elon n'est pas classique, c'est de la pure merde inadmissible, c'est un pur assassinat de la population locale, un crime pour lequel il devrait être pendu haut et cours :


Elon Musk installe des turbines « rapides et sales » pour alimenter les centres de données de xAI à Memphis

xAI, la société d'IA d'Elon Musk, utilise des turbines mobiles au gaz naturel pour alimenter son nouveau centre de données Colossus à Memphis, dans le Tennessee, en raison de l'insuffisance de l'électricité fournie par le réseau local. Ces turbines, généralement utilisées en cas d'urgence, sont moins efficaces sur le plan énergétique et émettent plus de polluants que les centrales électriques classiques. L'utilisation de ces turbines par xAI sans autorisation appropriée a suscité l'inquiétude des journalistes locaux et des défenseurs de l'environnement. L'entreprise n'a déposé une demande de permis qu'en janvier 2025, plusieurs mois après que les turbines aient été mises en service, en vue d'obtenir une autorisation pour les turbines existantes et les projets d'en ajouter d'autres. Cette démarche a suscité des critiques en raison de son impact sur l'environnement et de son manque de transparence.

Le département de la santé du comté de Shelby n'a pas fixé de calendrier pour l'approbation des turbines, qui sont sur le point d'émettre une limite critique de formaldéhyde. Si les émissions dépassent 10 tonnes par an, le site sera considéré comme une "source majeure" de pollution, ce qui entraînera une réglementation plus stricte. xAI s'étend également à un deuxième site à Memphis, en utilisant probablement des turbines plus mobiles, ce qui exacerbera les problèmes environnementaux dans une zone déjà polluée. L'approche de l'entreprise a été critiquée pour son manque de respect envers la communauté locale, qui a toujours souffert de la pollution industrielle.

Principaux enseignements :
- xAI utilise des turbines mobiles au gaz naturel pour alimenter son centre de données Colossus à Memphis. Ces turbines sont généralement utilisées en cas d'urgence et sont peu respectueuses de l'environnement.
- xAI a exploité ces turbines sans les permis aériens requis, ce qui a donné lieu à des contestations juridiques et à une demande de permis retardée pour ajouter d'autres turbines.
- L'utilisation de turbines mobiles est une solution palliative en raison de la forte demande d'énergie et des retards dans la production de turbines fixes, bien qu'elles soient moins efficaces et plus polluantes.
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 06/01/2026 à 7:31
Citation Envoyé par Ryu2000 Voir le message
Dessiner une personne réelle en bikini ce n'est pas nouveau.
C'est juste que maintenant c'est accessible à tout le monde et c'est quasi instantané.
Et particulièrement crédible.
Certaines femmes témoignent du malaise en se voyant nue alors qu'elles n'ont jamais été prises en photo sans vêtements.
Il faut voir le bon côté, si des photos ou des vidéos sont diffusées tu peux dire "ce n'est pas réellement moi, c'est de l'IA".
Vla le bon coté.
Même si tu as été carrée toute ta vie là dessus tu risques de te retrouver à moitié nue sur le plus gros réseau social mondial...
Ouais c'est ça le problème, il est impossible de savoir si une personne est majeure ou pas.
Le problème n'est pas de savoir si les personnes sont effectivement mineure ou non mais que des gens se pignolent en imaginant qu'elles le soient.
Et surtout que des personnes s'amusent à "dénuder" des personnes dont l'apparence suggèrent qu'elles sont mineures.
Citation Envoyé par Artaeus Voir le message
Preuve de la complète déliquescence de la rationalité et des mentalités en Europe :
- On accuse plus l'outil que le véritable coupable (celui qui a volontairement lancé le prompt et diffusé l'image).
Je suis bien d'accord là dessus
D'ailleurs, pourquoi ne pas accuser photoshop qui permet de faire la même chose ?
Parce que je suis incapable de le faire avec Photoshop (quoi que avec les fonctions IA c'est peut être devenu abordable) et que la diffusion est bien moins large.
Toutes ces gesticulations cachent juste une seule chose : L’État est devenu incapable de faire respecter les lois alors que les coupables sont identifiables.
Non ces gesticulations cachent une seule chose - et tu le mentionnais plus tôt : des débiles trouvent malin de dénuder des gens sur le plus gros réseau social du monde.
3  0 
Avatar de Jon Shannow
Membre extrêmement actif https://www.developpez.com
Le 06/01/2026 à 8:50
Citation Envoyé par Artaeus Voir le message
Preuve de la complète déliquescence de la rationalité et des mentalités en Europe :
- On accuse plus l'outil que le véritable coupable (celui qui a volontairement lancé le prompt et diffusé l'image).

C'est complétement ridicule d'accuser l'IA, on pourrait aussi accuser le couteau en cas d'agression, ou la voiture en cas d'attaque à la voiture bélier.
D'ailleurs, pourquoi ne pas accuser photoshop qui permet de faire la même chose ?

Toutes ces gesticulations cachent juste une seule chose : L’État est devenu incapable de faire respecter les lois alors que les coupables sont identifiables.

Ca me rappel l'affaire Kick avec Jean Pormanove, où au final, on accuse bien plus la caméra alors que les tortionnaires n'ont rien eu.
Je ne suis que partiellement d'accord. Certes le diffuseur est le coupable principal, mais dans le cas de l'IA, il y a des règles qui ont été établies afin d'empêcher la production de ce genre de photographie (toutes les autres IA le font). C'est juste la volonté de Musk de ne pas interdire ce genre de publication. Donc, l'IA est aussi responsable en autorisant ce genre de production.
4  1 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 06/01/2026 à 12:31
Citation Envoyé par Ryu2000 Voir le message
Après ça facilite un peu trop le job (il n'y aucun effort à produire).
Des gens qui n'ont pas cherché à voir des montages, vont tomber dessus sans le vouloir.
Légalement, la question de la "facilité" n'a aucune valeur.

Citation Envoyé par Ryu2000 Voir le message
Je crois qu'il faut créer de nouvelles lois.
Est-ce qu'on a le droit de demander à un chatbot IA de mettre une fille en bikini ?
Est-ce que le chatbot à le droit de mettre une fille en bikini si on lui demande ?

Est-ce que les lois existent déjà ?
Toutes les lois existent déjà (même sur la simple diffusion d'un photomontage à caractère pornographique, humiliant, dégradant).

Citation Envoyé par Ryu2000 Voir le message
Je ne suis pas convaincu.
C'est à la famille de la victime de porter plainte contre ses agresseurs.
L'avocat peut tomber sur des preuves vidéos.
=> Absolument pas, en cas d'homicide ou de torture, une enquête est automatiquement lancée.
Pour le moment, les tortionnaires sont libres et ont même repris les streams..
4  1