IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

xAI dévoile son chatbot d'IA Grok 1.5 avec un "raisonnement amélioré" qui accroit ses performances en codage et en mathématiques,
Mais il reste à la traîne par rapport à OpenAI et à Anthropic

Le , par Mathis Lucas

20PARTAGES

3  0 
La startup xAI d'Elon Musk vient de dévoiler Grok 1.5, la nouvelle version du grand modèle de langage qui pilote son chatbot d'IA Grok. xAI a annoncé que Grok-1.5 bénéficie d'un "raisonnement amélioré", notamment pour les tâches liées au codage et aux mathématiques. Le nouveau modèle a plus que doublé le score de Grok-1 sur le benchmark mathématique populaire MATH et a obtenu plus de 10 points de pourcentage de plus sur le test HumanEval (de génération de code et de capacités de résolution de problèmes). Toutefois, malgré ses performances, Grok 1.5 reste à la traîne par rapport aux modèles tels que Gemini Pro 1.5, GPT-4 et Claude 3 Opus.

Grok est un chatbot d'IA développé par la startup xAI lancée par Elon Musk l'année dernière. Musk a notamment lancé xAI pour développer un rival de ChatGPT, le chatbot d'OpenAI qu'il accuse d'être woke et de promouvoir les idées de gauche, tout en censurant les voix des conservateurs. Contrairement à ses rivaux, Grok a la capacité d'accéder à des informations en temps réel grâce à une intégration avec le réseau social X (ex-Twitter). En outre, Grok se différencie des autres par le fait qu'il est prêt à s'attaquer à des questions "épicées" et est programmé pour le faire d'une manière à la fois spirituelle et un peu rebelle.

Bien que la première version de Grok, Grok 1, ait fait sensation sur X, son côté "audacieux" et "rebelle" n'a pas attiré grand monde et il n'a pas suscité autant de réactions dans la communauté comme ses rivaux GPT-4 d'OpenAI et Claude d'Anthopic. L'entreprise a toutefois poursuivi ses développements et a annoncé mercredi que la version Grok 1.5 est prête. Le nouveau modèle sera bientôt disponible pour les utilisateurs payants existants et les premiers testeurs sur le réseau social X. Les nouvelles fonctionnalités comprennent "des capacités de raisonnement améliorées et une longueur de contexte de 128 000 jetons.


Pour mémoire, la longueur de contexte (ou fenêtre contextuelle) correspond au nombre de mots ou de pages que le modèle peut traiter en une seule fois. Une longueur de contexte de 128 000 jetons correspond à environ 100 000 mots ou 300 pages de livre. Cela signifie que Grok 1.5 peut traiter des questions plus complexes comportant davantage d'exemples. À titre de comparaison, Claude 3 Opus a une longueur de contexte de 200 000 jetons et celle de GPT-4 Turbo est de 128 000 jetons. Mistral Large, Mistral Medium, Mistral 8x7B et Gemini Pro ont chacun une longueur de contexte bien plus petite de 32 800 jetons.

À l'heure actuelle, aucun grand modèle de langage (LLM) ne dispose d'une longueur de contexte supérieure à 200 000 jetons. Les modèles Claude 3 Opus et Claude 3 Sonnet (dont la longueur de contexte est également de 200 000 jetons) détiennent donc le record en ce qui concerne la longueur de la fenêtre de contexte. Pour en revenir à Grok 1.5, les résultats des tests révèlent qu'il a plus que doublé le score de Grok-1 sur le benchmark "MATH" et a obtenu plus de 10 points de pourcentage de plus sur HumanEval (qui évalue les capacités en matière de génération de code informatique et de résolution de problèmes).

Plus précisément, Grok 1.5 a obtenu un score de 50,6 % sur le benchmark MATH et 90 % au test de référence GSM8K. Ces deux tests couvrent un large éventail de problèmes mathématiques allant de l'école primaire au niveau de compétition de l'école secondaire. Pour la génération de code et la résolution de problèmes, Grok-1.5 a obtenu un score de 74,1 % sur le test HumanEval. Sur le test de compréhension du langage MMLU, Grok 1.5 a obtenu un score d'environ 81 %. C'est un grand bond en avant par rapport aux 73 % de Grok-1, mais il est loin derrière les leaders actuels du marché GPT-4 et Claude 3 Opus.

Sur le benchmark MMLU, GPT-4 et Claude 3 Opus ont chacun obtenu un score d'environ 86 %. Dans le test "Needle in a Haystack" (l'aiguille dans une botte de foin), qui vérifie si le modèle d'IA peut trouver de manière fiable des informations spécifiques dans la fenêtre contextuelle, Grok 1.5 a obtenu un résultat parfait. Toutefois, ce test n'est pas très significatif, car il utilise le modèle comme une fonction de recherche coûteuse. Selon les experts du milieu, des éléments plus pertinents, mais beaucoup plus difficiles à tester, seraient le nombre d'erreurs ou d'omissions lors de la synthèse de documents très volumineux.

D'autres entreprises d'IA, telles que Google ou Anthropic, utilisent également ce critère finalement trompeur pour vanter les performances de la fenêtre contextuelle de leur modèle. Évoquant la fenêtre contextuelle de Grok-1.5, xAI a déclaré dans un billet de blogue : « Grok-1.5 peut utiliser des informations provenant de documents beaucoup plus longs. En outre, le modèle peut gérer des invites plus longues et plus complexes tout en conservant sa capacité à suivre les instructions au fur et à mesure que sa fenêtre contextuelle s'agrandit ». Google et Anthropic ont déjà fait des déclarations similaires précédemment.

Selon le billet de blogue, xAI met l'accent sur l'innovation, en particulier dans le cadre de la formation. Grok-1.5 serait basé sur un framework de formation distribué spécialisé construit sur JAX, Rust et Kubernetes. Cette pile de formation permettrait à l'équipe de prototyper des idées et de former de nouvelles architectures à l'échelle avec un minimum d'effort. L'entreprise explique : « l'un des plus grands défis de la formation de grands modèles de langage (LLM) sur de grands clusters de calcul est l'optimisation de la fiabilité et de la disponibilité du travail de formation ». xAI présente son infrastructure comme suit :

Citation Envoyé par xAI

La recherche de pointe sur les grands modèles de langage (LLM) qui s'exécute sur des clusters GPU massifs exige une infrastructure robuste et flexible. Grok-1.5 est construit sur un framework d'entraînement distribué personnalisé basé sur JAX, Rust et Kubernetes. Cette pile de formation permet à notre équipe de prototyper des idées et de former de nouvelles architectures à l'échelle avec un minimum d'effort. Un défi majeur de la formation des LLM sur de grands clusters de calcul est de maximiser la fiabilité et le temps de disponibilité du travail de formation.

Notre framework de formation personnalisé garantit que les nœuds problématiques sont automatiquement détectés et éjectés de la tâche de formation. Nous avons également optimisé les points de contrôle, le chargement des données et le redémarrage des tâches de formation afin de minimiser les temps d'arrêt en cas de défaillance.
Bien sûr, il est difficile de prédire comment ces résultats se traduiront en matière d'utilisation réelle. Les benchmarks couramment utilisés pour tester les modèles, qui mesurent des choses aussi ésotériques que les performances lors de réponse à des questions d'examen de chimie de niveau supérieur, ne reflètent pas vraiment la façon dont l'utilisateur moyen interagit avec les modèles aujourd'hui. En ce qui concerne le caractère "rebelle" et "audacieux" de Grok, les changements éventuels apportés par Grok-1.5 dans ces domaines ne sont pas clairs. L'entreprise n'y fait pas allusion dans son billet de blogue de mardi.

L'annonce de Grok 1.5 intervient quelques jours après que xAI a publié Grok-1 en open source, bien que sans le code nécessaire pour l'affiner ou l'entraîner davantage. Plus récemment, Musk a déclaré qu'un plus grand nombre d'utilisateurs de X (en particulier les utilisateurs qui paient l'abonnement Premium de 8 dollars par mois) auraient accès au chatbot Grok, qui n'était auparavant disponible que pour les clients X Premium+ (qui paient 16 dollars par mois).

Grok-1 est le plus grand modèle de mélange d'experts disponible en open source à ce jour. Cependant, ses performances sont inférieures à celles de modèles open source plus petits et plus efficaces. Le billet de blogue de xAI n'a pas fait de commentaires sur d'éventuels projets visant à publier Grok 1.5 en open source.

Source : Grok 1.5

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des améliorations apportées par le modèle d'IA Grok 1.5 ? Quid de ses performances ?
En limitant l'accès de Grok à la version payante de X, Musk tient-il sa promesse de développer une IA ouverte et bénéfique à tous ?

Voir aussi

Elon Musk défie ChatGPT avec son bot IA Grok, premier produit de son entreprise xAI. Présenté comme plus audacieux que ses concurrents, il s'inspire d'un roman de science-fiction humoristique

Elon Musk publie le code source de son chatbot d'IA Grok dans le cadre de la dernière escalade de la guerre de l'IA, il est publié sous la licence Apache 2.0 qui autorise l'utilisation commerciale

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de virginieh
Membre expérimenté https://www.developpez.com
Le 22/04/2024 à 7:42
Citation Envoyé par Aiekick Voir le message
au debut j'étais admiratif d'elon musk. je me disait, le mec aprt de zero et va au bout de ses reves.

maintenant je pense que c'est un paradoxe. a la fois tres intelligent, et un cretin fini. une sorte de politique quoi
Oui enfin part de zéro ...

Tu connais l'histoire du millionnaire ? (je sais plus lequel c'est censé être)
Comment je suis devenu millionnaire ? C'est très simple, j'ai acheté une pomme moche, je l'ai frottée et revendue le double, puis j'ai acheté 2 pommes et j'ai recommencé. Puis mon grand père m'a donné 1 million.

Si tu enlève des "self-made" tous ceux qui ont lancé leur(s) boite(s) sponsorisées par leurs parents il n'en reste plus beaucoup.
7  0 
Avatar de Aiekick
Membre extrêmement actif https://www.developpez.com
Le 20/04/2024 à 12:44
au debut j'étais admiratif d'elon musk. je me disait, le mec aprt de zero et va au bout de ses reves.

maintenant je pense que c'est un paradoxe. a la fois tres intelligent, et un cretin fini. une sorte de politique quoi
3  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 22/04/2024 à 7:51
Citation Envoyé par Mathis Lucas Voir le message
Quel est votre avis sur le sujet ?
On sait pourtant qu'il ne faut pas former une IA sur un royaume de trolls, on a déjà testé avant avec 4chan, on connait le résultat.
Mais je ne serais pas si critique, Grok est finalement un sous-Gorafi
Que pensez-vous de la tendance du chatbot Grok d'Elon Musk à diffuser des infox ?
Comment diffuser des infos construites sur une plateforme qui limite les messages à 300 caractères?
Twitter est un nid à trolls, Grok est un troll.
L'accès de Grok aux messages publiés par les utilisateurs de X est-il une mauvaise idée ?
Ca ne devrait même pas être une idée.
2  0 
Avatar de
https://www.developpez.com
Le 30/08/2024 à 19:16
Il a toujours été très accessible de faire un trucage avec photoshop ou gimp, à l'époque les gens étaient bien moins informé et il y a eu peu de désinformation.

La question de la responsabilité concernant les fake news IA, n'est pas a posé du côté de l'IA, des dev, ou autres. Elle est du côté de l'utilisateur.
Quelqu'un a parfaitement le droit de créer une fausse image et de la diffuser, par contre, l'intention de tromper et de manipuler est condamnable.

Cette évolution juridique et des mentalités qui tend à rendre irresponsable les utilisateurs (citoyens) est plus qu'inquiétante pour la démocratie.
Mieux vaudrait se concentrer sur l'enseignement de l'esprit critique, que sur la censure de modèle IA ...
2  0 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 03/04/2024 à 12:32
Citation Envoyé par Stéphane le calme Voir le message
Que pensez-vous de l'approche de cette équipe rouge ?
Elle n'a aucun intérêt, ce "combat" est totalement dépassé. Ce chercheurs ferais mieux de s'intéresser au vrais mauvais usages de l'IA, par des gouvernements répressifs. Parce que le résultat, ce n'est pas quelques morts (où l'auteur aurais de toute façon trouvé un moyen de commettre son crime), mais potentiellement des millions de personnes fichés, surveillés, emprisonnés, et assassinés si désobéissance.

Le problème c'est que l'on vis dans un monde ou cette cette maxime dirige l'espace médiatique :
Citation Envoyé par Joseph Staline
“La mort d'un homme est une tragédie. La mort d'un million d'hommes est une statistique.”
Pensez-vous que les chatbots IA devraient être soumis à des réglementations plus strictes ? Pourquoi ou pourquoi pas ?
Non. Un chatbot est un outils censé être neutre, un "mauvais " usage se déroule dans la vie réel, pas devant l'écran.
Et de toute façon certains sont open-source, donc cela ne changera rien. Je pense notamment au premiers modèles de Mistral, sous licence MIT.
De plus, une trop forte censure réduit la pertinence du chatbot.
Et enfin, une censure étatique risque de favoriser les grandes entreprises, au détriment de systèmes libres collaboratifs. Ce qui finira par favoriser les mauvais usages pas des gouvernements répressifs.

Sinon, on apprécie la délicatesse de ces "chercheurs" pour les proches de victimes d'attentats :

Alors qu'aucun des modèles d'IA n'était vulnérable aux attaques adverses par manipulation de la logique, Grok s'est révélé vulnérable à toutes les autres méthodes, tout comme Le Chat de Mistral. Selon Polyakov, Grok a tout de même obtenu les pires résultats parce qu'il n'a pas eu besoin de jailbreak pour obtenir des résultats concernant le câblage électrique, la fabrication de bombes ou l'extraction de drogues, qui sont les questions de base posées aux autres modèles d'IA.
En ce qui concerne des sujets encore plus dangereux, comme la séduction des enfants
Un meurtre dans un attentat terroriste c'est moins grave qu'un abus d'enfant ?
1  0 
Avatar de
https://www.developpez.com
Le 16/08/2024 à 8:30
Gestion des filtres : Faut il censurer la génération d'images de l'IA comme OpenAI le fait avec ChatGPT ou laisser faire comme Elon Musk le fait avec Grok 2 ? Dans quelle mesure ?
Non, simplement. Libre aux différents réseaux sociaux et autres plateformes d'adapter leurs chartes d'utilisation.

Désinformation et contenus offensants : Comment pouvons-nous garantir que Grok ne propage pas de désinformation ou de contenus offensants ?
Alors ce n'est pas Grok, une intelligence artificielle qui propage de la désinformation mais des intelligences humaines, qui utilisent l'IA
Comment faire pour que l'utilisateur d'une plateforme ne propage pas de désinformation ou de contenus offensants ? J'ai 4 potentielles solutions mais elles ne sont évidemment pas exhaustive :
  • Avec une charte d'utilisation des plateformes de partage (réseaux sociaux, forums, etc..) et les sanctions qui vont avec en cas de non-respect.
  • En intégrant des outils de détection d'IA par exemple.
  • Les Notes de la Communauté sur X/Twitter fonctionnent relativement bien. Un contexte est souvent (toujours) apporté sur les fake news, y compris les images générées par IA. Les autres réseaux devraient s'en inspirer.
  • Et le plus important, la sensibilisation : Un utilisateur sensibilisé est un pilier de la sécurité collective.


Créativité humaine : Grok peut générer du contenu, mais comment préserver la créativité individuelle face à cette automatisation ?
En continuant à créer individuellement Les bibliothécaires, journalistes et éditeurs n'ont pas disparu avec l'expansion des moteurs de recherche comme Google à l'époque. Alors je pense que tout comme avec l'arrivée de Google, l'IA fera sans doute évoluer la manière de fonctionner de certains domaine (telle que la créativité individuelle) sans pour autant la faire disparaitre. Ce n'est qu'un outil que personne n'oblige à utiliser.
2  1 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 16/08/2024 à 11:29
Tout cela ressemble vraiment à une panique morale... Alors que dans les faits, les conséquences seront très limités. Le seul truc qui m’effraie avec la génération d'image est le risque de désinformation avec les deepfakes. Pour le reste, l'AI générative d'image est loin d'être la plus dangereuse. On devrait (et surtout ces activistes du dimanche) surtout s’inquiéter des risques de la surveillance algorithmique.

« Toutefois, ce problème a été résolu bien avant que ChatGPT ne soit accessible au public. Il est très inquiétant de constater que n'importe qui peut payer X 4 $ pour générer des images de Micky Mouse en train d'effectuer une fusillade de masse contre des enfants »
En quoi pouvoir générer des images de Micky Mouse en train d'effectuer une fusillade de masse contre des enfants représente un danger ?? Personne ne crois que Micky Mouse est un personnage réel...
1  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 16/08/2024 à 11:30
Citation Envoyé par OrthodoxWindows Voir le message
Personne ne crois que Micky Mouse est un personnage réel...
Ouais mais ça ne va pas plaire à Disney.
2  1 
Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 16/08/2024 à 21:09
Citation Envoyé par Ryu2000 Voir le message
Ouais mais ça ne va pas plaire à Disney.
Certes

D'ailleurs quand on y pense, les grosses multinationales de gestion des droits d'auteur (de Disney à Warner en passant par Sony) sont en train de se faire vraiment avoir ; pendant des années, on nous a fait ch*** avec le strict respect du droit d'auteur, désormais ces même pouvoir publiques deviennent très laxistes avec l'IA. La différence est que ce n'a jamais été des multinationales du numérique qui piratais du contenu... Alors qu'avec l'IA, les intérêts financiers ne sont plus les mêmes
1  0 
Avatar de totozor
Expert confirmé https://www.developpez.com
Le 23/08/2024 à 8:22
Citation Envoyé par Ryu2000 Voir le message
Il faut le temps que les lois se fassent, c'est un processus lent.
Je suis moins optimiste que toi là dessus.
Le problème n'est pas le temps législatif mais l'impunité de certains ou la capacité à répondre à ce système.

Je vais donner un exemple : il y a 7-8 ans les troupes d'improvisations théâtrale vers chez moi ont reçu des courriers ou des mails leur signalant qu'elles avaient violées les droits d'auteurs pendant certains de leurs évènements en diffusant au public des musiques qui n'étaient pas libre de droits (de mémoire on leur réclamait 75€ par évènements sur environ 1 an soit entre 300 et 1000€).
Certaines troupes ont décidé de payer vite pour éviter tout problème.
D'autres ont décidé de contester collectivement chaque évènement via courrier d'un avocat.
Une partie des évènements ont été retiré de la liste mais pour d'autres on a reçu la liste des musiques diffusées avec les heures de diffusion.
Je n'ai pas le détail de la suite mais s'en est suivi plusieurs échanges entre avocats pour que finalement ils renoncent à toute demande.

Là où je veux en venir est que si tu as les moyens (en l'occurrence un improvisateur avocat) et que tu pousses l'adversaire à dépenser plus en te répondant qu'il n'y gagnera à la fin, les poursuites sont abandonnées.
Les puissants ont quasiment moyens illimités sur ce genre de sujets stratégique pour eux (regarde les amendes données aux GAFAM qui se répètent tous les ans sans que rien ne change).
Ils sont factuellement au dessus de la loi parce qu'il est plus rentable pour eux de ne pas la respecter et de payer l'amende que de la respecter.
1  0