IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La première guerre mondiale de l'IA vient de commencer : La nouvelle IA Tulu3-405B détruit DeepSeek et OpenAI
Grâce à l'apprentissage par renforcement avec récompenses vérifiables, la nouvelle méthode d'Ai2

Le , par Jade Emy

52PARTAGES

5  1 
Un nouvel acteur vient de prendre la tête de ce que nous appelons la Première Guerre mondiale de l'IA. Le dernier modèle d'AI2, Tülu 3 405B, a surpassé à la fois le modèle controversé de DeepSeek et les offres d'OpenAI sur plusieurs points de référence importants. Comme DeepSeek, le projet Ai2 Tülu se concentre sur le post-entraînement. L'approche post-entraînement d'Ai2 comprend une technique appelée apprentissage par renforcement à partir de récompenses vérifiables, ou RLVR, qui consiste à entraîner un modèle en le récompensant ou en le pénalisant en fonction de la justesse de ses réponses à des tâches objectivement vérifiables, telles que la résolution de problèmes mathématiques et le suivi d'instructions.

La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source, qui correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme, a non seulement captivé les développeurs, mais a également incité les entreprises à repenser leurs stratégies en matière d'IA.

Depuis, les différents éditeurs d'IA ont lancé des modèles pour rivaliser avec o1 et DeepSeek R1. Récemment, c'est l'Allen Institute for AI (Ai2) qui a lancé Tülu3-405B, un modèle d'IA open source massif de 405 milliards de paramètres censé surpasser DeepSeek-V3 (R1) et égaler GPT-4o dans des critères de référence clés, en particulier le raisonnement mathématique et la sécurité. L'Allen Institute for AI (abrégé AI2) est un institut de recherche à but non lucratif fondé par Paul Allen, cofondateur de Microsoft et philanthrope, en 2014. L'institut cherche à mener des recherches et des travaux d'ingénierie à fort impact sur l'IA au service du bien commun.

Les évaluations internes d'Ai2 suggèrent que Tulu3-405B surpasse régulièrement DeepSeek-V3, en particulier dans les tests de sécurité et le raisonnement mathématique. Le modèle rivalise également avec le GPT-4o d'OpenAI. Tulu3-405B surpasse également les précédents modèles post-entraînés à poids ouvert, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B.


Ce nouveau modèle présente la nouvelle méthode de formation d'Ai2, l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Tulu3-405B s'appuie sur la recette de post-entraînement Tulu3 d'Ai2, introduite pour la première fois en novembre 2024. Le modèle affine le Llama-405B de Meta en utilisant une combinaison de données soigneusement sélectionnées, d'ajustements supervisés, d'optimisation directe des préférences (DPO) et de RLVR.

La RLVR est particulièrement remarquable parce qu'elle améliore les compétences pour lesquelles il existe des résultats vérifiables, comme la résolution de problèmes mathématiques et le suivi des instructions. Selon les conclusions d'Ai2, RLVR s'adapte plus efficacement à des paramètres de 405B qu'à des modèles plus petits tels que Tulu3-70B et Tulu3-8B. L'augmentation d'échelle a donné à Tulu3-405B un grand coup de pouce dans les compétences en mathématiques, ce qui renforce l'idée que les grands modèles sont plus performants lorsqu'ils sont alimentés avec des données spécialisées plutôt qu'avec un peu de tout, comme c'est le cas pour les grands ensembles de données.

Maintenant, il serait intéressant de voir si ces affirmations d'Ai2 sont crédibles. Pour rappel, lors de la sortie de son modèle R1, DeepSeek affirmait s'être écarté du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) et s'est appuyé sur l'apprentissage par renforcement (RL) pour atteindre ces performances. Cependant, OpenAI accusera la startup chinoise d'avoir entraîné son modèle R1 open-source en utilisant la technologie propriétaire d'OpenAI.

En d'autres termes, DeepSeek n'aurait pas tout construit à partir de zéro, mais se serait plutôt appuyée sur les modèles d'OpenAI pour développer son concurrent. Selon le Financial Times, l'éditeur de ChatGPT, basé à San Francisco, a constaté des preuves de "distillation", c'est-à-dire le processus de transfert de connaissances d'un grand modèle à un plus petit. Il s'agirait donc d'une violation des conditions d'utilisation d'OpenAI.

Voici l'annonce de Tülu3-405B :

Suite au succès de notre version Tülu 3 en novembre, nous sommes ravis d'annoncer le lancement de Tülu 3 405B - la première application de recettes de post-entraînement entièrement ouvertes aux plus grands modèles à poids ouvert. Avec cette version, nous démontrons l'évolutivité et l'efficacité de notre recette de post-entraînement appliquée à l'échelle des paramètres 405B.

Tülu 3 405B atteint des performances compétitives ou supérieures à celles de Deepseek v3 et de GPT-4o, tout en surpassant les modèles post-entraînement ouverts antérieurs de la même taille, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B, sur de nombreux points de référence standard. Il est intéressant de noter que notre cadre d'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a amélioré les performances de MATH de manière plus significative à une plus grande échelle, c'est-à-dire 405B par rapport à 70B et 8B, ce qui est similaire aux conclusions du rapport DeepSeek-R1. Dans l'ensemble, nos résultats montrent un avantage constant par rapport à DeepSeek V3, en particulier avec l'inclusion de repères de sécurité.


Mise à l'échelle de la recette Tülu 3

L'objectif principal de cette version était de tester notre nouvelle approche RLVR et notre infrastructure de formation à grande échelle et d'étendre la recette Tülu 3 au modèle de base Llama-405B. Notre recette d'entraînement pour le modèle 405B a été très similaire à celle des modèles 8B et 70B introduits dans le cadre de la recette post-entraînement de Tulu 3 :

  1. Curation et synthèse soigneuses des données ciblant les compétences de base

  2. Mise au point supervisée (SFT) sur notre mélange soigneusement sélectionné d'invites et de leurs complétions

  3. Optimisation directe des préférences (DPO) sur les données de préférences à la fois hors et sur la politique.

  4. RLVR, une nouvelle méthode basée sur RL pour améliorer des compétences spécifiques avec des récompenses vérifiables

  5. Une série d'évaluations standardisées pour le développement, la décontamination et l'évaluation finale.


Formation RLVR

Dans notre recette post-formation, nous tirons parti de l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une nouvelle méthode que nous avons introduite pour former des modèles de langage à des tâches dont les résultats sont vérifiables, telles que la résolution de problèmes mathématiques et le suivi d'instructions.


Pour faire passer RLVR à l'échelle 405B, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour l'entraînement. Après chaque itération de RLVR, les poids sont synchronisés avec le moteur vLLM à l'aide de la diffusion NCCL, ce qui est possible grâce à une suggestion de correction récente de l'équipe vLLM. À chaque itération du RLVR, l'inférence prend typiquement ~550 secondes, le transfert des poids ~25 secondes et l'entraînement ~1500 secondes. Pour réduire les coûts de calcul au cours de l'étape RLVR, nous utilisons un modèle de valeur de 8B. Les travaux futurs pourraient bénéficier de l'exploration de modèles de valeurs plus grands ou d'algorithmes RL alternatifs sans modèle de valeur tels que GRPO.

Nous avons constaté que l'utilisation exclusive des données MATH - plutôt qu'une combinaison des données GSM8k et IFEval - donnait de meilleurs résultats pour les modèles plus importants. Cela contraste avec les résultats obtenus avec des modèles plus petits, qui bénéficient de données plus diversifiées. Notre hypothèse est que les grands modèles sont mieux adaptés aux tâches complexes nécessitant des données spécialisées.

Dans la figure ci-dessous, nous montrons les courbes d'apprentissage des récompenses vérifiables, de la divergence KL et de la longueur des réponses au fil des épisodes. Dans l'ensemble, nous sommes ravis de constater que les récompenses vérifiables augmentent comme nous l'avons observé dans les paramètres 8B et 70B. Nous marquons d'une étoile le point de contrôle final. Nous notons qu'il s'agit du dernier point de contrôle sauvegardé - nous avions l'intention de nous entraîner plus longtemps, mais nous avons rencontré des contraintes de calcul. Comme nous n'avons pas observé de saturation des performances de MATH au cours de l'entraînement, un entraînement plus poussé pourrait encore améliorer les performances.


Défis techniques

Le passage à 405B a nécessité plusieurs efforts d'ingénierie et a posé un certain nombre de défis :

  • Exigences en matière de calcul : L'entraînement de Tülu 3 405B a nécessité 32 nœuds (256 GPU) fonctionnant en parallèle. Pour l'inférence, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour la formation. Bien que la majeure partie de notre base de code ait bien évolué, nous avons occasionnellement rencontré des problèmes de synchronisation et de dépassement de temps NCCL qui ont nécessité une surveillance et une intervention méticuleuses.

  • Défis liés au réglage des hyperparamètres : Compte tenu des coûts de calcul, le réglage des hyperparamètres a été limité. Nous avons suivi le principe des "taux d'apprentissage plus faibles pour les modèles plus importants", conformément à la pratique antérieure avec les modèles Llama.


Malgré ces obstacles, notre pipeline de formation s'est avéré robuste, ce qui nous a permis de publier le plus grand modèle formé à l'aide d'une recette entièrement ouverte à ce jour. Nous avons mis à jour l'article avec ces résultats 405B et de nombreux détails expliquant davantage nos résultats d'évaluation et notre méthodologie pour tous les modèles de la famille Tülu 3.
Source : 'Allen Institute for AI (Ai2)

Et vous ?

Pensez-vous que ces affirmations sont crédibles ou pertinentes ?
Quel est votre avis sur cette annonce ?

Voir aussi :

Ai2, l'organisation de recherche en IA à but non lucratif fondée par feu Paul Allen, cofondateur de Microsoft, a publié OLMo 2, "le meilleur modèle de langage entièrement open-source à ce jour"

OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT. O3-mini est qualifié de « monstre de codage ultra-rapide »

L'entreprise technologique chinoise Alibaba a lancé une nouvelle version de son modèle d'IA Qwen 2.5-Max, affirmant qu'il surpasse DeepSeek : "Qwen 2.5-Max surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B"

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de rust2code
Membre régulier https://www.developpez.com
Le 05/02/2025 à 1:05
Citation Envoyé par pyros Voir le message
Je suis probablement très naif, mais concrètement, qu'est-ce que ça rapport d'avoir l'IA la plus performante ?

OK, Tulu3-405B fait peut être mieux que DeepSeek, GPT, whatever aux bench mis en place par la communauté des DataScientists, mais ça sert à quoi ?

Au quotidient, la seule différence que j'ai vue entre GPT3 et GPT4 est que GPT4 a arrété de me donner la taille d'un oeuf de lapin. Mais part rapport à 2022, bah les textes générés sont un peu mieu, les images ont un peu moins d'artefact et Will Smith mange un peu mieux les pâtes. Mais j'ai pas vraiment vue de révolution. Et des deep fake en mettant des tètes de polititiens sur des acteur p**no, ça existait déjà y'a 30 ans avec Karl Zeros chez Null Part Ailleur.

C'est une vrai question que je me pose...
Certains regardent le doigt qui montre la lune.

Voici une réponse un peu plus contrastée: tout cela est essentiellement de la communication. Vu l’engouement suscité par DeepSeek, "tout le monde" essaye désormais de saisir la balle au bond et d'exister (ou de ne pas disparaître) sur le marché. L'objectif est en réalité de faire venir des investisseurs, d'enthousiasmer des actionnaires et des capitalisations boursières.

Les gens susceptibles de financer le développement de ces modèles à l'avenir ne sont certainement pas des experts de l'IA, des benchmark de LLM, ni même de l'informatique. Ils veulent juste savoir sur qui et quoi miser pour obtenir le meilleur retour sur investissement possible dans 2, 5, 10 ou 20 ans. Rien de plus. Pour cela, il faut impressionner, convaincre et faire rêver ces gens.

Et avec les utilisateurs finaux, c'est à peu près le même principe, il y a tellement de modèles génératifs qui sont en train d'inonder le marché qu'ils finiront par choisir celui qui a le plus joli logo, celui qui présente le meilleur rapport UX/prix ou celui qui génère les plus belles images de chatons ailés. Les benchmark, je ne suis pas convaincu que ça les intéresse plus que ça. Ni aujourd'hui, ni demain, ni plus tard.

Grâce à DeepSeek, les start up sont totalement "décomplexées" et ne craignent plus OpenAI. Elles ont compris qu'il était possible de faire mieux sans avoir des milliards de dollars ou des puces IA à volonté.

Ce à quoi vous assistez est essentiellement le début d'une guerre technologique et le chant du signe d'OpenAI en tant que leader incontesté des LLM génératifs.
1  0 
Avatar de pyros
Membre expérimenté https://www.developpez.com
Le 03/02/2025 à 14:43
Je suis probablement très naif, mais concrètement, qu'est-ce que ça rapport d'avoir l'IA la plus performante ?

OK, Tulu3-405B fait peut être mieux que DeepSeek, GPT, whatever aux bench mis en place par la communauté des DataScientists, mais ça sert à quoi ?

Au quotidient, la seule différence que j'ai vue entre GPT3 et GPT4 est que GPT4 a arrété de me donner la taille d'un oeuf de lapin. Mais part rapport à 2022, bah les textes générés sont un peu mieu, les images ont un peu moins d'artefact et Will Smith mange un peu mieux les pâtes. Mais j'ai pas vraiment vue de révolution. Et des deep fake en mettant des tètes de polititiens sur des acteur p**no, ça existait déjà y'a 30 ans avec Karl Zeros chez Null Part Ailleur.

C'est une vrai question que je me pose...
0  0 
Avatar de aluzed
Candidat au Club https://www.developpez.com
Le 04/02/2025 à 8:11
Bonjour, l'intérêt d'un modèle performant est de réduire le délai de calcul au moment où il est sollicité, et bien sûr améliorer la justesse des réponses. Plus le modèle répond vite, moins il consomme d'énergie.

De même avec la guerre commerciale et l'embargo anti Chine, les IA émergentes ont tendance à être compatible avec plus de matériel différents. C'est une très bonne chose car non seulement cela aura un effet anti monopolistique (pour NVidia) mais aussi permettra le développement de librairies non CUDA (compatible avec n'importe quel TPU). Car il faut garder en tête que tant qu'NVidia est en position de force, il sort des GPU à 2000€...

Bref il n'y a que du bon à avoir des IA plus performantes et ouvertes.
0  0 
Avatar de pyros
Membre expérimenté https://www.developpez.com
Le 04/02/2025 à 10:56
Citation Envoyé par aluzed Voir le message
Bonjour, l'intérêt d'un modèle performant est de réduire le délai de calcul au moment où il est sollicité, et bien sûr améliorer la justesse des réponses. Plus le modèle répond vite, moins il consomme d'énergie.

De même avec la guerre commerciale et l'embargo anti Chine, les IA émergentes ont tendance à être compatible avec plus de matériel différents. C'est une très bonne chose car non seulement cela aura un effet anti monopolistique (pour NVidia) mais aussi permettra le développement de librairies non CUDA (compatible avec n'importe quel TPU). Car il faut garder en tête que tant qu'NVidia est en position de force, il sort des GPU à 2000€...

Bref il n'y a que du bon à avoir des IA plus performantes et ouvertes.
+1 pour l'aspet ouverture et open source, bien que je pense que la stratégie Chinoise est plus de déstabiliser l'égémonie Américaine que de proner l'open source. M'étonnerait pas que les chinois passent a un model complètement fermé et opaque lorsqu'ils auront repris le dessus, bref.

Donc si je comprend bien, l'intéret d'un model performant est d'avoir, a réponse égale, une consomation (d'énergie, de temps, de puissance de clacule) moindre. La performance brute, à ressource maximal, passe plutôt au second plan. Qui peut le plus peut le moins en un sens.
0  0 
Avatar de nhugodot
Membre habitué https://www.developpez.com
Le 04/02/2025 à 13:50
Évidemment ça a un intérêt : celui d'arriver à faire des tâches de plus en plus complexes et de mieux en mieux. Comme celle de coder. De piloter une auto. De répondre à un client. De piloter un robot (d'usine ou ménager ). De résoudre des problèmes scientifiques complexes. De trouver des médicaments. De doubler des films dans une autre langue ou d'en faire de nouveaux en refaisant vivre d'anciens acteurs. D'inventer des scénarios. D'éduquer nos enfants. Etc.

Et non pas de parfaire Will Smith mangeant des pâtes (sic)... On a mieux à faire...
0  0 
Avatar de nhugodot
Membre habitué https://www.developpez.com
Le 05/02/2025 à 3:42
Ce n'est pas le "moment Spoutnik" mais le "moment Linux" de OpenAI... l'open source aura la peau d'OpenAI, allié de MS, comme Linux a eu celle de Crosoft...
(ou le moment Android, à base de Linux, qui a tué Windows Mobile, aussi...)
Idem du Web, libre, vs AOL et Compuserve.
Et de tant d'autres...

La prochaine étape? Basé sur cette avancée de DeepSeek profitable à tous (allez donc sur Groq.com utiliser Mixtral, Llama et DeepSeek gratuitement et surtout ultra rapide! Vive les pupuces Groq IA natives, nVidia aussi va avoir son "moment" ...), les autres équipes vont l'améliorer et dépasser enfin OpenAI. Allen a fondé son équipe qui l'a dépassé hier semble t-il...

Après Linux inside, Llama inside ... merci Zuck et surtout notre frenchy Yann le Cun à Paris, son "CTO", cocorico

Et j'attends toujours H.com ... (et que fait Xavier Niel?)
0  0