La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source, qui correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme, a non seulement captivé les développeurs, mais a également incité les entreprises à repenser leurs stratégies en matière d'IA.
Depuis, les différents éditeurs d'IA ont lancé des modèles pour rivaliser avec o1 et DeepSeek R1. Récemment, c'est l'Allen Institute for AI (Ai2) qui a lancé Tülu3-405B, un modèle d'IA open source massif de 405 milliards de paramètres censé surpasser DeepSeek-V3 (R1) et égaler GPT-4o dans des critères de référence clés, en particulier le raisonnement mathématique et la sécurité. L'Allen Institute for AI (abrégé AI2) est un institut de recherche à but non lucratif fondé par Paul Allen, cofondateur de Microsoft et philanthrope, en 2014. L'institut cherche à mener des recherches et des travaux d'ingénierie à fort impact sur l'IA au service du bien commun.
Les évaluations internes d'Ai2 suggèrent que Tulu3-405B surpasse régulièrement DeepSeek-V3, en particulier dans les tests de sécurité et le raisonnement mathématique. Le modèle rivalise également avec le GPT-4o d'OpenAI. Tulu3-405B surpasse également les précédents modèles post-entraînés à poids ouvert, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B.
Ce nouveau modèle présente la nouvelle méthode de formation d'Ai2, l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Tulu3-405B s'appuie sur la recette de post-entraînement Tulu3 d'Ai2, introduite pour la première fois en novembre 2024. Le modèle affine le Llama-405B de Meta en utilisant une combinaison de données soigneusement sélectionnées, d'ajustements supervisés, d'optimisation directe des préférences (DPO) et de RLVR.
La RLVR est particulièrement remarquable parce qu'elle améliore les compétences pour lesquelles il existe des résultats vérifiables, comme la résolution de problèmes mathématiques et le suivi des instructions. Selon les conclusions d'Ai2, RLVR s'adapte plus efficacement à des paramètres de 405B qu'à des modèles plus petits tels que Tulu3-70B et Tulu3-8B. L'augmentation d'échelle a donné à Tulu3-405B un grand coup de pouce dans les compétences en mathématiques, ce qui renforce l'idée que les grands modèles sont plus performants lorsqu'ils sont alimentés avec des données spécialisées plutôt qu'avec un peu de tout, comme c'est le cas pour les grands ensembles de données.
Maintenant, il serait intéressant de voir si ces affirmations d'Ai2 sont crédibles. Pour rappel, lors de la sortie de son modèle R1, DeepSeek affirmait s'être écarté du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) et s'est appuyé sur l'apprentissage par renforcement (RL) pour atteindre ces performances. Cependant, OpenAI accusera la startup chinoise d'avoir entraîné son modèle R1 open-source en utilisant la technologie propriétaire d'OpenAI.
En d'autres termes, DeepSeek n'aurait pas tout construit à partir de zéro, mais se serait plutôt appuyée sur les modèles d'OpenAI pour développer son concurrent. Selon le Financial Times, l'éditeur de ChatGPT, basé à San Francisco, a constaté des preuves de "distillation", c'est-à-dire le processus de transfert de connaissances d'un grand modèle à un plus petit. Il s'agirait donc d'une violation des conditions d'utilisation d'OpenAI.
Voici l'annonce de Tülu3-405B :
Suite au succès de notre version Tülu 3 en novembre, nous sommes ravis d'annoncer le lancement de Tülu 3 405B - la première application de recettes de post-entraînement entièrement ouvertes aux plus grands modèles à poids ouvert. Avec cette version, nous démontrons l'évolutivité et l'efficacité de notre recette de post-entraînement appliquée à l'échelle des paramètres 405B.
Tülu 3 405B atteint des performances compétitives ou supérieures à celles de Deepseek v3 et de GPT-4o, tout en surpassant les modèles post-entraînement ouverts antérieurs de la même taille, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B, sur de nombreux points de référence standard. Il est intéressant de noter que notre cadre d'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a amélioré les performances de MATH de manière plus significative à une plus grande échelle, c'est-à-dire 405B par rapport à 70B et 8B, ce qui est similaire aux conclusions du rapport DeepSeek-R1. Dans l'ensemble, nos résultats montrent un avantage constant par rapport à DeepSeek V3, en particulier avec l'inclusion de repères de sécurité.
Mise à l'échelle de la recette Tülu 3
L'objectif principal de cette version était de tester notre nouvelle approche RLVR et notre infrastructure de formation à grande échelle et d'étendre la recette Tülu 3 au modèle de base Llama-405B. Notre recette d'entraînement pour le modèle 405B a été très similaire à celle des modèles 8B et 70B introduits dans le cadre de la recette post-entraînement de Tulu 3 :
Formation RLVR
Dans notre recette post-formation, nous tirons parti de l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une nouvelle méthode que nous avons introduite pour former des modèles de langage à des tâches dont les résultats sont vérifiables, telles que la résolution de problèmes mathématiques et le suivi d'instructions.
Pour faire passer RLVR à l'échelle 405B, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour l'entraînement. Après chaque itération de RLVR, les poids sont synchronisés avec le moteur vLLM à l'aide de la diffusion NCCL, ce qui est possible grâce à une suggestion de correction récente de l'équipe vLLM. À chaque itération du RLVR, l'inférence prend typiquement ~550 secondes, le transfert des poids ~25 secondes et l'entraînement ~1500 secondes. Pour réduire les coûts de calcul au cours de l'étape RLVR, nous utilisons un modèle de valeur de 8B. Les travaux futurs pourraient bénéficier de l'exploration de modèles de valeurs plus grands ou d'algorithmes RL alternatifs sans modèle de valeur tels que GRPO.
Nous avons constaté que l'utilisation exclusive des données MATH - plutôt qu'une combinaison des données GSM8k et IFEval - donnait de meilleurs résultats pour les modèles plus importants. Cela contraste avec les résultats obtenus avec des modèles plus petits, qui bénéficient de données plus diversifiées. Notre hypothèse est que les grands modèles sont mieux adaptés aux tâches complexes nécessitant des données spécialisées.
Dans la figure ci-dessous, nous montrons les courbes d'apprentissage des récompenses vérifiables, de la divergence KL et de la longueur des réponses au fil des épisodes. Dans l'ensemble, nous sommes ravis de constater que les récompenses vérifiables augmentent comme nous l'avons observé dans les paramètres 8B et 70B. Nous marquons d'une étoile le point de contrôle final. Nous notons qu'il s'agit du dernier point de contrôle sauvegardé - nous avions l'intention de nous entraîner plus longtemps, mais nous avons rencontré des contraintes de calcul. Comme nous n'avons pas observé de saturation des performances de MATH au cours de l'entraînement, un entraînement plus poussé pourrait encore améliorer les performances.
Défis techniques
Le passage à 405B a nécessité plusieurs efforts d'ingénierie et a posé un certain nombre de défis :
Malgré ces obstacles, notre pipeline de formation s'est avéré robuste, ce qui nous a permis de publier le plus grand modèle formé à l'aide d'une recette entièrement ouverte à ce jour. Nous avons mis à jour l'article avec ces résultats 405B et de nombreux détails expliquant davantage nos résultats d'évaluation et notre méthodologie pour tous les modèles de la famille Tülu 3.
Tülu 3 405B atteint des performances compétitives ou supérieures à celles de Deepseek v3 et de GPT-4o, tout en surpassant les modèles post-entraînement ouverts antérieurs de la même taille, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B, sur de nombreux points de référence standard. Il est intéressant de noter que notre cadre d'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a amélioré les performances de MATH de manière plus significative à une plus grande échelle, c'est-à-dire 405B par rapport à 70B et 8B, ce qui est similaire aux conclusions du rapport DeepSeek-R1. Dans l'ensemble, nos résultats montrent un avantage constant par rapport à DeepSeek V3, en particulier avec l'inclusion de repères de sécurité.
Mise à l'échelle de la recette Tülu 3
L'objectif principal de cette version était de tester notre nouvelle approche RLVR et notre infrastructure de formation à grande échelle et d'étendre la recette Tülu 3 au modèle de base Llama-405B. Notre recette d'entraînement pour le modèle 405B a été très similaire à celle des modèles 8B et 70B introduits dans le cadre de la recette post-entraînement de Tulu 3 :
- Curation et synthèse soigneuses des données ciblant les compétences de base
- Mise au point supervisée (SFT) sur notre mélange soigneusement sélectionné d'invites et de leurs complétions
- Optimisation directe des préférences (DPO) sur les données de préférences à la fois hors et sur la politique.
- RLVR, une nouvelle méthode basée sur RL pour améliorer des compétences spécifiques avec des récompenses vérifiables
- Une série d'évaluations standardisées pour le développement, la décontamination et l'évaluation finale.
Formation RLVR
Dans notre recette post-formation, nous tirons parti de l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une nouvelle méthode que nous avons introduite pour former des modèles de langage à des tâches dont les résultats sont vérifiables, telles que la résolution de problèmes mathématiques et le suivi d'instructions.
Pour faire passer RLVR à l'échelle 405B, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour l'entraînement. Après chaque itération de RLVR, les poids sont synchronisés avec le moteur vLLM à l'aide de la diffusion NCCL, ce qui est possible grâce à une suggestion de correction récente de l'équipe vLLM. À chaque itération du RLVR, l'inférence prend typiquement ~550 secondes, le transfert des poids ~25 secondes et l'entraînement ~1500 secondes. Pour réduire les coûts de calcul au cours de l'étape RLVR, nous utilisons un modèle de valeur de 8B. Les travaux futurs pourraient bénéficier de l'exploration de modèles de valeurs plus grands ou d'algorithmes RL alternatifs sans modèle de valeur tels que GRPO.
Nous avons constaté que l'utilisation exclusive des données MATH - plutôt qu'une combinaison des données GSM8k et IFEval - donnait de meilleurs résultats pour les modèles plus importants. Cela contraste avec les résultats obtenus avec des modèles plus petits, qui bénéficient de données plus diversifiées. Notre hypothèse est que les grands modèles sont mieux adaptés aux tâches complexes nécessitant des données spécialisées.
Dans la figure ci-dessous, nous montrons les courbes d'apprentissage des récompenses vérifiables, de la divergence KL et de la longueur des réponses au fil des épisodes. Dans l'ensemble, nous sommes ravis de constater que les récompenses vérifiables augmentent comme nous l'avons observé dans les paramètres 8B et 70B. Nous marquons d'une étoile le point de contrôle final. Nous notons qu'il s'agit du dernier point de contrôle sauvegardé - nous avions l'intention de nous entraîner plus longtemps, mais nous avons rencontré des contraintes de calcul. Comme nous n'avons pas observé de saturation des performances de MATH au cours de l'entraînement, un entraînement plus poussé pourrait encore améliorer les performances.
Défis techniques
Le passage à 405B a nécessité plusieurs efforts d'ingénierie et a posé un certain nombre de défis :
- Exigences en matière de calcul : L'entraînement de Tülu 3 405B a nécessité 32 nœuds (256 GPU) fonctionnant en parallèle. Pour l'inférence, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour la formation. Bien que la majeure partie de notre base de code ait bien évolué, nous avons occasionnellement rencontré des problèmes de synchronisation et de dépassement de temps NCCL qui ont nécessité une surveillance et une intervention méticuleuses.
- Défis liés au réglage des hyperparamètres : Compte tenu des coûts de calcul, le réglage des hyperparamètres a été limité. Nous avons suivi le principe des "taux d'apprentissage plus faibles pour les modèles plus importants", conformément à la pratique antérieure avec les modèles Llama.
Malgré ces obstacles, notre pipeline de formation s'est avéré robuste, ce qui nous a permis de publier le plus grand modèle formé à l'aide d'une recette entièrement ouverte à ce jour. Nous avons mis à jour l'article avec ces résultats 405B et de nombreux détails expliquant davantage nos résultats d'évaluation et notre méthodologie pour tous les modèles de la famille Tülu 3.
Et vous ?
Pensez-vous que ces affirmations sont crédibles ou pertinentes ?
Quel est votre avis sur cette annonce ?
Voir aussi :
Ai2, l'organisation de recherche en IA à but non lucratif fondée par feu Paul Allen, cofondateur de Microsoft, a publié OLMo 2, "le meilleur modèle de langage entièrement open-source à ce jour"
OpenAI riposte à DeepSeek avec o3-mini, son nouveau modèle de raisonnement plus intelligent pour les utilisateurs payants et gratuits de ChatGPT. O3-mini est qualifié de « monstre de codage ultra-rapide »
L'entreprise technologique chinoise Alibaba a lancé une nouvelle version de son modèle d'IA Qwen 2.5-Max, affirmant qu'il surpasse DeepSeek : "Qwen 2.5-Max surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B"