
La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source, qui correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme, a non seulement captivé les développeurs, mais a également incité les entreprises à repenser leurs stratégies en matière d'IA.
Depuis, les différents éditeurs d'IA ont lancé des modèles pour rivaliser avec o1 et DeepSeek R1. Récemment, c'est l'Allen Institute for AI (Ai2) qui a lancé Tülu3-405B, un modèle d'IA open source massif de 405 milliards de paramètres censé surpasser DeepSeek-V3 (R1) et égaler GPT-4o dans des critères de référence clés, en particulier le raisonnement mathématique et la sécurité. L'Allen Institute for AI (abrégé AI2) est un institut de recherche à but non lucratif fondé par Paul Allen, cofondateur de Microsoft et philanthrope, en 2014. L'institut cherche à mener des recherches et des travaux d'ingénierie à fort impact sur l'IA au service du bien commun.
Les évaluations internes d'Ai2 suggèrent que Tulu3-405B surpasse régulièrement DeepSeek-V3, en particulier dans les tests de sécurité et le raisonnement mathématique. Le modèle rivalise également avec le GPT-4o d'OpenAI. Tulu3-405B surpasse également les précédents modèles post-entraînés à poids ouvert, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B.
Ce nouveau modèle présente la nouvelle méthode de formation d'Ai2, l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Tulu3-405B s'appuie sur la recette de post-entraînement Tulu3 d'Ai2, introduite pour la première fois en novembre 2024. Le modèle affine le Llama-405B de Meta en utilisant une combinaison de données soigneusement sélectionnées, d'ajustements supervisés, d'optimisation directe des préférences (DPO) et de RLVR.
La RLVR est particulièrement remarquable parce qu'elle améliore les compétences pour lesquelles il existe des résultats vérifiables, comme la résolution de problèmes mathématiques et le suivi des instructions. Selon les conclusions d'Ai2, RLVR s'adapte plus efficacement à des paramètres de 405B qu'à des modèles plus petits tels que Tulu3-70B et Tulu3-8B. L'augmentation d'échelle a donné à Tulu3-405B un grand coup de pouce dans les compétences en mathématiques, ce qui renforce l'idée que les grands modèles sont plus performants lorsqu'ils sont alimentés avec des données spécialisées plutôt qu'avec un peu de tout, comme c'est le cas pour les grands ensembles de données.
Maintenant, il serait intéressant de voir si ces affirmations d'Ai2 sont crédibles. Pour rappel, lors de la sortie de son modèle R1, DeepSeek affirmait s'être écarté du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) et s'est appuyé sur l'apprentissage par renforcement (RL) pour atteindre ces performances. Cependant, OpenAI accusera la startup chinoise d'avoir entraîné son modèle R1 open-source en utilisant la technologie propriétaire d'OpenAI.
En d'autres termes, DeepSeek n'aurait pas tout construit à partir de zéro, mais se serait plutôt appuyée sur les modèles d'OpenAI pour développer son concurrent. Selon le Financial Times, l'éditeur de ChatGPT, basé à San Francisco, a constaté des preuves de "distillation", c'est-à-dire le processus de transfert de connaissances d'un grand modèle à un plus petit. Il s'agirait donc d'une violation des conditions d'utilisation d'OpenAI.
Voici l'annonce de Tülu3-405B :
[QUOTE]
Suite au succès de notre version Tülu 3 en novembre, nous sommes ravis d'annoncer le lancement de Tülu 3 405B - la première application de recettes de post-entraînement entièrement ouvertes aux plus grands modèles à poids ouvert. Avec cette version, nous démontrons l'évolutivité et l'efficacité de notre recette de post-entraînement appliquée à l'échelle des paramètres 405B.
Tülu 3 405B atteint des performances compétitives ou supérieures à celles de Deepseek v3 et de GPT-4o, tout en surpassant les modèles post-entraînement ouverts antérieurs de la même taille, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B, sur de nombreux points de référence standard. Il est intéressant de noter que notre cadre d'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a amélioré les performances de MATH de manière plus significative à une plus grande échelle, c'est-à-dire 405B par rapport à 70B et 8B, ce qui est similaire aux conclusions du rapport DeepSeek-R1. Dans l'ensemble, nos résultats montrent un avantage constant par rapport à DeepSeek V3, en particulier avec l'inclusion de repères de sécurité.
Mise à l'échelle de la recette Tülu 3
L'objectif principal de cette version était de tester notre nouvelle approche RLVR et notre infrastructure de formation à grande échelle et d'étendre la recette Tülu 3 au modèle de base Llama-405B. Notre recette d'entraînement pour le modèle 405B a été très similaire à celle des modèles 8B et 70B introduits dans le cadre de la recette post-entraînement de Tulu 3 :
- Curation et synthèse soigneuses des données ciblant les compétences de base
- Mise au point supervisée (SFT) sur notre mélange soigneusement sélectionné d'invites et de leurs complétions
- Optimisation directe des préférences (DPO) sur les données de préférences à la fois hors et sur la politique.
- RLVR, une nouvelle méthode basée sur RL pour améliorer des compétences spécifiques avec des récompenses vérifiables
- Une série d'évaluations standardisées pour le développement, la décontamination et l'évaluation finale.
Formation RLVR
Dans notre recette post-formation, nous tirons parti de l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une nouvelle méthode que nous avons introduite pour former des modèles de langage à des tâches dont les résultats sont vérifiables, telles que la résolution de problèmes mathématiques et le suivi d'instructions.
Pour faire passer RLVR à l'échelle 405B, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour l'entraînement. Après chaque itération de RLVR, les poids sont synchronisés avec le moteur vLLM à l'aide de la diffusion NCCL, ce qui est possible grâce à une suggestion de correction récente de l'équipe vLLM. À chaque itération du RLVR, l'inférence prend typiquement ~550 secondes, le transfert des poids ~25 secondes et l'entraînement ~1500 secondes. Pour réduire les coûts de calcul au cours de l'étape RLVR, nous utilisons un modèle de valeur de 8B. Les travaux futurs pourraient bénéficier de l'exploration de modèles de valeurs plus grands ou d'algorithmes RL alternatifs sans modèle de valeur tels que GRPO.
Nous avons constaté que l'utilisation exclusive des données MATH - plutôt qu'une combinaison des données GSM8k et IFEval - donnait de meilleurs résultats pour les modèles plus importants. Cela contraste avec les résultats obtenus avec des modèles plus petits, qui bénéficient de données plus diversifiées. Notre hypothèse est que les grands modèles sont mieux adaptés aux tâches complexes nécessitant des données spécialisées.
Dans la figure ci-dessous, nous montrons les courbes d...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.