Introduction

Résumé du modèle

Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT) en tant qu'étape préliminaire, a démontré des performances remarquables en matière de raisonnement. Grâce à l'apprentissage par renforcement, DeepSeek-R1-Zero s'est naturellement doté de nombreux comportements de raisonnement puissants et intéressants. Cependant, DeepSeek-R1-Zero rencontre des difficultés telles que des répétitions sans fin, une mauvaise lisibilité et des mélanges de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, nous introduisons DeepSeek-R1, qui incorpore des données de départ à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 pour les mathématiques, le code et les tâches de raisonnement. Pour soutenir la communauté des chercheurs, nous avons mis en open source DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1, basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur différents benchmarks, atteignant de nouveaux résultats de pointe pour les modèles denses.Nous appliquons directement l'apprentissage par renforcement (RL) au modèle de base sans recourir à un réglage fin supervisé (SFT) en tant qu'étape préliminaire. Cette approche permet au modèle d'explorer la chaîne de pensée (CoT) pour résoudre des problèmes complexes, ce qui a permis de développer DeepSeek-R1-Zero. DeepSeek-R1-Zero démontre des capacités telles que l'auto-vérification, la réflexion et la génération de longues chaînes de pensée, marquant ainsi une étape importante pour la communauté des chercheurs. Il s'agit notamment de la première recherche ouverte à valider le fait que les capacités de raisonnement des LLM peuvent être encouragées uniquement par le biais du RL, sans qu'il soit nécessaire de recourir au SFT. Cette avancée ouvre la voie à de futures avancées dans ce domaine.Nous présentons notre processus de développement de DeepSeek-R1. Ce processus comprend deux étapes de RL visant à découvrir des modèles de raisonnement améliorés et à s'aligner sur les préférences humaines, ainsi que deux étapes de SFT qui servent de base aux capacités de raisonnement et de non-raisonnement du modèle. Nous pensons que ce pipeline profitera à l'industrie en créant de meilleurs modèles.Nous démontrons que les schémas de raisonnement des grands modèles peuvent être distillés dans des modèles plus petits, ce qui se traduit par de meilleures performances que les schémas de raisonnement découverts grâce au RL sur les petits modèles. La source ouverte DeepSeek-R1, ainsi que son API, permettra à la communauté des chercheurs de distiller de meilleurs modèles plus petits à l'avenir.En utilisant les données de raisonnement générées par DeepSeek-R1, nous avons affiné plusieurs modèles denses qui sont largement utilisés dans la communauté des chercheurs. Les résultats de l'évaluation démontrent que les modèles denses plus petits distillés sont exceptionnellement performants sur les bancs d'essai. Nous mettons à la disposition de la communauté des points de contrôle de 1,5 milliard, 7 milliards, 8 milliards, 14 milliards, 32 milliards et 70 milliards basés sur les séries Qwen2.5 et Llama3.