Le 20 janvier 2025, le laboratoire d'IA chinois DeepSeek a publié sa nouvelle famille de modèles R1 sous une licence ouverte du MIT, la plus grande version contenant 671 milliards de paramètres. L'entreprise affirme que les performances du modèle sont comparables à celles du modèle de raisonnement simulé (SR) o1 d'OpenAI sur plusieurs points de référence en mathématiques et en codage.
Parallèlement à la publication des modèles principaux DeepSeek-R1-Zero et DeepSeek-R1, DeepSeek a publié six versions plus petites "DeepSeek-R1-Distill" allant de 1,5 milliard à 70 milliards de paramètres. Ces modèles distillés sont basés sur des architectures open source existantes telles que Qwen et Llama, entraînées à l'aide de données générées par le modèle R1 complet. La plus petite version peut fonctionner sur un ordinateur portable, alors que le modèle complet nécessite des ressources informatiques beaucoup plus importantes.
Ces versions ont immédiatement attiré l'attention de la communauté de l'IA, car la plupart des modèles de pondération ouverts existants - qui peuvent souvent être exécutés et affinés sur du matériel local - sont restés à la traîne par rapport aux modèles propriétaires tels que le modèle o1 d'OpenAI dans ce que l'on appelle les benchmarks de raisonnement. Bien que les tests de référence n'aient pas encore été vérifiés de manière indépendante, DeepSeek rapporte que R1 a surpassé o1 d'OpenAI sur AIME (un test de raisonnement mathématique), MATH-500 (une collection de problèmes de mots), et SWE-bench Verified (un outil d'évaluation de la programmation).
"Ils sont TELLEMENT amusants à utiliser, les regarder penser est hilarant", a déclaré Simon Willison, chercheur indépendant en IA. Willison a testé l'un des plus petits modèles et décrit son expérience sur son blog : "Chaque réponse commence par une balise pseudo-XML contenant la chaîne de pensée utilisée pour générer la réponse", notant que même pour des invites simples, le modèle produit un raisonnement interne approfondi avant la sortie.
Le fait que ces capacités soient disponibles dans un modèle sous licence du MIT que tout le monde peut étudier, modifier ou utiliser commercialement marque potentiellement un changement dans ce qui est possible avec les modèles d'IA accessibles au public. En outre, trois laboratoires chinois - DeepSeek, Alibaba et Kimi de Moonshot AI - ont mis sur le marché des modèles qui égalent les capacités de o1.
Voici la présentation des modèles par DeepSeek :
Introduction
Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT) en tant qu'étape préliminaire, a démontré des performances remarquables en matière de raisonnement. Grâce à l'apprentissage par renforcement, DeepSeek-R1-Zero s'est naturellement doté de nombreux comportements de raisonnement puissants et intéressants. Cependant, DeepSeek-R1-Zero rencontre des difficultés telles que des répétitions sans fin, une mauvaise lisibilité et des mélanges de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, nous introduisons DeepSeek-R1, qui incorpore des données de départ à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 pour les mathématiques, le code et les tâches de raisonnement. Pour soutenir la communauté des chercheurs, nous avons mis en open source DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1, basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur différents benchmarks, atteignant de nouveaux résultats de pointe pour les modèles denses.
Résumé du modèle
Post-entraînement : Apprentissage par renforcement à grande échelle sur le modèle de base
Nous appliquons directement l'apprentissage par renforcement (RL) au modèle de base sans recourir à un réglage fin supervisé (SFT) en tant qu'étape préliminaire. Cette approche permet au modèle d'explorer la chaîne de pensée (CoT) pour résoudre des problèmes complexes, ce qui a permis de développer DeepSeek-R1-Zero. DeepSeek-R1-Zero démontre des capacités telles que l'auto-vérification, la réflexion et la génération de longues chaînes de pensée, marquant ainsi une étape importante pour la communauté des chercheurs. Il s'agit notamment de la première recherche ouverte à valider le fait que les capacités de raisonnement des LLM peuvent être encouragées uniquement par le biais du RL, sans qu'il soit nécessaire de recourir au SFT. Cette avancée ouvre la voie à de futures avancées dans ce domaine.
Nous présentons notre processus de développement de DeepSeek-R1. Ce processus comprend deux étapes de RL visant à découvrir des modèles de raisonnement améliorés et à s'aligner sur les préférences humaines, ainsi que deux étapes de SFT qui servent de base aux capacités de raisonnement et de non-raisonnement du modèle. Nous pensons que ce pipeline profitera à l'industrie en créant de meilleurs modèles.
Distillation : Les petits modèles peuvent aussi être puissants
Nous démontrons que les schémas de raisonnement des grands modèles peuvent être distillés dans des modèles plus petits, ce qui se traduit par de meilleures performances que les schémas de raisonnement découverts grâce au RL sur les petits modèles. La source ouverte DeepSeek-R1, ainsi que son API, permettra à la communauté des chercheurs de distiller de meilleurs modèles plus petits à l'avenir.
En utilisant les données de raisonnement générées par DeepSeek-R1, nous avons affiné plusieurs modèles denses qui sont largement utilisés dans la communauté des chercheurs. Les résultats de l'évaluation démontrent que les modèles denses plus petits distillés sont exceptionnellement performants sur les bancs d'essai. Nous mettons à la disposition de la communauté des points de contrôle de 1,5 milliard, 7 milliards, 8 milliards, 14 milliards, 32 milliards et 70 milliards basés sur les séries Qwen2.5 et Llama3.
Nous présentons nos modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT) en tant qu'étape préliminaire, a démontré des performances remarquables en matière de raisonnement. Grâce à l'apprentissage par renforcement, DeepSeek-R1-Zero s'est naturellement doté de nombreux comportements de raisonnement puissants et intéressants. Cependant, DeepSeek-R1-Zero rencontre des difficultés telles que des répétitions sans fin, une mauvaise lisibilité et des mélanges de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, nous introduisons DeepSeek-R1, qui incorpore des données de départ à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 pour les mathématiques, le code et les tâches de raisonnement. Pour soutenir la communauté des chercheurs, nous avons mis en open source DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1, basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur différents benchmarks, atteignant de nouveaux résultats de pointe pour les modèles denses.
Résumé du modèle
Post-entraînement : Apprentissage par renforcement à grande échelle sur le modèle de base
Nous appliquons directement l'apprentissage par renforcement (RL) au modèle de base sans recourir à un réglage fin supervisé (SFT) en tant qu'étape préliminaire. Cette approche permet au modèle d'explorer la chaîne de pensée (CoT) pour résoudre des problèmes complexes, ce qui a permis de développer DeepSeek-R1-Zero. DeepSeek-R1-Zero démontre des capacités telles que l'auto-vérification, la réflexion et la génération de longues chaînes de pensée, marquant ainsi une étape importante pour la communauté des chercheurs. Il s'agit notamment de la première recherche ouverte à valider le fait que les capacités de raisonnement des LLM peuvent être encouragées uniquement par le biais du RL, sans qu'il soit nécessaire de recourir au SFT. Cette avancée ouvre la voie à de futures avancées dans ce domaine.
Nous présentons notre processus de développement de DeepSeek-R1. Ce processus comprend deux étapes de RL visant à découvrir des modèles de raisonnement améliorés et à s'aligner sur les préférences humaines, ainsi que deux étapes de SFT qui servent de base aux capacités de raisonnement et de non-raisonnement du modèle. Nous pensons que ce pipeline profitera à l'industrie en créant de meilleurs modèles.
Distillation : Les petits modèles peuvent aussi être puissants
Nous démontrons que les schémas de raisonnement des grands modèles peuvent être distillés dans des modèles plus petits, ce qui se traduit par de meilleures performances que les schémas de raisonnement découverts grâce au RL sur les petits modèles. La source ouverte DeepSeek-R1, ainsi que son API, permettra à la communauté des chercheurs de distiller de meilleurs modèles plus petits à l'avenir.
En utilisant les données de raisonnement générées par DeepSeek-R1, nous avons affiné plusieurs modèles denses qui sont largement utilisés dans la communauté des chercheurs. Les résultats de l'évaluation démontrent que les modèles denses plus petits distillés sont exceptionnellement performants sur les bancs d'essai. Nous mettons à la disposition de la communauté des points de contrôle de 1,5 milliard, 7 milliards, 8 milliards, 14 milliards, 32 milliards et 70 milliards basés sur les séries Qwen2.5 et Llama3.
Et vous ?
Pensez-vous que les performances de ces modèles sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?
Voir aussi :
L'IA chinoise DeepSeek Coder V2 devient le premier modèle de codage open-source à battre le GPT-4 Turbo d'OpenAI. Elle vise à combler l'écart de performance avec les modèles à source fermée
Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes car o1 réfléchit avant de répondre
Gemini 2.0 Flash Thinking Experimental : Pour ne pas être distancé par OpenAI et son modèle o1. Google lance son propre modèle d'IA qui utilise des techniques de « raisonnement »