
Les utilisateurs font remarquer que la fonction de recherche associée à DeepSeek (que vous pouvez trouver sur le site de DeepSeek) est désormais supérieure à des concurrents comme OpenAI et Perplexity, et n'est concurrencée que par Gemini Deep Research de Google. Mais certains chercheurs estiment que les tests de référence ne sont pas la meilleure mesure du succès.
Pour les entreprises qui développent des solutions basées sur l'IA, la percée de DeepSeek remet en question les hypothèses sur la domination d'OpenAI et offre un modèle d'innovation rentable.
Contexte
Le fait qu'une startup chinoise peu connue soit en train de combler l'écart avec certaines des plus grandes entreprises technologiques du monde avec beaucoup moins de ressources pourrait réduire à néant les efforts déployés par les États-Unis pour créer un fossé en matière d'IA face aux concurrents mondiaux. Après l'investiture du président Donald Trump, OpenAI a annoncé Stargate, une coentreprise avec le gouvernement fédéral pour dépenser 500 milliards de dollars dans l'infrastructure de l'IA au cours des quatre prochaines années.
Le 20 janvier, DeepSeek, dirigé par le gestionnaire de fonds spéculatifs chinois Liang Wenfeng, a publié R1 sous une licence ouverte du MIT, la plus grande version contenant 671 milliards de paramètres. Elle a pris la Silicon Valley et le monde de l'IA par surprise, car, selon un document rédigé par l'entreprise, DeepSeek-R1 bat les principaux modèles du secteur, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement. En fait, sur de nombreux critères importants (capacité, coût, ouverture), DeepSeek donne du fil à retordre aux géants occidentaux de l'IA.
Ces entreprises américaines ont investi des milliards de dollars dans l'acquisition de puces et de données hautement perfectionnées afin de construire des modèles capables de résoudre des problèmes complexes. DeepSeek, quant à elle, semble construire des modèles capables d'atteindre des niveaux de performance similaires, pour une fraction du coût.
L'innovation née d'une crise : R1 est si efficace qu'il a nécessité un dixième de la puissance de calcul du modèle Llama 3.1 de Meta
En octobre 2022, le gouvernement américain a commencé à mettre en place des contrôles à l'exportation qui restreignaient considérablement l'accès des entreprises chinoises spécialisées dans l'IA à des puces de pointe telles que la H100 de Nvidia. Cette mesure a posé un problème à DeepSeek. L'entreprise avait commencé avec un stock de 10 000 H100, mais elle avait besoin de plus pour concurrencer des entreprises comme OpenAI et Meta. « Le problème auquel nous sommes confrontés n'a jamais été le financement, mais le contrôle des exportations de puces avancées », a déclaré Liang Wenfeng à 36Kr lors d'une seconde interview en 2024.
DeepSeek a dû trouver des méthodes plus efficaces pour entraîner ses modèles. Ils ont optimisé l'architecture de leurs modèles à l'aide d'une batterie d'astuces techniques : schémas de communication personnalisés entre les puces, réduction de la taille des champs pour économiser de la mémoire et utilisation innovante de l'approche « mix-of-models » (mélange de modèles), explique Wendy Chang, ingénieure en logiciel devenue analyste politique à l'Institut Mercator d'études sur la Chine. « Bon nombre de ces approches ne sont pas nouvelles, mais les combiner avec succès pour produire un modèle de pointe est un exploit remarquable ».
DeepSeek a également réalisé des progrès significatifs en matière d'attention latente multitêtes (MLA) et de mélange d'experts, deux concepts techniques qui rendent les modèles DeepSeek plus rentables en exigeant moins de ressources informatiques pour l'entraînement. En fait, le dernier modèle de DeepSeek est si efficace qu'il a nécessité un dixième de la puissance de calcul du modèle Llama 3.1 de Meta, selon l'institut de recherche Epoch AI.
DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût
Si les analyses comparatives et les essais en conditions réelles réalisés depuis DeepSeek ont mis le feu aux poudres dans le monde de l'IA, le coût des opérations a été remis en question. Des entreprises comme Microsoft et Meta ont dépensé des milliards de dollars pour former et travailler sur l'IA, et ces deux sociétés devraient dépenser plus de 65 milliards de dollars d'ici à 2025.
Cependant, DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût. Si o1 coûte 15 dollars par million de jetons d'entrée et 60 dollars par million de jetons de sortie (un jeton représente environ 4 caractères), DeepSeek est estimé à environ 0,55 dollar et 2,19 dollars par million de jetons d'entrée et de sortie, respectivement.
D'autre part, DeepSeek a rendu R1 open source. Jim Fan, directeur principal de la recherche chez Nvidia, a déclaré qu'il s'agissait de « maintenir en vie la mission originale d'OpenAI ». OpenAI était à l'origine une organisation à but non lucratif visant à faire progresser l'intelligence numérique au profit de l'ensemble de l'humanité. L'entreprise dirigée par Sam Altman est désormais une société à but lucratif.Sooo @deepseek_ai's reasoner model, which sits somewhere between o1-mini & o1 is about 90-95% cheaper 👀 https://t.co/ohnI6dtPRC pic.twitter.com/Qn78yIGUtt
— Emad (@EMostaque) January 20, 2025
Fan a également fait l'éloge du développement de l'IA DeepSeek. Le fait qu'elle soit open source permettra aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer.
Dans un article publié fin décembre, les chercheurs de DeepSeek ont estimé qu'ils avaient construit et entraîné leur modèle V3 pour moins de 6 millions de dollars en utilisant environ 2 000 puces Nvidia H800.
L'application est déjà la plus téléchargée sur l'Apple Store, suivie par ChatGPT
En 2023, un document de Google ayant fait l'objet d'une fuite affirmait que les alternatives open-source aux options des grands acteurs les surpasseraient.
Le modèle est devenu le modèle le plus téléchargé sur HuggingFace (131 000 fois, à l'heure où nous écrivons ces lignes), les développeurs se précipitant pour l'essayer et cherchant à comprendre ce qu'il signifie pour leur développement de l'IA. Si DeepSeek parvient à s'imposer auprès du grand public (l'application est déjà en pôle position sur iOS, ChatGPT d'OpenAI occupe actuellement la deuxième place du même classement d'Apple), il est fort possible qu'OpenAI et d'autres acteurs doivent envisager de baisser leurs prix. Actuellement, OpenAI facture un maximum de 200 dollars par mois pour ses modèles haut de gamme.
Certains utilisateurs sont plutôt enthousiastes :
« Pour ceux qui ne l'ont pas encore réalisé, Deepseek-R1 est meilleur que claude 3.5 et meilleur que OpenAI o1-pro, meilleur que Gemini. Il est tout simplement plus intelligent - beaucoup moins stupide, plus prudent, plus astucieux, plus conscient, plus méta-conscient, etc. »
Mais les chercheurs soulignent qu'elle n'est pas infaillible
Certains chercheurs affirment aujourd'hui que DeepSeek n'est pas infaillible et que les tests de référence ne sont pas la meilleure mesure du succès. Dans certains des tests de raisonnement les plus difficiles, DeepSeek peine à surpasser l'o1-mini, une version plus restreinte du modèle phare. Sur Reddit, certains utilisateurs ont déclaré que le travail de DeepSeek en matière d'efficacité devrait encore être étudié.
La perspective d'un changement de stratégie pour les entreprises d'IA
Les implications pour les stratégies d'IA des entreprises sont profondes : Grâce à la réduction des coûts et à l'accès libre, les entreprises disposent désormais d'une alternative aux modèles propriétaires coûteux comme celui d'OpenAI. Le lancement de DeepSeek pourrait démocratiser l'accès aux capacités d'IA de pointe, permettant ainsi aux petites organisations de rivaliser efficacement dans la course à l'armement de l'IA.
Comment DeepSeek a réussi cet exploit ? Qu'est-ce cela signifie pour le grand nombre d'utilisateurs de modèles d'IA ? Pour les entreprises qui développent des solutions basées sur l'IA, la percée de DeepSeek remet en question les hypothèses sur la domination d'OpenAI et offre un modèle d'innovation rentable. C'est le « comment » DeepSeek a fait ce qu'il a fait qui devrait être le plus instructif ici.
La percée de DeepSeek : Passer à l'apprentissage par renforcement pur
En novembre, DeepSeek a fait les gros titres en annonçant qu'elle avait atteint des performances supérieures à celles de l'outil o1 d'OpenAI, mais à l'époque, elle ne proposait qu'un modèle limité R1-lite-preview. En publiant la version complète de R1 et le document technique qui l'accompagne, l'entreprise a révélé une innovation surprenante : elle s'est délibérément écartée du processus conventionnel de mise au point supervisée (SFT pour supervised fine-tuning) largement utilisé dans la formation des grands modèles de langage (LLM).
Le SFT, une étape standard dans le développement de l'IA, implique l'entraînement de modèles sur des ensembles de données conservés afin d'enseigner le raisonnement étape par étape, souvent appelé « chaîne de pensée » (CoT pour chain-of-thought). Cette étape est considérée comme essentielle pour améliorer les capacités de raisonnement. Cependant, DeepSeek a remis en question cette hypothèse en sautant complètement le SFT et en choisissant de s'appuyer sur l'apprentissage par renforcement (RL) pour former le modèle.
Cette décision audacieuse a forcé DeepSeek-R1 à développer des capacités de raisonnement indépendantes, en évitant la fragilité souvent introduite par les ensembles de données prescriptifs. Bien que certains défauts soient apparus (ce qui a conduit l'équipe à réintroduire une quantité limitée de SFT au cours des dernières étapes de la construction du modèle) les résultats ont confirmé l'avancée fondamentale : l'apprentissage par renforcement pouvait à lui seul générer des gains de performance substantiels.
L'entreprise a fait une grande partie du chemin en utilisant des logiciels libres
Tout d'abord, un peu d'histoire sur la façon dont DeepSeek est arrivée là où elle est. DeepSeek, une spin-off de 2023 du fonds spéculatif chinois High-Flyer Quant, a commencé par développer des modèles d'IA pour son chatbot propriétaire avant de les mettre à la disposition du public. On sait peu de choses sur l'approche exacte de l'entreprise, mais elle a rapidement ouvert ses modèles, et il est très probable qu'elle s'est appuyée sur les projets ouverts produits par Meta, par exemple le modèle Llama et la bibliothèque ML Pytorch.
Pour entraîner ses modèles, High-Flyer Quant s'est procuré plus de 10 000 GPU Nvidia avant les restrictions à l'exportation imposées par les États-Unis, et aurait étendu sa production à 50 000 GPU par d'autres voies d'approvisionnement, malgré les barrières commerciales. Ces chiffres sont dérisoires par rapport aux principaux laboratoires d'IA tels que OpenAI, Google et Anthropic, qui fonctionnent avec plus de 500 000 GPU chacun.
La capacité de DeepSeek à obtenir des résultats compétitifs avec des ressources limitées montre comment l'ingéniosité peut remettre en cause le paradigme du coût élevé de la formation de LLM de pointe.
Open R1 : La reproduction entièrement ouverte de DeepSeek-R1, qui remet en question le statu quo des LLM propriétaires existants
Le développement du LLM Open Source connaît un grand changement grâce à la reproduction complète et à l'ouverture de DeepSeek-R1, y compris les données d'entraînement, les scripts, etc. Hébergé sur la plateforme Hugging Face, ce projet ambitieux est conçu pour reproduire et améliorer le pipeline R1. Il met l'accent sur la collaboration, la transparence et l'accessibilité, permettant aux chercheurs et aux développeurs du monde entier de s'appuyer sur les travaux fondamentaux de DeepSeek-R1.
L'initiative simplifie les processus de formation et d'évaluation des modèles, par ailleurs complexes, grâce à une documentation claire et à une conception modulaire. En mettant l'accent sur la reproductibilité, le projet Open R1 invite les développeurs à tester, affiner et développer ses principaux composants.

Sources : DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement, Open R1 (1, 2), annonce de la disponibilité d'Open R1
Et vous ?




Voir aussi :


Vous avez lu gratuitement 0 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.