La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, bouleversant les hypothèses sur ce qui est nécessaire pour atteindre des performances d'IA de pointe. Ce modèle open-source, qui correspondrait à l'o1 d'OpenAI pour seulement 3 à 5 % du coût selon le benchmark de la startup éponyme, a non seulement captivé les développeurs, mais a également incité les entreprises à repenser leurs stratégies en matière d'IA.Les utilisateurs font remarquer que la fonction de recherche associée à DeepSeek (que vous pouvez trouver sur le site de DeepSeek) est désormais supérieure à des concurrents comme OpenAI et Perplexity, et n'est concurrencée que par Gemini Deep Research de Google. Mais certains chercheurs estiment que les tests de référence ne sont pas la meilleure mesure du succès.
Pour les entreprises qui développent des solutions basées sur l'IA, la percée de DeepSeek remet en question les hypothèses sur la domination d'OpenAI et offre un modèle d'innovation rentable.
Contexte
Le fait qu'une startup chinoise peu connue soit en train de combler l'écart avec certaines des plus grandes entreprises technologiques du monde avec beaucoup moins de ressources pourrait réduire à néant les efforts déployés par les États-Unis pour créer un fossé en matière d'IA face aux concurrents mondiaux. Après l'investiture du président Donald Trump, OpenAI a annoncé Stargate, une coentreprise avec le gouvernement fédéral pour dépenser 500 milliards de dollars dans l'infrastructure de l'IA au cours des quatre prochaines années.
Le 20 janvier, DeepSeek, dirigé par le gestionnaire de fonds spéculatifs chinois Liang Wenfeng, a publié R1 sous une licence ouverte du MIT, la plus grande version contenant 671 milliards de paramètres. Elle a pris la Silicon Valley et le monde de l'IA par surprise, car, selon un document rédigé par l'entreprise, DeepSeek-R1 bat les principaux modèles du secteur, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement. En fait, sur de nombreux critères importants (capacité, coût, ouverture), DeepSeek donne du fil à retordre aux géants occidentaux de l'IA.
Ces entreprises américaines ont investi des milliards de dollars dans l'acquisition de puces et de données hautement perfectionnées afin de construire des modèles capables de résoudre des problèmes complexes. DeepSeek, quant à elle, semble construire des modèles capables d'atteindre des niveaux de performance similaires, pour une fraction du coût.
L'innovation née d'une crise : R1 est si efficace qu'il a nécessité un dixième de la puissance de calcul du modèle Llama 3.1 de Meta
En octobre 2022, le gouvernement américain a commencé à mettre en place des contrôles à l'exportation qui restreignaient considérablement l'accès des entreprises chinoises spécialisées dans l'IA à des puces de pointe telles que la H100 de Nvidia. Cette mesure a posé un problème à DeepSeek. L'entreprise avait commencé avec un stock de 10 000 H100, mais elle avait besoin de plus pour concurrencer des entreprises comme OpenAI et Meta. « Le problème auquel nous sommes confrontés n'a jamais été le financement, mais le contrôle des exportations de puces avancées », a déclaré Liang Wenfeng à 36Kr lors d'une seconde interview en 2024.
DeepSeek a dû trouver des méthodes plus efficaces pour entraîner ses modèles. Ils ont optimisé l'architecture de leurs modèles à l'aide d'une batterie d'astuces techniques : schémas de communication personnalisés entre les puces, réduction de la taille des champs pour économiser de la mémoire et utilisation innovante de l'approche « mix-of-models » (mélange de modèles), explique Wendy Chang, ingénieure en logiciel devenue analyste politique à l'Institut Mercator d'études sur la Chine. « Bon nombre de ces approches ne sont pas nouvelles, mais les combiner avec succès pour produire un modèle de pointe est un exploit remarquable ».
DeepSeek a également réalisé des progrès significatifs en matière d'attention latente multitêtes (MLA) et de mélange d'experts, deux concepts techniques qui rendent les modèles DeepSeek plus rentables en exigeant moins de ressources informatiques pour l'entraînement. En fait, le dernier modèle de DeepSeek est si efficace qu'il a nécessité un dixième de la puissance de calcul du modèle Llama 3.1 de Meta, selon l'institut de recherche Epoch AI.
DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût
Si les analyses comparatives et les essais en conditions réelles réalisés depuis DeepSeek ont mis le feu aux poudres dans le monde de l'IA, le coût des opérations a été remis en question. Des entreprises comme Microsoft et Meta ont dépensé des milliards de dollars pour former et travailler sur l'IA, et ces deux sociétés devraient dépenser plus de 65 milliards de dollars d'ici à 2025.
Cependant, DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût. Si o1 coûte 15 dollars par million de jetons d'entrée et 60 dollars par million de jetons de sortie (un jeton représente environ 4 caractères), DeepSeek est estimé à environ 0,55 dollar et 2,19 dollars par million de jetons d'entrée et de sortie, respectivement.
Sooo @deepseek_ai's reasoner model, which sits somewhere between o1-mini & o1 is about 90-95% cheaper 👀 https://t.co/ohnI6dtPRC pic.twitter.com/Qn78yIGUtt
— Emad (@EMostaque) January 20, 2025
D'autre part, DeepSeek a rendu R1 open source. Jim Fan, directeur...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.


