Les données financières publiées par le chinois DeepSeek suscitent la polémique
En décembre 2024, DeepSeek a publié le grand modèle de langage (LLM) appelé « V3 ». Selon DeepSeek, V3 est aussi performant que les modèles de dernière génération de Google et OpenAI, mais n'a nécessité qu'une fraction du budget de ses rivaux américains, soit 5,6 millions de dollars. DeepSeek précise n'avoir utilisé que 2 048 puces Nvidia H800, des puces moins avancées que les accélérateurs Nvidia H100 et initialement conçues pour le marché chinois.
Puis, le 20 janvier 2025, DeepSeek a dévoilé son dernier modèle R1, qui est un modèle axé sur le raisonnement comparable au modèle o1 d'OpenAI. L'annonce a fait l'effet d'une bombe à Wall Street et a provoqué une chute brutale et importante des actions de nombreuses entreprises technologiques américaines engagées dans la course à l'IA. L'action Nvidia a dévissé de 17 %, effaçant 600 milliards de dollars de la capitalisation boursière de l'entreprise.
Mais les analystes de SemiAnalysis ont tenu à apporter quelques nuances aux déclarations de DeepSeek. SemiAnalysis est une société indépendante de recherche et d'analyse spécialisée dans les secteurs des semiconducteurs et de l'IA. Dylan Patel, analyste en chef chez SemiAnalysis, affirme que DeepSeek et sa société sœur, le fonds spéculatif High-Flyer, ont accès à des dizaines de milliers de GPU Nvidia, qui ont servi à entraîner les prédécesseurs de R1.
« DeepSeek a dépensé plus de 500 millions de dollars en GPU au cours de son histoire. Bien que leur programme d'entraînement ait été très efficace, il a nécessité une expérimentation et des tests importants pour fonctionner », a déclaré Dylan Patel.
Il a ajouté que la réduction des coûts de formation et d'exploitation des modèles d'IA permettrait à long terme aux entreprises et aux consommateurs d'adopter à moindre coût les applications d'IA. Nvidia a fait valoir que les innovations de DeepSeek profiteraient à ses activités, et qu'elles ne les feraient exploser.
Dan Hutcheson, de TechInsights, a déclaré que la réaction du marché ne reflétait pas qui était le plus exposé à la percée de DeepSeek. « Je ne vois pas cela comme un gros coup pour Nvidia, je vois cela comme un gros problème pour les entreprises comme OpenAI qui essaient de vendre ces services », a-t-il déclaré.
Cette controverse remet-elle en question les prouesses techniques de DeepSeek ?
Ces informations contradictoires rendent difficile l'évaluation précise des dépenses réelles de DeepSeek en matière de matériel et ses dépenses relatives à l'entraînement de ses systèmes d'IA. Selon certains analystes, il est possible que les 500 millions de dollars mentionnés incluent des investissements à long terme ou des dépenses liées à d'autres projets au sein de la startup. Une analyse plus approfondie serait nécessaire pour clarifier ces divergences.
Pour effrayer davantage les investisseurs, DeepSeek a déclaré que ses ingénieurs ont été mesure de débloquer de meilleures performances en écrivant du code sans s'appuyer sur la plateforme logicielle CUDA de Nvidia. CUDA est considérée comme cruciale pour la domination du fabricant de Nvidia dans le développement de l'IA. Les prouesses de DeepSeek ont été largement saluées dans l'industrie, y compris Sam Altman, PDG d'OpenAI, et Nvidia lui-même.
Nvidia a déclaré : « DeepSeek est une excellente avancée en matière d'IA et un exemple parfait de test Time Scaling. L'inférence nécessite un nombre important de GPU Nvidia et un réseau de haute performance ». La déclaration de Nvidia suggère qu'en repoussant les limites de ce qui est possible avec les modèles d'IA open source, DeepSeek a en fait augmenté la demande pour les puces de pointe qui sont utilisées pour faire fonctionner ses systèmes.
Si certains analystes contestent l'idée que l'IA révolutionnaire de DeepSeek soit si peu coûteuse à construire, ils ne semblent pas remettre en cause les prouesses techniques de la startup. L'IA de DeepSeek est open source, ce qui signifie que n'importe qui peut la disséquer et vérifier ses performances.
L'investisseur en capital-risque Marc Andreessen a qualifié le nouveau modèle R1 de la startup chinoise de « moment Spoutnik de l'IA », établissant ainsi une comparaison avec la manière dont l'Union soviétique a pris de court les États-Unis en mettant le premier satellite en orbite en octobre 1957.
Certains acteurs de l'industrie considèrent d'ailleurs l'IA de DeepSeek comme le triomphe de l'open source. Le président américain Donald Trump a déclaré que « DeepSeek devrait être un signal d'alarme pour les entreprises américaines, qui doivent se concentrer sur la concurrence pour gagner ».
DeepSeek-R1 : une victoire de l'open source et du logiciel libre ?
Yann LeCun, responsable scientifique de la division IA chez Meta, a donné son avis sur le succès de DeepSeek. Selon lui, ce qu'il faut retenir est la volonté de DeepSeek de maintenir ses modèles d'IA open source afin que tout le monde puisse en bénéficier. Yann LeCun a fait remarquer que la réussite de DeepSeek ne consistait pas à placer la Chine devant les États-Unis dans le secteur de l'IA, mais à s'assurer que les modèles open source restent en tête.
« Ce n'est pas que l'IA chinoise surpasse les États-Unis, mais plutôt que les modèles open source surpassent les modèles propriétaires », a déclaré Yann LeCun. Selon lui, DeepSeek a bénéficié de l'open source et de la recherche ouverte. « Ils ont trouvé de nouvelles idées et les ont développées en s'appuyant sur le travail d'autres personnes. Comme leur travail est publié et qu'il s'agit d'une source ouverte, tout le monde peut en profiter », a déclaré Yann LeCun.
« C'est la force de la recherche ouverte et de l'open source », a-t-il ajouté. DeepSeek partage les mêmes attributs que le modèle Llama de Meta, les deux étant open source. Yann LeCun affirme depuis longtemps que l'open source est la seule voie pour développer une IA sûre et profitable à tous.
Dans un récent message publié sur LinkedIn, Pat Gelsinger, récemment évincé de son poste de PDG d'Intel, a déclaré : « la réaction du marché est erronée : la baisse du coût de l'IA élargira le marché. DeepSeek est un incroyable travail d'ingénierie qui va permettre une plus grande adoption de l'IA ».
Quoi qu'il en soit, DeepSeek a remis en cause le concept de « mise à l'échelle de l'IA », popularisé par des dirigeants de startups d'IA telles qu'OpenAI et Anthropic. Ce concept suggère que les modèles d'IA deviennent plus « intelligents » à mesure qu'ils sont alimentés en données et en ressources informatiques.
Le chatbot DeepSeek s'est hissé en tête du classement de l'App Store d'Apple aux États-Unis quelques jours après son lancement, dépassant son rival ChatGPT. Outre Nvidia, DeepSeek a provoqué la chute des actions d'autres entreprises technologiques telles que Broadcom (17,4 %) et TSMC (9.88 %).
Source : Dylan Patel, analyste en chef chez SemiAnalysis
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la polémique concernant les dépenses réelles de la startup chinoise DeepSeek ?
DeepSeek aurait dépensé plus de 500 millions de dollars en GPU jusqu'à présent. Qu'en pensez-vous ?
La controverse autour des dépenses de DeepSeek remet-elle en cause ses prouesses techniques ?
Voir aussi
Nvidia rejette la menace DeepSeek et affirme que l'IA chinoise a toujours besoin de ses puces alors que ses actions ont dévissé de 17 %, effaçant 600 milliards de dollars de sa capitalisation boursière
L'entreprise technologique chinoise Alibaba a lancé une nouvelle version de son modèle d'IA Qwen 2.5-Max, affirmant qu'il surpasse DeepSeek : "Qwen 2.5-Max surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B"
Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT