L'IA chinoise DeepSeek-R1 a pris de cours toute la Silicon Valley et a provoqué la panique à Wall Street. DeepSeek a publié son modèle d'IA R1 avec des performances aussi remarquables que celles du modèle o1 d'OpenAI pour 95 % moins cher. Et tous les géants de la course à l'IA se demandent comment la startup chinoise a réussi cette prouesse avec un budget insignifiant. Chez Meta, la direction aurait mis en place pas moins de quatre cellules de crise composées d'ingénieurs afin de comprendre comment l'IA de DeepSeek peut battre tous les autres à une fraction du prix. DeepSeek a fait chuter les actions de Nvidia, de Broadcom et de TSMC.DeepSeek rebat les cartes du développement de grands modèles de langage
DeepSeek modifie de manière significative le paysage actuel du développement des grands modèles de langage (LLM). En introduisant des innovations ou des approches nouvelles, DeepSeek a remis en question les méthodes établies et force les principaux acteurs du secteur à réévaluer leurs stratégies. La startup chinoise vient de publier le modèle R1 dont les performances semblent aussi remarquables que celles du modèle o1 d'OpenAI pour 95 % moins cher.
Deepseek a montré que le développement de LLM de pointe ne nécessitait pas de budgets colossaux et peut être efficace. Le développement de DeepSeek-V3 n'aurait coûté que 5,6 millions de dollars, soit une infime partie de ce que les Big Tech dépensent habituellement. Il n'a nécessité que 2,78 millions d'heures d'entraînement sur GPU, alors que le plus petit modèle de Meta, Llama-3 (405 milliards de paramètres), a nécessité environ onze fois plus de temps.
Le fait que R1 soit open source permettra aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer. Et Meta semble très impressionné par les prouesses de DeepSeek. Un rapport de Fortune indique que Meta a mis en place quatre « cellules de crise » composées d'ingénieurs pour étudier et comprendre comment l'IA de DeepSeek peut battre tous les autres à une fraction du prix. Meta dépensait jusqu'ici des milliards dans ses modèles.
Toutefois, la technologie de DeepSeek, potentiellement révolutionnaire, a remis en cause les investissements gargantuesques réalisés par les géants américains en matière d'IA et a mis en alerte l'équipe chargée de l'IA chez Meta. Mathew Oldham, directeur de l'infrastructure de Meta AI, aurait déclaré à ses collègues que le nouveau modèle de DeepSeek pourrait surpasser même la prochaine version de l'IA Llama de Meta, dont la publication serait imminente.
Parmi les quatre cellules de crise créées par Meta a pour étudier DeepSeek, deux équipes tenteront de déchiffrer comment DeepSeek a réduit le coût de formation et de fonctionnement de son IA dans le but d'utiliser ces tactiques pour Llama. La deuxième équipe tentera de découvrir les données utilisées par DeepSeek pour former son IA, et la dernière examinera comment Llama peut restructurer ses modèles en fonction des attributs des modèles de DeepSeek.
Mark Zuckerberg, PDG de Meta, a déclaré récemment que l'entreprise dépenserait jusqu'à 65 milliards de dollars dans ses projets d'IA au cours de l'année, notamment pour la construction d'un grand centre de données et l'embauche d'un plus grand nombre de personnes dans le domaine de l'IA.
Cette annonce intervient quelques jours après qu'OpenAI, SoftBank, Oracle et d'autres ont annoncé le projet Stargate qui vise à investir 500 milliards de dollars dans l'infrastructure nécessaire au développement de l'IA. Il prévoit la construction de dizaines de nouveaux centres de données à travers les États-Unis.
Panique chez Meta : DeepSeek-R1 aurait mis en lumière le retard de Meta
Le succès inattendu de DeepSeek modifie les conversations autour de l'innovation en matière d'IA, certains analystes allant jusqu'à affirmer que DeepSeek-R1 représente « une menace pour la domination américaine en matière d'IA » et pour les entreprises américaines dans ce domaine. Meta, en particulier, semble ressentir la pression. Un employé anonyme de Meta a publié sur le forum professionnel Blind un message intitulé « Meta GenAI Org in Panic Mode ».
L'employé explique : « cela a commencé avec DeepSeek V3, qui avait déjà rendu Llama 4 en retard sur les benchmarks. La startup...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.


