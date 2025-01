DeepSeek rebat les cartes du développement de grands modèles de langage

Panique chez Meta : DeepSeek-R1 aurait mis en lumière le retard de Meta

Certains considèrent DeepSeek-R1 comme le triomphe de l'open source

DeepSeek modifie de manière significative le paysage actuel du développement des grands modèles de langage (LLM). En introduisant des innovations ou des approches nouvelles, DeepSeek a remis en question les méthodes établies et force les principaux acteurs du secteur à réévaluer leurs stratégies. La startup chinoise vient de publier le modèle R1 dont les performances semblent aussi remarquables que celles du modèle o1 d'OpenAI pour 95 % moins cher Deepseek a montré que le développement de LLM de pointe ne nécessitait pas de budgets colossaux et peut être efficace. Le développement de DeepSeek-V3 n'aurait coûté que 5,6 millions de dollars, soit une infime partie de ce que les Big Tech dépensent habituellement. Il n'a nécessité que 2,78 millions d'heures d'entraînement sur GPU, alors que le plus petit modèle de Meta, Llama-3 (405 milliards de paramètres), a nécessité environ onze fois plus de temps.Le fait que R1 soit open source permettra aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer. Et Meta semble très impressionné par les prouesses de DeepSeek. Un rapport de Fortune indique que Meta a mis en place quatre « cellules de crise » composées d'ingénieurs pour étudier et comprendre comment l'IA de DeepSeek peut battre tous les autres à une fraction du prix. Meta dépensait jusqu'ici des milliards dans ses modèles.Toutefois, la technologie de DeepSeek, potentiellement révolutionnaire, a remis en cause les investissements gargantuesques réalisés par les géants américains en matière d'IA et a mis en alerte l'équipe chargée de l'IA chez Meta. Mathew Oldham, directeur de l'infrastructure de Meta AI, aurait déclaré à ses collègues que le nouveau modèle de DeepSeek pourrait surpasser même la prochaine version de l'IA Llama de Meta, dont la publication serait imminente.Parmi les quatre cellules de crise créées par Meta a pour étudier DeepSeek, deux équipes tenteront de déchiffrer comment DeepSeek a réduit le coût de formation et de fonctionnement de son IA dans le but d'utiliser ces tactiques pour Llama. La deuxième équipe tentera de découvrir les données utilisées par DeepSeek pour former son IA, et la dernière examinera comment Llama peut restructurer ses modèles en fonction des attributs des modèles de DeepSeek. Mark Zuckerberg, PDG de Meta, a déclaré récemment que l'entreprise dépenserait jusqu'à 65 milliards de dollars dans ses projets d'IA au cours de l'année , notamment pour la construction d'un grand centre de données et l'embauche d'un plus grand nombre de personnes dans le domaine de l'IA.Cette annonce intervient quelques jours après qu'OpenAI, SoftBank, Oracle et d'autres ont annoncé le projet Stargate qui vise à investir 500 milliards de dollars dans l'infrastructure nécessaire au développement de l'IA. Il prévoit la construction de dizaines de nouveaux centres de données à travers les États-Unis.Le succès inattendu de DeepSeek modifie les conversations autour de l'innovation en matière d'IA, certains analystes allant jusqu'à affirmer que DeepSeek-R1 représente « une menace pour la domination américaine en matière d'IA » et pour les entreprises américaines dans ce domaine. Meta, en particulier, semble ressentir la pression. Un employé anonyme de Meta a publié sur le forum professionnel Blind un message intitulé « Meta GenAI Org in Panic Mode ».L'employé explique : « cela a commencé avec DeepSeek V3, qui avait déjà rendu Llama 4 en retard sur les benchmarks. La startup chinoise inconnue disposant d'un budget de formation de 5,5 millions de dollars a ajouté l'insulte à l'injure. Les ingénieurs s'activent frénétiquement pour disséquer DeepSeek et copier tout ce que nous pouvons en tirer. Je n'exagère même pas ». Son post met aussi en évidence des problèmes internes au sein de la division IA de Meta.DeepSeek est un signal d'alarme pour le secteur de l'IA dans son ensemble. Le succès d'un modèle open source construit avec un budget réduit soulève la question de savoir si les géants de la technologie ne compliquent pas trop leurs stratégies. En réduisant considérablement les coûts et en offrant une licence permissive, DeepSeek a ouvert les portes aux développeurs qui, auparavant, n'avaient pas les moyens de travailler avec des outils d'IA très performants.Pour Meta, OpenAI et d'autres acteurs majeurs de la course à l'IA, la montée en puissance de DeepSeek représente plus qu'une simple concurrence : elle remet en cause l'idée selon laquelle des budgets plus importants conduisent automatiquement à de meilleurs résultats. La question de savoir si ces entreprises peuvent s'adapter reste ouverte, mais selon les analystes, une chose est claire, DeepSeek a renversé le scénario, et le secteur y prête attention.L'intérêt pour le modèle R1 de DeepSeek n'a cessé d'augmenter depuis son lancement. Le modèle s'est hissé en tête du classement des applications les plus téléchargées de l'App Store d'Apple. DeepSeek a battu le chabot d'IA ChatGPT d'OpenAI sur l'App Store, provoquant une chute brutale des actions liées à l'IA. Les actions de Nvidia ont été malmenées lors de la première séance du marché cette semaine, chutant de 17 %. Les actions d'AMD, le rival de Nvidia , ont également chuté de plus de 6 %. Les actions d'autres géants des semiconducteurs ont également chuté, notamment Broadcom (17,4 %) et TSMC (9.88 %). Mark Zuckerberg s'est récemment rendu sur Facebook pour présenter les plans de Meta pour la nouvelle année . En 2025, Meta a pour objectif de développer un assistant d'IA capable de servir plus d'un milliard de personnes, d'améliorer Llama 4 pour qu'il puisse rivaliser avec les meilleurs modèles du marché, et de créer une « IA ingénieure » pour l'aider dans sa recherche et son développement. « Ce sera une année décisive pour l'IA », a écrit Mark Zuckerberg.Mais les plans de Meta sont mis à mal par DeepSeek. Selon le message de l'employé anonyme de Meta, Deepseek-V3 a déjà surpassé Llama-4 dans des tests de référence, alors que le modèle de Meta n'a pas encore été commercialisé. Ce qui suscite des préoccupations quant aux coûts de fonctionnement élevés du département alors qu'une entreprise chinoise relativement inconnue du grand public peut obtenir de meilleurs résultats avec un budget aussi serré.Cet employé anonyme souligne également que le salaire d'un seul chef de département de l'équipe de Meta dépasse l'ensemble du budget de formation de Deepseek. Il critique la façon dont la division IA de Meta, qui devait à l'origine être petite et techniquement ciblée, s'est hypertrophiée à mesure que les employés se précipitaient pour suivre la tendance de l'IA. Résultat, l'équipe innove peu (ou pas du tout) malgré les budgets énormes dont elle bénéficie.Meta devra mettre les bouchées doubles pour améliorer LLama-4 et atteindre ses objectifs. L'impact à long terme de DeepSeek reste à débattre, car il existe toujours une forte demande aux États-Unis pour des puces d'IA avancées de Nvidia. Certains observateurs chevronnés du marché s'attendent à ce que les actions des fabricants de puces baissent davantage. Cependant, le contraire peut également se produire, avec les actions repartant à la hausse.Yann LeCun, responsable scientifique de la division IA chez Meta, a donné son avis sur le succès de DeepSeek. Selon lui, ce qu'il faut retenir est la volonté de DeepSeek de maintenir ses modèles d'IA open source afin que tout le monde puisse en bénéficier. Yann LeCun a fait remarquer que la réussite de DeepSeek ne consistait pas à placer la Chine devant les États-Unis dans le secteur de l'IA, mais à s'assurer que les modèles open source restent en tête « Ce n'est pas que l'IA chinoise surpasse les États-Unis, mais plutôt que les modèles open source surpassent les modèles propriétaires », a déclaré Yann LeCun. Selon lui, DeepSeek a bénéficié de l'open source et de la recherche ouverte. « Ils ont trouvé de nouvelles idées et les ont développées en s'appuyant sur le travail d'autres personnes. Comme leur travail est publié et qu'il s'agit d'une source ouverte, tout le monde peut en profiter », a déclaré Yann LeCun.« C'est la force de la recherche ouverte et de l'open source », a-t-il ajouté. DeepSeek partage les mêmes attributs que Llama, les deux étant open source. Leur rival, OpenAI, qui était à l'origine censé développer une IA ouverte et accessible à tous, a depuis fermé ses sources, en opposition avec sa mission initiale.Cette évolution a donné lieu à de nombreux débats juridiques, Elon Musk, l'un des fondateurs d'OpenAI, ayant demandé aux tribunaux de bloquer le projet d'OpenAI de passager d'une organisation à but non lucratif à une société à but lucratif. OpenAI vise à attirer plus d'investisseurs avec ce nouveau statut.Quel est votre avis sur le sujet ?Que pensez-vous de la panique provoquée par DeepSeek dans la Silicon Valley ?Que pensez-vous des cellules de crise mises en place par Meta en réponse au succès de DeepSeek ?