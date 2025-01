Le PDG d'OpenAI fait l'éloge de DeepSeek tout en assurant que son entreprise va dévoiler des modèles pavant la voie vers l'IAG

deepseek's r1 is an impressive model, particularly around what they're able to deliver for the price.



we will obviously deliver much better models and also it's legit invigorating to have a new competitor! we will pull up some releases. — Sam Altman (@sama) January 28, 2025

Nvidia ne craint pas DeepSeek et y voit plutôt une opportunité pour ses puces

La startup chinoise DeepSeek a lancé un nouveau générateur d'images « révolutionnaire » qui, selon elle, peut surpasser les meilleurs modèles construits par des rivaux basés aux États-Unis pour une fraction du prix.Janus-Pro, que DeepSeek décrit comme un « nouveau framework autorégressif », peut à la fois analyser et créer de nouvelles images. Selon l'entreprise, sur deux benchmarks d'évaluation de l'IA, GenEval et DPG-Bench, le plus grand modèle Janus-Pro, Janus-Pro-7B, bat DALL-E 3 ainsi que des modèles tels que PixArt-alpha, Emu3-Gen et Stability AI's Stable Diffusion XL.Certes, certains de ces modèles sont plus anciens, et la plupart des modèles Janus-Pro ne peuvent analyser que de petites images d'une résolution maximale de 384 x 384. Mais les performances de Janus-Pro sont impressionnantes, compte tenu de la taille compacte des modèles.« Janus-Pro surpasse le modèle unifié précédent et égale ou dépasse les performances des modèles spécifiques à une tâche », écrit DeepSeek dans un article publié sur Hugging Face. « La simplicité, la grande flexibilité et l'efficacité de Janus-Pro en font un candidat de choix pour la prochaine génération de modèles multimodaux unifiés ».Le Janus-Pro de DeepSeek est libre d'utilisation sans restriction, contrairement aux générateurs d'images construits par des rivaux américains comme OpenAI et Stability AI. Il marque également une avancée dans la manière dont ces modèles sont formés et développés, l'un de ses modèles d'IA générative ayant coûté moins de 6 millions de dollars à construire, contre des milliards pour des entreprises telles que ChatGPT.« C'est vraiment incroyable... Ce modèle génère des images et bat DALL-E 3 et Stable Diffusion d'OpenAI sur de nombreux critères », a déclaré l'entrepreneur Internet Brian Roemmele. « On ne soulignera jamais assez l'importance du nouveau modèle DeepSeek Janus-Pro 7B pour l'ensemble de l'écosystème de l'IA et pour le monde entier. Il est entièrement gratuit et l'ensemble du projet est open source ».DeepSeek qualifie son dernier modèle d'IA open-source de « révolutionnaire », offrant aux développeurs et aux chercheurs un accès sans précédent à des technologies d'intelligence artificielle de pointe par le biais de plateformes gratuites telles que GitHub et Hugging Face.« Le Janus Pro de DeepSeek représente une avancée significative dans la technologie de l'intelligence artificielle, en combinant des capacités avancées de compréhension et de génération d'images dans un modèle unique et puissant », a écrit la startup sur Hugging Face. « Sa combinaison de capacités avancées, son accessibilité en code source ouvert et ses performances impressionnantes en font un acteur important dans l'évolution de la technologie de l'intelligence artificielle ».Sam Altman, qui dirige ChatGPT et OpenAI, le créateur de Dall-E, a fait l'éloge de l'IA rentable de DeepSeek, tout en affirmant que son entreprise dévoilerait des modèles améliorés qui ouvriraient la voie à une intelligence artificielle de niveau humain.« Le R1 de DeepSeek est un modèle impressionnant, en particulier en ce qui concerne ce qu'ils sont capables de fournir pour le prix », a-t-il écrit dans un message sur X (anciennement Twitter). « Nous fournirons évidemment de bien meilleurs modèles et il est tout à fait stimulant d'avoir un nouveau concurrent ! Nous allons sortir quelques modèles... Nous sommes impatients de vous présenter l'IAG [intelligence artificielle générale] et au-delà. »DeepSeek, un laboratoire d'IA chinois financé en grande partie par la société de trading quantitatif High-Flyer Capital Management. Ses modèles R1 sont open source : ils permettront donc aux développeurs de s'en inspirer et d'apprendre de DeepSeek, voire de l'améliorer. Les modèles de langage de DeepSeek, qui ont été formés à l'aide de techniques informatiques efficaces, ont amené de nombreux analystes de Wall Street et des technologues à se demander si les États-Unis peuvent conserver leur avance dans la course à l'IA et si la demande de puces d'IA se maintiendra.Nvidia, qui a connu une ascension significative ces deux dernières années en raison d'une forte demande pour ses composants, a chuté de près de 17 % lundi, perdant 589 milliards de dollars en capitalisation boursière, ce qui constitue l'une des pertes les plus importantes de l'histoire. Suite à cela, la société a chuté de la première position pour se retrouver troisième au classement des plus grandes capitalisations mondiales, derrière Apple et Microsoft.L'émergence de DeepSeek, concurrente chinoise de ChatGPT, développée avec des moyens largement réduits, a secoué les investisseurs.Le lancement du modèle R1, le dernier né de la start-up chinoise, n'avait initialement suscité qu'un intérêt modeste aux États-Unis. Cependant, au cours du week-end, DeepSeek a pris la place de l'application gratuite la plus téléchargée sur l'App Store américain d'Apple, surpassant ChatGPT, l'agent conversationnel d'OpenAI qui a lancé la course à l'IA générative fin 2022.En raison des restrictions mises en place par les États-Unis concernant l'exportation des composants de haute technologie, DeepSeek, en tant que société chinoise, se voit dans l'incapacité d'accéder aux puces ultra-perfectionnées de Nvidia, originaire de Californie, qu'elle utilise pour former ses modèles d'intelligence artificielle générative comme ChatGPT.La jeune entreprise a également affirmé n'avoir investi que 5,6 millions de dollars pour l'élaboration de son modèle, ce qui représente une portion infime des milliards dépensés par les grands acteurs américains de la technologie dans le développement de leurs systèmes d'IA.Mais Art Hogan, de B. Riley Wealth Management, refuse de se contenter de simples déclarations. Pour lui, il reste à en « apprendre plus sur les capacités de DeepSeek, la véracité de ses informations (...) et ce que cela signifie pour l'environnement d'investissement à long terme dans le domaine de l'intelligence artificielle ».Les actions d'AMD, le rival de Nvidia, ont également chuté de plus de 6 %. Les actions d'autres géants des semiconducteurs ont également chuté, notamment Broadcom (17,4 %) et TSMC (9.88 %). Le fait que DeepSeek semble avoir construit son dernier modèle en utilisant des puces moins performantes et moins chères exerce une pression sur Nvidia. Les investisseurs craignent que d'autres entreprises du secteur des grandes technologies réduisent leur demande pour les produits les plus avancés de Nvidia.Toutefois, Nvidia ne voit pas DeepSeek comme une menace et a tenu à rassurer les investisseurs après l'hécatombe sur les marchés. Nvidia estime que les progrès de DeepSeek montrent l'utilité de ses puces pour le marché chinois et que davantage de ses puces seront nécessaires à l'avenir pour répondre à la demande des services de DeepSeek. Mais les sanctions imposées à la Chine par Washington limitent la capacité de Nvidia à exporter ses puces vers ce pays Nvidia a expliqué dans un communiqué : « le travail de DeepSeek illustre comment de nouveaux modèles peuvent être créés en utilisant cette technique, en tirant parti de modèles largement disponibles et d'un calcul qui est entièrement conforme au contrôle des exportations ». Les sanctions américaines ont été conçues pour empêcher la Chine de créer des superordinateurs pouvant être utilisés par l'armée chinois ou pour développer des outils d'IA avancés Source : DeepSeek Pensez-vous que DeepSeek peut réellement rivaliser avec OpenAI, ou s’agit-il surtout d’un coup de communication ?Quels critères doivent être pris en compte pour juger si un modèle est "meilleur" qu’un autre (précision, rapidité, flexibilité, éthique) ?Rendre ces outils accessibles à un large public est une bonne idée, ou cela risque-t-il de créer des dérives incontrôlables ?L’émergence de modèles aussi performants pose-t-elle un risque accru pour les métiers créatifs ? Comment peut-on préserver l’emploi dans ces secteurs ?Quels garde-fous devraient être mis en place pour éviter les abus, comme les deepfakes ou la désinformation, avec des outils aussi puissants ?Ces modèles pourraient-ils réduire le coût de la création de contenu pour les entreprises ? À quel prix pour les professionnels du secteur ?