IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le développeur chinois d'IA DeepSeek n'a dépensé que 294 000 dollars pour former son modèle R1, soit beaucoup moins que ce qui a été rapporté pour ses concurrents américains

Le , par Alex

5PARTAGES

3  0 
Le développeur chinois d'IA DeepSeek n'a dépensé que 294 000 dollars pour former son modèle R1, soit beaucoup moins que ce qui a été rapporté pour ses concurrents américains.

Le développeur chinois d'intelligence artificielle DeepSeek a annoncé que son modèle R1 avait été formé pour un coût de 294 000 dollars, soit un montant nettement inférieur aux coûts de formation cités par ses concurrents américains, tels que OpenAI et Nvidia. Un rapport a révélé que le modèle R1 de DeepSeek utilisait 512 puces Nvidia H800, acquises après que les restrictions américaines à l'exportation aient limité l'accès à des puces IA plus puissantes pour le marché chinois. DeepSeek a défendu sa méthodologie de formation, affirmant que toute similitude avec les modèles d'OpenAI était fortuite et attribuable à l'utilisation de pages web explorées, qui incluaient par inadvertance du contenu généré par OpenAI, plutôt qu'à une tentative délibérée de reproduire des modèles existants.

L’apparition de DeepSeek a fait voler en éclats le mythe d’un monopole technologique américain sur l’intelligence artificielle (IA). En moins de deux ans, cette entreprise chinoise a réussi à réduire considérablement l’écart qui la séparait des géants américains de l’IA, notamment grâce à une stratégie open source audacieuse. DeepSeek est devenue l'application gratuite la plus téléchargée aux États-Unis une semaine seulement après son lancement. L'entreprise a affirmé que R1 avait été développé pour seulement 5,6 millions de dollars en puissance de calcul, une fraction du coût de ses concurrents.

Puis en août, DeepSeek a minutieusement orchestré le lancement de son modèle V3.1. Il est intervenu quelques semaines seulement après la publication de GPT-5 par OpenAI et de Claude 4.1 par Anthropic, deux modèles considérés comme l’avant-garde des capacités de l’IA. En égalant leurs performances tout en restant open source, DeepSeek remet en cause les fondements mêmes du modèle économique qui soutient le leadership américain dans le domaine de l'IA. Alors que GPT-5 s'est ridiculisé auprès des utilisateurs, ceux-ci pourraient se tourner massivement vers DeepSeek V3.1. Encore une fois, il a été construit pour une fraction du coût de ses rivaux, en utilisant beaucoup moins de puces Nvidia.

Récemment, un article publié dans la revue scientifique Naturel a révélé que le développeur chinois d'IA DeepSeek a dépensé 294 000 dollars pour former son modèle R1, un montant bien inférieur à celui annoncé par ses concurrents américains. Pour rappel, la publication par DeepSeek en janvier de ce qu'elle a présenté comme des systèmes d'IA à moindre coût a incité les investisseurs mondiaux à se débarrasser de leurs actions technologiques, craignant que les nouveaux modèles ne menacent la domination des leaders de l'IA, notamment Nvidia.

Depuis lors, la société et son fondateur Liang Wenfeng ont largement disparu de la scène publique, à l'exception de quelques mises à jour sur de nouveaux produits. L'article de Nature, qui cite Liang parmi les coauteurs, indique que le modèle R1 de DeepSeek, axé sur le raisonnement, a coûté 294 000 dollars à former et a utilisé 512 puces Nvidia H800. Une version précédente de l'article publiée en janvier ne contenait pas cette information.


Les coûts de formation des grands modèles de langage qui alimentent les chatbots IA correspondent aux dépenses engagées pour faire fonctionner un cluster de puissantes puces pendant des semaines ou des mois afin de traiter de grandes quantités de texte et de code. Sam Altman, PDG du géant américain de l'IA OpenAI, a déclaré en 2023 que la formation des modèles fondamentaux avait coûté « bien plus » que 100 millions de dollars, bien que son entreprise n'ait fourni aucun chiffre détaillé pour aucune de ses versions.

Certaines déclarations de DeepSeek concernant ses coûts de développement et la technologie utilisée ont été remises en question par des entreprises et des responsables américains. Les puces H800 mentionnées ont été conçues par Nvidia pour le marché chinois après que les États-Unis ont interdit à l'entreprise d'exporter ses puces IA H100 et A100, plus puissantes, vers la Chine en octobre 2022.

Des responsables américains ont déclaré en juin que DeepSeek avait accès à de « grandes quantités » de puces H100 qui avaient été achetées après la mise en place des contrôles à l'exportation américains. Nvidia a déclaré à l'époque que DeepSeek avait utilisé des puces H800 acquises légalement, et non des puces H100. Dans un document d'information complémentaire accompagnant l'article de Nature, l'entreprise a reconnu pour la première fois qu'elle possédait des puces A100 et a déclaré les avoir utilisées dans les phases préparatoires du développement.

« Dans le cadre de nos recherches sur DeepSeek-R1, nous avons utilisé les GPU A100 pour préparer les expériences avec un modèle plus petit », ont écrit les chercheurs. Après cette phase initiale, R1 a été entraîné pendant 80 heures au total sur le cluster de 512 puces H800, ont-ils ajouté. Un rapport a précédemment révélé que l'une des raisons pour lesquelles DeepSeek avait réussi à attirer les esprits les plus brillants de Chine était qu'il s'agissait de l'une des rares entreprises nationales à exploiter un cluster de supercalculateurs A100.

DeepSeek a également répondu pour la première fois, bien que de manière indirecte, aux affirmations d'un haut conseiller de la Maison Blanche et d'autres personnalités américaines du domaine de l'IA qui avaient déclaré en janvier qu'elle avait délibérément « distillé » les modèles d'OpenAI pour les intégrer aux siens. DeepSeek a toujours défendu la distillation comme permettant d'obtenir de meilleures performances des modèles tout en étant beaucoup moins coûteuse à former et à exploiter, ce qui permet un accès plus large aux technologies basées sur l'IA en raison des besoins en ressources énergétiques importants de ces modèles.

Ce terme désigne une technique par laquelle un système d'IA apprend d'un autre système d'IA, ce qui permet au nouveau modèle de bénéficier des investissements en temps et en puissance de calcul qui ont été consacrés à la construction du modèle précédent, mais sans les coûts associés. DeepSeek a déclaré en janvier avoir utilisé le modèle d'IA open source Llama de Meta pour certaines versions distillées de ses propres modèles.

DeepSeek a déclaré dans Nature que les données d'entraînement de son modèle V3 reposaient sur des pages web explorées qui contenaient « un nombre important de réponses générées par le modèle OpenAI, ce qui peut conduire le modèle de base à acquérir indirectement des connaissances provenant d'autres modèles puissants ». Mais l'entreprise a précisé que cela n'était pas intentionnel, mais plutôt fortuit.


Le pipeline multi-étapes de DeepSeek-R1

Les prouesses techniques de la startup chinoise DeepSeek ont forcé Microsoft à repenser son approche en matière d'IA. DeepSeek a montré qu'il est possible de développer des modèles d'IA de pointe à faible coût. Microsoft en a tiré des leçons et le PDG Satya Nadella a déclaré en mars dernier que DeepSeek est le nouveau « critère de réussite » de la firme de Redmond en matière d'IA. Satya Nadella a été impressionné par la manière dont une équipe de 200 personnes seulement a construit un produit d'IA qui est devenu l'application numéro un de l'App Store.

En outre, un défenseur de l’open source décrit DeepSeek en affirmant : « Ce n’est pas juste un modèle, c’est un mouvement ». Dans un climat où l’IA est dominée par des géants comme OpenAI, Google, et Anthropic, l’apparition de DeepSeek est perçue comme une réplique communautaire, radicalement différente par sa philosophie : ouverture, collaboration, transparence. Ce modèle, issu d’un projet chinois au départ peu connu, a rapidement attiré l’attention pour sa capacité à rivaliser avec les modèles propriétaires, tout en restant totalement ouvert.

Source : Article dans la revue scientifique Nature

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

SemiAnalysis affirme que DeepSeek a dépensé plus de 500 millions de dollars en puces Nvidia malgré les allégations au sujet d'une IA à bas prix, suscitant des interrogations sur la transparence de DeepSeek

DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT, affirment les chercheurs de Cisco

Les modèles de langages coûtent 10 fois plus cher à développer dans certaines langues que dans d'autres, d'après l'analyse d'une chercheuse en IA
Vous avez lu gratuitement 4 611 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !