Les entreprises d'IA s'inspirent de l'exemple de DeepSeek et créent des modèles performants et moins coûteux grâce à la « distillation »

Mais les experts préviennent qu'ils sont plus limités

Le 4 mars 2025 à 20:25, par Stéphane le calme

38PARTAGES

Les entreprises d'IA s'inspirent de l'exemple de DeepSeek et créent des modèles performants et moins coûteux grâce à la « distillation »,
mais les experts préviennent qu'ils sont plus limités

Les principales entreprises d'intelligence artificielle, dont OpenAI, Microsoft et Meta, se tournent vers un processus appelé « distillation » dans la course mondiale à la création de modèles d'IA moins coûteux à adopter pour les consommateurs et les entreprises. Cette technique a attiré l'attention après que la société chinoise DeepSeek l'a utilisée pour construire des modèles d'intelligence artificielle puissants et efficaces basés sur des systèmes open source publiés par les concurrents Meta et Alibaba. Cette percée a ébranlé la confiance dans le leadership de la Silicon Valley en matière d'IA, ce qui a conduit les investisseurs de Wall Street à effacer des milliards de dollars de valeur des actions des grandes entreprises technologiques américaines.

L’intelligence artificielle est en pleine révolution, non seulement en raison des progrès techniques, mais aussi grâce aux efforts visant à rendre les modèles plus efficaces et abordables. Une tendance récente, initiée par DeepSeek, met en avant l’utilisation d’une technique appelée distillation pour réduire la taille et le coût des modèles d’IA tout en maintenant des performances compétitives. Cette approche séduit de plus en plus d’entreprises cherchant à démocratiser l’accès à des modèles de pointe.

La distillation : un procédé d’optimisation des modèles d’IA

De façon brossée, la distillation des modèles, ou knowledge distillation, est une méthode permettant de transférer les connaissances d’un modèle volumineux (appelé modèle professeur) vers un modèle plus petit (modèle étudiant). L’objectif est de capturer l’essence des performances du modèle initial tout en diminuant la complexité computationnelle et les coûts associés. Bien sûr, en pratique, ce n'est pas aussi simple mais l'idée ici est d'expliquer le principe.

Cette approche repose sur plusieurs principes :

Transfert de connaissances implicite : Le modèle professeur entraîne le modèle étudiant en lui fournissant non seulement les bonnes réponses, mais aussi des indications sur la manière dont il prend ses décisions.
Réduction des besoins en calcul : Un modèle plus petit consomme moins d’énergie et nécessite moins de puissance de calcul, le rendant plus accessible.
Maintien des performances : Grâce à des techniques avancées de distillation, les modèles étudiants peuvent atteindre des résultats comparables à ceux des modèles professeurs avec une fraction de leur taille initiale.

Vient alors DeepSeek

Depuis longtemps, les dépenses massives des géants de la technologie en matière d'intelligence artificielle suscitent des inquiétudes.

Et pourtant, le 20 janvier, DeepSeek, dirigé par le gestionnaire de fonds spéculatifs chinois Liang Wenfeng, a publié le modèle d'IA R1 sous une licence MIT ouverte, la plus grande version contenant 671 milliards de paramètres. Elle a pris la Silicon Valley et tout le monde de l'IA par surprise, car, selon un document rédigé par l'entreprise, DeepSeek-R1 bat les principaux modèles du secteur, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement.

En fait, sur de nombreux critères importants (capacité, coût, ouverture), DeepSeek donne du fil à retordre aux géants occidentaux de l'IA. DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût. Si o1 coûte 15 $ par million de jetons d'entrée et 60 $ par million de jetons de sortie (un jeton représente environ 4 caractères), DeepSeek est estimé à environ 0,55 $ et 2,19 $ par million de jetons d'entrée et de sortie, respectivement.

DeepSeek peut fonctionner sur des puces moins avancées. Dans un article publié fin décembre, les chercheurs de DeepSeek ont estimé qu'ils avaient construit et entraîné leur modèle V3 pour moins de 6 millions de dollars en utilisant environ 2 000 puces Nvidia H800. Les informations publiées par DeepSeek ont créé la panique sur le marché. Les investisseurs semblent se demander si la demande pour les puces haut de gamme de Nvidia n'est pas exagérée.

DeepSeek a attiré l’attention en lançant des modèles de langage optimisés grâce à la distillation. En combinant cette approche avec d’autres techniques d’optimisation, DeepSeek a prouvé qu’il est possible de créer des modèles plus légers et efficaces sans sacrifier la qualité des réponses générées.

Leur approche repose sur :

Une distillation stratégique qui conserve les performances clés du modèle d’origine.
Un entraînement basé sur des ensembles de données diversifiés afin de maximiser la généralisation.
L’optimisation des architectures pour s’adapter aux contraintes matérielles tout en restant performantes.

Un modèle économique plus viable pour l’IA

L’une des conséquences majeures de cette avancée est la diminution des coûts d’exploitation des modèles d’IA. Jusqu’à présent, les grandes entreprises comme OpenAI, Google et Meta investissaient des sommes colossales dans des modèles massifs nécessitant des infrastructures complexes et énergivores. Avec la distillation, il devient possible de proposer des alternatives plus économiques et accessibles aux petites entreprises et startups, qui ne disposent pas des mêmes moyens financiers.

Bien que la distillation soit largement utilisée depuis des années, les progrès récents ont conduit les experts de l'industrie à penser que le processus sera de plus en plus une aubaine pour les start-ups qui cherchent des moyens rentables de créer des applications basées sur la technologie.

« La distillation est tout à fait magique », a déclaré Olivier Godement, responsable des produits pour la plateforme OpenAI. « Il s'agit d'un processus qui consiste essentiellement à prendre un très grand modèle de pointe et à l'utiliser pour enseigner un modèle plus petit[...] très performant dans des tâches spécifiques et dont l'exécution est très bon marché et très rapide ».

Le développement et la maintenance de grands modèles de langage tels que le GPT-4 d'OpenAI, le Gemini de Google et le Llama de Meta nécessitent d'énormes quantités de données et de puissance de calcul. Bien que les entreprises n'aient pas révélé de chiffres précis sur le coût de l'entraînement des grands modèles, il est probable qu'il s'agisse de centaines de millions de dollars.

Grâce à la distillation, les développeurs et les entreprises peuvent accéder aux capacités de ces modèles pour une fraction du prix, ce qui permet aux développeurs d'applications d'exécuter rapidement des modèles d'IA sur des appareils tels que les ordinateurs portables et les smartphones.

Les développeurs peuvent utiliser la plateforme d'OpenAI pour la distillation, en apprenant à partir des grands modèles de langage qui sous-tendent des produits tels que ChatGPT. Le principal bailleur de fonds d'OpenAI, Microsoft, a utilisé GPT-4 pour distiller sa petite famille de modèles linguistiques Phi dans le cadre d'un partenariat commercial après avoir investi près de 14 milliards de dollars dans l'entreprise.

Cependant, la start-up basée à San Francisco a déclaré qu'elle pensait que DeepSeek avait distillé les modèles d'OpenAI pour entraîner son concurrent, ce qui serait contraire à ses conditions d'utilisation.

Si la distillation peut être utilisée pour créer des modèles très performants, les experts ajoutent qu'ils sont plus limités

« La distillation présente un compromis intéressant ; si vous réduisez la taille des modèles, vous réduisez inévitablement leur capacité », a déclaré Ahmed Awadallah de Microsoft Research, qui a indiqué qu'un modèle distillé peut être conçu pour être très performant pour résumer des courriels, par exemple, « mais qu'il ne serait vraiment pas performant pour autre chose ».

David Cox, vice-président pour les modèles d'IA chez IBM Research, a déclaré que la plupart des entreprises n'ont pas besoin d'un modèle massif pour faire fonctionner leurs produits, et que les modèles distillés sont suffisamment puissants pour des objectifs tels que les chatbots du service clientèle ou pour fonctionner sur des appareils plus petits tels que les téléphones.

« Chaque fois que vous pouvez [réduire le coût] et que vous obtenez les performances souhaitées, il y a très peu de raisons de ne pas le faire », a-t-il ajouté.

Cela représente un défi pour de nombreux modèles d'entreprise des grandes sociétés d'IA. Même si les développeurs utilisent des modèles distillés par des entreprises telles qu'OpenAI, leur coût d'exploitation est bien moindre, leur création est moins coûteuse et ils génèrent donc moins de revenus. Les fabricants de modèles comme OpenAI facturent souvent moins cher l'utilisation de modèles distillés, car ils nécessitent une charge de calcul moins importante.

Cependant, Godement, d'OpenAI, a fait valoir que les grands modèles de langage resteront nécessaires pour les « tâches à haute intelligence et à enjeux élevés », pour lesquelles « les entreprises sont prêtes à payer davantage pour un niveau élevé de précision et de fiabilité ». Il a ajouté que les grands modèles seront également nécessaires pour découvrir de nouvelles capacités qui pourront ensuite être distillées dans des modèles plus petits.

Toutefois, OpenAI veut empêcher que ses grands modèles ne soient distillés pour former un concurrent

OpenAI dispose d'équipes qui surveillent l'utilisation et peuvent supprimer l'accès aux utilisateurs qu'elle soupçonne de générer de grandes quantités de données pour les exporter et former un rival, comme elle l'a apparemment fait avec des comptes qu'elle pense être liés à DeepSeek. Cependant, la plupart de ces actions sont rétroactives.

« OpenAI essaie depuis longtemps de se protéger contre la distillation, mais il est très difficile de l'éviter complètement », a déclaré Douwe Kiela, directeur général de Contextual AI, une start-up qui crée des outils de recherche d'informations pour les entreprises.

La distillation est également une victoire pour les partisans des modèles ouverts, où la technologie est mise gratuitement à la disposition des développeurs pour qu'ils s'en inspirent. DeepSeek a également ouvert ses modèles récents aux développeurs.

« Nous allons utiliser [la distillation] et l'intégrer immédiatement dans nos produits », a déclaré Yann LeCun, responsable scientifique de Meta en matière d'IA. « C'est toute l'idée de l'open source. Vous profitez des progrès de tout le monde et de tous les autres tant que ces processus sont ouverts ».

La distillation signifie également que les créateurs de modèles peuvent dépenser des milliards de dollars pour faire progresser les capacités des systèmes d'IA, tout en étant confrontés à des concurrents qui les rattrapent souvent rapidement, comme le démontrent les récentes publications de DeepSeek. Cela soulève des questions quant à l'avantage du premier à construire des LLM lorsque leurs capacités peuvent être reproduites en l'espace de quelques mois.

« Dans un monde où les choses évoluent si rapidement [...], vous pourriez en fait dépenser beaucoup d'argent, faire les choses à la dure, et ensuite le reste du domaine vous talonne », a déclaré Cox, d'IBM. « Il s'agit donc d'un paysage commercial intéressant et délicat ».

Vers une IA plus efficiente et démocratisée

La distillation des modèles s’inscrit dans une tendance plus large visant à rendre l’intelligence artificielle plus efficiente et accessible. Alors que l’industrie de l’IA évolue rapidement, l’approche initiée par DeepSeek montre que l’optimisation et la réduction des coûts ne signifient pas nécessairement une baisse de performance.

À l’avenir, nous pourrions voir une généralisation de ces techniques et une multiplication des modèles "distillés" dans divers secteurs, allant de la finance à la santé, en passant par l’IdO et l’edge computing. Cette dynamique pourrait remodeler l’écosystème de l’IA en rendant les technologies avancées accessibles à un plus grand nombre d’acteurs.

Sources : Microsoft, OpenAI

Et vous ?

La distillation permet-elle réellement de préserver toutes les capacités cognitives des modèles d’IA ou y a-t-il une perte inévitable de performance ?

Quels sont les défis techniques à surmonter pour améliorer encore l’efficacité des modèles distillés ?

Peut-on combiner la distillation avec d’autres techniques, comme la quantification ou le pruning (l'idée de réduire la taille d'un réseau de neurones, tout en minimisant la perte de performance), pour optimiser davantage les modèles ?

La réduction des coûts grâce à la distillation va-t-elle favoriser l’émergence de nouveaux acteurs dans l’IA ou renforcer la domination des grandes entreprises déjà établies ?

Cette tendance peut-elle accélérer la démocratisation des modèles d’IA open-source face aux solutions propriétaires comme GPT-4 ou Gemini ?

Le marché de l’IA va-t-il évoluer vers une compétition non plus sur la puissance brute, mais sur l’optimisation et l’efficacité des modèles ?

Voir aussi :

Nvidia rejette la menace DeepSeek et affirme que l'IA chinoise a toujours besoin de ses puces alors que ses actions ont dévissé de 17 %, effaçant 600 milliards de dollars de sa capitalisation boursière

Sam Altman, PDG d'OpenAI, a qualifié DeepSeek de « modèle impressionnant » après que la sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA

Microsoft héberge désormais "R1" sur Azure AI et GitHub : OpenAI accuse le chinois DeepSeek d'avoir copié ses données pour former son modèle d'IA son plus grand bailleur de fonds ne l'a pas retirée pour autant

Vous avez lu gratuitement 383 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les entreprises d'IA s'inspirent de l'exemple de DeepSeek et créent des modèles performants et moins coûteux grâce à la « distillation »

Mais les experts préviennent qu'ils sont plus limités

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les entreprises d'IA s'inspirent de l'exemple de DeepSeek et créent des modèles performants et moins coûteux grâce à la « distillation » Mais les experts préviennent qu'ils sont plus limités

Les entreprises d'IA s'inspirent de l'exemple de DeepSeek et créent des modèles performants et moins coûteux grâce à la « distillation »

Mais les experts préviennent qu'ils sont plus limités