Les principales entreprises d'intelligence artificielle, dont OpenAI, Microsoft et Meta, se tournent vers un processus appelé « distillation » dans la course mondiale à la création de modèles d'IA moins coûteux à adopter pour les consommateurs et les entreprises. Cette technique a attiré l'attention après que la société chinoise DeepSeek l'a utilisée pour construire des modèles d'intelligence artificielle puissants et efficaces basés sur des systèmes open source publiés par les concurrents Meta et Alibaba. Cette percée a ébranlé la confiance dans le leadership de la Silicon Valley en matière d'IA, ce qui a conduit les investisseurs de Wall Street à effacer des milliards de dollars de valeur des actions des grandes entreprises technologiques américaines.L’intelligence artificielle est en pleine révolution, non seulement en raison des progrès techniques, mais aussi grâce aux efforts visant à rendre les modèles plus efficaces et abordables. Une tendance récente, initiée par DeepSeek, met en avant l’utilisation d’une technique appelée distillation pour réduire la taille et le coût des modèles d’IA tout en maintenant des performances compétitives. Cette approche séduit de plus en plus d’entreprises cherchant à démocratiser l’accès à des modèles de pointe.
La distillation : un procédé d’optimisation des modèles d’IA
De façon brossée, la distillation des modèles, ou knowledge distillation, est une méthode permettant de transférer les connaissances d’un modèle volumineux (appelé modèle professeur) vers un modèle plus petit (modèle étudiant). L’objectif est de capturer l’essence des performances du modèle initial tout en diminuant la complexité computationnelle et les coûts associés. Bien sûr, en pratique, ce n'est pas aussi simple mais l'idée ici est d'expliquer le principe.
Cette approche repose sur plusieurs principes :
- Transfert de connaissances implicite : Le modèle professeur entraîne le modèle étudiant en lui fournissant non seulement les bonnes réponses, mais aussi des indications sur la manière dont il prend ses décisions.
- Réduction des besoins en calcul : Un modèle plus petit consomme moins d’énergie et nécessite moins de puissance de calcul, le rendant plus accessible.
- Maintien des performances : Grâce à des techniques avancées de distillation, les modèles étudiants peuvent atteindre des résultats comparables à ceux des modèles professeurs avec une fraction de leur taille initiale.
Vient alors DeepSeek
Depuis longtemps, les dépenses massives des géants de la technologie en matière d'intelligence artificielle suscitent des inquiétudes.
Et pourtant, le 20 janvier, DeepSeek, dirigé par le gestionnaire de fonds spéculatifs chinois Liang Wenfeng, a publié le modèle d'IA R1 sous une licence MIT ouverte, la plus grande version contenant 671 milliards de paramètres. Elle a pris la Silicon Valley et tout le monde de l'IA par surprise, car, selon un document rédigé par l'entreprise, DeepSeek-R1 bat les principaux modèles du secteur, comme OpenAI o1, sur plusieurs critères mathématiques et de raisonnement.
En fait, sur de nombreux critères importants (capacité, coût, ouverture), DeepSeek donne du fil à retordre aux géants occidentaux de l'IA. DeepSeek affirme avoir créé un modèle de niveau o1 qui fonctionne à 95 % du coût. Si o1 coûte 15 $ par million de jetons d'entrée et 60 $ par million de jetons de sortie (un jeton représente environ 4 caractères), DeepSeek est estimé à environ 0,55 $ et 2,19 $ par million de jetons d'entrée et de sortie, respectivement.
DeepSeek peut fonctionner sur des puces moins avancées. Dans un article publié fin décembre, les chercheurs de DeepSeek ont estimé qu'ils avaient construit et entraîné leur modèle V3 pour moins de 6 millions de dollars en utilisant environ 2 000 puces Nvidia H800. Les informations publiées par DeepSeek ont créé la panique sur le marché. Les investisseurs semblent se demander si la demande pour les puces haut de gamme de Nvidia n'est pas exagérée.
DeepSeek a attiré l’attention en lançant des modèles de langage optimisés grâce à la distillation. En combinant cette approche avec d’autres techniques d’optimisation, DeepSeek a prouvé qu’il est possible de créer des modèles plus légers et efficaces sans sacrifier la qualité des réponses générées.
Leur approche repose sur :
- Une distillation stratégique qui conserve les performances clés du modèle d’origine.
- Un entraînement basé sur des ensembles de données diversifiés afin de maximiser la généralisation.
- L’optimisation des architectures pour s’adapter aux contraintes matérielles tout en restant performantes.
Un modèle économique plus viable pour l’IA
L’une des conséquences majeures de cette avancée est la diminution des coûts d’exploitation des modèles d’IA. Jusqu’à présent, les grandes entreprises comme OpenAI, Google et Meta investissaient des sommes colossales dans des modèles massifs nécessitant des infrastructures complexes et énergivores. Avec la distillation, il devient possible de proposer des alternatives plus économiques et accessibles aux petites entreprises et startups, qui ne disposent pas des mêmes moyens financiers.
Bien que la distillation soit largement utilisée depuis des années, les progrès récents ont conduit les experts de l'industrie à penser que le processus sera de plus en plus une aubaine pour les start-ups qui cherchent des moyens rentables de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Pensez-vous que cette décision est crédible ou pertinente ?