![](https://www.developpez.com/images/logos/intelligence-artificielle2.png)
Des chercheurs ont formé un rival du modèle o1 d'OpenAI pour moins de 50 $
Les chercheurs ont présenté le modèle s1 dans un article publié au début du mois. L'article explique que l'équipe a utilisé une méthode connue sous le nom de « distillation » pour affiner s1 en utilisant les réponses du modèle de Google axé sur le raisonnement, Gemini 2.0 Flash Thinking Experimental. L'équipe cherchait l'approche la plus simple pour obtenir de bonnes performances en matière de raisonnement ainsi qu'une « mise à l'échelle du temps de test ».
En d'autres termes, l'équipe cherchait un moyen de permettre au modèle de « réfléchir » davantage avant de répondre à une question. Le modèle s1 utilise une technique appelée « test-time scaling », qui permet au modèle de « réfléchir » plus longtemps avant de produire une réponse. Comme l'expliquent les chercheurs dans l'article, ils ont également forcé le modèle à poursuivre son raisonnement en ajoutant la mention « Wait » à la réponse du modèle.
Stanford presents:
— Aran Komatsuzaki (@arankomatsuzaki) February 3, 2025
s1: Simple test-time scaling
- Seeks the simplest approach to achieve test-time scaling and strong reasoning performance
- Exceeds o1-preview on competition math questions by up to 27% (MATH and AIME24)
- Model, data, and code are open-source pic.twitter.com/6rpGEid3ei
« Cela peut conduire le modèle à revérifier sa réponse, souvent en corrigeant des étapes de raisonnement incorrectes », indique l'article. Il s'agit là de quelques-unes des percées réalisées dans le cadre du projet o1 d'OpenAI, que DeepSeek et d'autres ont tenté de reproduire par le biais de diverses techniques.
Dans le domaine des grands modèles de langage (LLM), la distillation est le processus de transfert de connaissances d'un grand modèle à un modèle plus petit. Selon plusieurs rapports récents, la startup chinoise DeepSeek a distillé des connaissances à partir des modèles d'OpenAI pour former son modèle d'IA R1.
Selon l'article, les modèles axés sur le raisonnement peuvent être distillés à partir d'un ensemble de données restreint en utilisant un processus appelé réglage fin supervisé (Supervised Fine-Tuning - SFT), dans lequel un modèle est explicitement chargé d'imiter certains comportements dans un ensemble de données.
Le réglage fin supervisé est généralement moins coûteux que la méthode l'apprentissage par renforcement (Reinforcement Learning - RL) de DeepSeek, qui oblige l'IA à trouver des solutions par elle-même. Selon les chercheurs, le réglage fin supervisé est également plus rapide et prend moins de temps.
Comment les chercheurs ont entraîné le modèle s1
Le modèle s1 est basé sur un petit modèle open source prêt à l'emploi du laboratoire d'IA chinois Qwen, propriété d'Alibaba. Pour entraîner s1, les chercheurs ont créé un ensemble de données composé de 59 000 questions, mais ont constaté que cet ensemble de données volumineux n'offrait pas de « gains substantiels ». Ils sont donc revenus à un ensemble de données plus petit de 1 000 questions. L'équipe dit avoir entraîné s1 sur 16 GPU Nvidia H100.
Comme souligné plus haut, les chercheurs ont affiné le modèle s1 en utilisant la dernière version de Gemini 2.0 Flash Experimental de Google, un outil gratuit, mais avec des limites tarifaires journalières. La plateforme permet aux développeurs d'exploiter tout le potentiel de Gemini, y compris les capacités multimodales telles que le traitement de texte, de l'audio et de l'image, ce qui en fait un outil puissant pour l'entraînement de modèles comme S1.
Après l'entraînement de s1, qui a pris moins de 30 minutes, le modèle a affiché d'excellentes performances sur certains benchmarks. Niklas Muennighoff, un chercheur de Stanford qui a travaillé sur le projet, a déclaré à TechCrunch qu'il pourrait louer le calcul nécessaire aujourd'hui pour environ 20 $. Le modèle s1, ainsi que toutes les données et le code utilisés pour l'entraîner, sont disponibles sur GitHub et peuvent être testés par tous.
L'équipe a déclaré : « les avancées récentes en matière de raisonnement, telles que o1 d'OpenAI et R1 de DeepSeek, manquent de transparence, ce qui limite les progrès de la recherche. Notre travail vise à repousser les frontières du raisonnement de manière totalement ouverte, en encourageant l'innovation et la collaboration afin d'accélérer les avancées qui profiteront finalement à la société ». Toutefois, leur étude soulève de nombreuses questions.
Les Big Tech désapprouvent la méthode de distillation de leurs modèles d'IA
La distillation est la même approche que celle utilisée par les chercheurs de Berkeley pour créer un modèle d'IA axé sur le raisonnement pour environ 450 $ en janvier. Pour certains, l'idée que quelques chercheurs ne disposant pas d'un budget de plusieurs millions de dollars puissent encore innover dans le domaine de l'IA est excitante. Cependant, selon certains analystes le modèle s1 soulève des questions sérieuses sur la banalisation des modèles d'IA.
Où est le fossé si quelqu'un peut reproduire fidèlement un modèle de plusieurs millions de dollars avec un peu d'argent de poche ? Sans surprise, les grands laboratoires d'IA ne sont pas contents. OpenAI a accusé DeepSeek de récolter indûment des données de son API à des fins de distillation de modèles.
David Sacks, le nouveau « tsar » de l'IA et des cryptomonnaies du président américain Donald Trump, a également déclaré : « il existe des preuves substantielles que DeepSeek a distillé des connaissances à partir des modèles d'OpenAI, et je ne pense pas qu'OpenAI soit très heureux à ce sujet. Je pense que l'une des choses que vous verrez au cours des prochains mois, c'est que nos principales entreprises d'IA prendront des mesures pour essayer d'empêcher la distillation ».
Les conditions d'utilisation de Google précisent que vous ne pouvez pas utiliser l'API de Gemini pour « développer des modèles qui concurrencent les modèles d'IA de l'entreprise ». Cela signifie que le travail de l'équipe est potentiellement en violation des conditions d'utilisation de la plateforme de Google.
La montée en puissance de modèles d'IA performants à bas coûts
L'émergence des modèles d'IA plus petits et moins chers menace de bouleverser l'ensemble du secteur. Ils pourraient prouver que les grandes entreprises telles que Meta, OpenAI, Microsoft et Google n'ont pas besoin de dépenser des milliards pour former l'IA, tout en construisant des centres de données massifs remplis de milliers de GPU Nvidia. En témoigne la sortie de DeepSeek R1, qui a provoqué la chute brutale des valeurs boursières liées à IA.
Meta, Google et Microsoft prévoient d'investir en 2025 des centaines de milliards de dollars dans l'infrastructure de l'IA, qui servira à former les modèles d'IA de la prochaine génération. Ce niveau d'investissement pourrait encore être nécessaire pour repousser les limites de l'innovation en matière d'IA.
Néanmoins, il est important de souligner que, bien que la distillation s'est avérée être une bonne méthode pour recréer (ou copier) à peu de frais les capacités d'un grand modèle d'IA, elle ne permet pas de créer de nouveaux modèles d'IA bien meilleurs que ceux qui sont disponibles aujourd'hui.
Sources : Rapport de l'étude (PDF), référentiel GitHub du modèle s1
Et vous ?
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
Voir aussi
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)
![:fleche:](https://www.developpez.net/forums/images/smilies/fleche.gif)