Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source,

Après que des chercheurs ont créé un équivalent ouvert du modèle o1 d'OpenAI pour seulement 50 $

Le 7 février 2025 à 17:53, par Mathis Lucas

57PARTAGES

Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source
après que des chercheurs ont créé un équivalent ouvert du modèle o1 d'OpenAI pour seulement 50 $

Les chercheurs de Hugging Face ont présenté un nouveau modèle appelé « Open Deep Research ». Il s'agit d'un clone du dernier modèle « Deep Research », un agent d'IA capable de sonder le Web en profondeur de manière autonome et de proposer des rapports de recherche détaillés sur un sujet donné. L'équipe dit avoir créé Open Deep Research en seulement 24 heures et a déclaré qu'il affiche des performances proches de celles du modèle original d'OpenAI. L'équipe estime que le projet vise à égaler les performances de Deep Research tout en mettant la technologie gratuitement à la disposition des développeurs. Le code est disponible sur GitHub.

Deep Research d'OpenAI est cloné seulement 24 heures après sa sortie

OpenAI a lancé Deep Research le 2 février 2025 et a déclaré qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain. « Deep Research peut travailler pour vous de manière indépendante ; vous lui donnez un ordre et ChatGPT trouvera, analysera et synthétisera des centaines de sources en lignes pour créer un rapport complet du niveau d'un analyste de recherche », a expliqué OpenAI à propos de son nouveau modèle.

L'équipe de Hugging Face s'est dite « époustouflée » par ce modèle d'IA après l'avoir essayé. Les chercheurs de Hugging Face ont donc décidé de reproduire (copier) Deep Research et de mettre le résultat à la disposition de tout le monde gratuitement. C'est ce qu'ils ont réussi à faire en seulement 24 heures.

Une équipe de chercheurs de l'université de Stanford et de l'université de Washington a récemment annoncé avoir formé un modèle d'IA axé sur le raisonnement en moins d'une demi-heure et pour moins de 50 $. Ils ont utilisé la méthode controversée de « distillation » désapprouvée par certains Big Tech.

Envoyé par L'équipe de recherche de Hugging Face

Alors que de puissants LLM sont désormais disponibles en open source, OpenAI n'a pas divulgué beaucoup d'informations sur le cadre agentique qui sous-tend Deep Research. Nous avons donc décidé de nous lancer dans une mission de 24 heures pour reproduire leurs résultats et rendre open source le cadre nécessaire en cours de route.

À l'instar de Deep Research d'OpenAI, la solution de Hugging Face ajoute un agent à un modèle d'IA existant pour lui permettre d'effectuer des tâches en plusieurs étapes, telles que la collecte d'informations et l'élaboration au fur et à mesure d'un rapport qu'il présente à l'utilisateur à la fin.

Le clone open source obtient déjà des résultats comparables. Open Deep Research de Hugging Face a atteint une précision de 55,15 % sur le benchmark General AI Assistants (GAIA), qui teste la capacité d'un modèle à rassembler et à synthétiser des informations provenant de sources multiples.

À titre de comparaison, le modèle propriétaire Deep Research d'OpenAI a obtenu une précision de 67,36 % sur le même benchmark avec une réponse en un seul passage (le score d'OpenAI est passé à 72,57 % lorsque 64 réponses ont été combinées à l'aide d'un mécanisme de consensus).

Comment est construit le modèle Open Deep Research de Hugging Face

Un agent d'IA n'est rien sans un modèle d'IA existant à la base. Pour l'instant, Open Deep Research s'appuie sur les grands modèles de langage d'OpenAI (tels que GPT-4o) ou les modèles axés sur le raisonnement (tels que o1 et o3-mini) par le biais d'une API. Mais il peut aussi être adapté aux modèles à poids ouvert.

La nouveauté réside dans la structure agentique qui maintient l'ensemble et permet à un modèle de langage d'IA d'effectuer une tâche de recherche de manière autonome. Aymeric Roucher, de Hugging Face, qui dirige le projet Open Deep Research, a déclaré que l'équipe a choisi d'utiliser un modèle fermé (Deep Research d'OpenAI) simplement parce qu'il fonctionnait bien. L'équipe a expliqué tout le processus de développement et le code a été publié.

Il est possible d'utiliser également des modèles open source. « Il est possible de passer à n'importe quel autre modèle, de sorte qu'il prend en charge un pipeline entièrement ouvert. J'ai essayé un certain nombre de LLM, y compris [DeepSeek] R1 et o3-mini. Et pour ce cas d'utilisation, c'est o1 qui a le mieux fonctionné. Mais avec l'initiative open-R1 que nous avons lancée, nous pourrions remplacer o1 par un meilleur modèle ouvert », a-t-il déclaré.

Bien que le modèle au cœur de l'agent de recherche soit important, Open Deep Research montre que la construction de la bonne couche agentique est essentielle, car les benchmarks montrent que l'approche agentique en plusieurs étapes améliore considérablement la capacité des grands modèles de langage : GPT-4o d'OpenAI seul (sans cadre agentique) obtient un score moyen de 29 % sur le benchmark GAIA, contre 67 % pour OpenAI Deep Research.

Selon Aymeric Roucher, c'est un élément essentiel de la reproduction de Hugging Face qui permet au projet de fonctionner aussi bien. Ils ont utilisé la bibliothèque open source « smolagents » de Hugging Face, qui utilise ce qu'ils appellent des « agents de code » plutôt que des agents basés sur JSON.

Ces agents de code écrivent leurs actions en code de programmation, ce qui les rendrait 30 % plus efficaces dans l'accomplissement des tâches. Selon les chercheurs, cette approche permet au système de gérer des séquences d'actions complexes de manière plus concise.

Évolution potentielle du projet Open Deep Research de Hugging Face

Bien que le projet open source Open Deep Research n'atteigne pas encore les performances du modèle propriétaire Deep Research d'OpenAI, sa publication permet aux développeurs d'étudier et de modifier librement la technologie. Le projet démontre la capacité de la communauté des chercheurs à reproduire rapidement et à partager ouvertement des capacités d'IA qui n'étaient auparavant disponibles que par l'intermédiaire de fournisseurs commerciaux.

Selon Aymeric Roucher, les améliorations futures du modèle pourraient inclure la prise en charge d'un plus grand nombre de formats de fichiers et des capacités de navigation sur le Web basées sur la vision. Hugging Face travaille déjà sur le clonage du modèle Operator d'OpenAI, qui peut effectuer d'autres types de tâches (telles que la visualisation d'écrans d'ordinateur et le contrôle des entrées de souris et de clavier) dans un environnement de navigateur Web.

Hugging Face a publié le code du projet Open Deep Research sur GitHub et a ouvert des postes d'ingénieurs pour aider à développer les capacités du projet. « La réponse a été formidable. Nous avons beaucoup de nouveaux contributeurs qui participent et proposent des ajouts », a déclaré Aymeric Roucher.

« C'est un peu comme attraper la vague en surfant, la communauté est vraiment une force puissante », a-t-il ajouté.

Des chercheurs ont formé un rival du modèle o1 d'OpenAI pour moins de 50 $

Des chercheurs de Stanford et de l'université de Washington ont formé un modèle d'IA axé sur le raisonnement en moins d'une demi-heure et pour moins de 50 $. Le modèle, appelé s1, serait à la hauteur de certains des meilleurs modèles, comme o1 d'OpenAI et R1 de la startup chinoise DeepSeek, en particulier en ce qui concerne les compétences en mathématique et en codage. L'équipe a utilisé la « distillation » pour puiser dans le modèle Gemini de Google.

Les chercheurs ont présenté le modèle s1 dans un article publié au début du mois. L'article explique que l'équipe a utilisé une méthode connue sous le nom de « distillation » pour affiner s1 en utilisant les réponses du modèle de Google axé sur le raisonnement, Gemini 2.0 Flash Thinking Experimental. L'équipe cherchait l'approche la plus simple pour obtenir de bonnes performances en matière de raisonnement ainsi qu'une « mise à l'échelle du temps de test ».

En d'autres termes, l'équipe cherchait un moyen de permettre au modèle de « réfléchir » davantage avant de répondre à une question. Le modèle s1 utilise une technique appelée « test-time scaling », qui permet au modèle de « réfléchir » plus longtemps avant de produire une réponse. Comme l'expliquent les chercheurs dans l'article, ils ont également forcé le modèle à poursuivre son raisonnement en ajoutant la mention « Wait » à la réponse du modèle.

« Cela peut conduire le modèle à revérifier sa réponse, souvent en corrigeant des étapes de raisonnement incorrectes », indique l'article. Il s'agit là de quelques-unes des percées réalisées dans le cadre du projet o1 d'OpenAI, que DeepSeek et d'autres ont tenté de reproduire par le biais de diverses techniques.

Dans le domaine des grands modèles de langage (LLM), la distillation est le processus de transfert de connaissances d'un grand modèle à un modèle plus petit. Selon plusieurs rapports récents, la startup chinoise DeepSeek a distillé des connaissances à partir des modèles d'OpenAI pour former son modèle d'IA R1.

Selon l'article, les modèles axés sur le raisonnement peuvent être distillés à partir d'un ensemble de données restreint en utilisant un processus appelé réglage fin supervisé (Supervised Fine-Tuning - SFT), dans lequel un modèle est explicitement chargé d'imiter certains comportements dans un ensemble de données.

Le réglage fin supervisé est généralement moins coûteux que la méthode d'apprentissage par renforcement (Reinforcement Learning - RL) de DeepSeek, qui oblige l'IA à trouver des solutions par elle-même. Selon les chercheurs, le réglage fin supervisé est également plus rapide et prend moins de temps.

L'émergence de DeepSeek et des modèles d'IA très performants à bas coûts

DeepSeek est devenue l'une des principales applications d'IA sur l'App Store d'Apple aux États-Unis et a bouleversé l'industrie technologique en affirmant que son modèle coûte beaucoup moins cher à développer que ses concurrents. Cela a entraîné une chute brutale des cours des actions technologiques américaines. DeepSeek a remis en cause le besoin d'investissements colossaux et d'infrastructures gigantesques dans le développement de modèles d'IA puissants.

L'avantage tarifaire de l'application reste significatif. Le modèle de DeepSeek n'aurait coûté qu'une fraction de l'argent que les géants américains avaient dépensé pour construire leurs propres modèles. Certains critiques ont plaisanté en disant : « je n'arrive pas à croire que ChatGPT a perdu son emploi à cause de l'IA ».

Selon les analystes de Jefferies, même en cas d'interdiction totale aux États-Unis, l'impact de DeepSeek sur la baisse des coûts de l'IA persistera, car les entreprises américaines s'efforcent de reproduire sa technologie. Un rapport indique que Meta a créé plusieurs cellules de crise pour disséquer DeepSeek.

L'émergence des modèles d'IA plus petits et moins chers menace de bouleverser l'ensemble du secteur. Ils pourraient prouver que les grandes entreprises telles que Meta et OpenAI n'ont pas besoin de dépenser des milliards pour former l'IA, avec des centres de données massifs remplis de milliers de GPU Nvidia.

Meta, Google et Microsoft prévoient d'investir en 2025 des centaines de milliards de dollars dans l'infrastructure de l'IA, qui servira à former les modèles d'IA de la prochaine génération. Ce niveau d'investissement pourrait encore être nécessaire pour repousser les limites de l'innovation en matière d'IA.

Néanmoins, il est important de souligner que, bien que la distillation s'est avérée être une bonne méthode pour recréer (ou copier) à peu de frais les capacités d'un grand modèle d'IA, elle ne permet pas de créer de nouveaux modèles d'IA bien meilleurs que ceux qui sont disponibles aujourd'hui.

Sources : Hugging Face, Open Deep Research

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du modèle open source Open Deep Research de Hugging Face ?

Quels impacts la publication du modèle Open Deep Research pourrait-elle avoir sur OpenAI ?

Les consommateurs voudront-ils encore payer pour accéder au modèle payant Deep Research d'OpenAI ?

Que pensez-vous de la méthode de distillation utilisée pour reproduire les performances des grands modèles de langage (LLM) ?

Quels impacts les modèles développés à partir de la distillation pourraient avoir sur les grands laboratoires d'IA ?

Voir aussi

Des chercheurs ont créé un équivalent open source au modèle de « raisonnement » o1 d'OpenAI pour moins de 50 $, en utilisant la méthode controversée de « distillation » désapprouvée par certains Big Tech

OpenAI annonce un nouvel agent ChatGPT de "recherche approfondie", alimenté par le dernier modèle o3, affirmant qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain

Avec l'apprentissage par renforcement, le LLM open source DeepSeek-R1 correspondrait à o1 d'OpenAI pour 95 % moins cher. R1 est déjà numéro un des téléchargements Apple Store, suivi par ChatGPT

Vous avez lu gratuitement 3 530 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source,

Après que des chercheurs ont créé un équivalent ouvert du modèle o1 d'OpenAI pour seulement 50 $

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source, Après que des chercheurs ont créé un équivalent ouvert du modèle o1 d'OpenAI pour seulement 50 $

Hugging Face clone l'agent d'IA « Deep Research » d'OpenAI en 24 heures et rend le résultat open source,

Après que des chercheurs ont créé un équivalent ouvert du modèle o1 d'OpenAI pour seulement 50 $