
Deep Research d'OpenAI est cloné seulement 24 heures après sa sortie
OpenAI a lancé Deep Research le 2 février 2025 et a déclaré qu'il accomplit en quelques dizaines de minutes ce qui prendrait de nombreuses heures à un humain. « Deep Research peut travailler pour vous de manière indépendante ; vous lui donnez un ordre et ChatGPT trouvera, analysera et synthétisera des centaines de sources en lignes pour créer un rapport complet du niveau d'un analyste de recherche », a expliqué OpenAI à propos de son nouveau modèle.
L'équipe de Hugging Face s'est dite « époustouflée » par ce modèle d'IA après l'avoir essayé. Les chercheurs de Hugging Face ont donc décidé de reproduire (copier) Deep Research et de mettre le résultat à la disposition de tout le monde gratuitement. C'est ce qu'ils ont réussi à faire en seulement 24 heures.
Une équipe de chercheurs de l'université de Stanford et de l'université de Washington a récemment annoncé avoir formé un modèle d'IA axé sur le raisonnement en moins d'une demi-heure et pour moins de 50 $. Ils ont utilisé la méthode controversée de « distillation » désapprouvée par certains Big Tech.

Le clone open source obtient déjà des résultats comparables. Open Deep Research de Hugging Face a atteint une précision de 55,15 % sur le benchmark General AI Assistants (GAIA), qui teste la capacité d'un modèle à rassembler et à synthétiser des informations provenant de sources multiples.
À titre de comparaison, le modèle propriétaire Deep Research d'OpenAI a obtenu une précision de 67,36 % sur le même benchmark avec une réponse en un seul passage (le score d'OpenAI est passé à 72,57 % lorsque 64 réponses ont été combinées à l'aide d'un mécanisme de consensus).
Comment est construit le modèle Open Deep Research de Hugging Face
Un agent d'IA n'est rien sans un modèle d'IA existant à la base. Pour l'instant, Open Deep Research s'appuie sur les grands modèles de langage d'OpenAI (tels que GPT-4o) ou les modèles axés sur le raisonnement (tels que o1 et o3-mini) par le biais d'une API. Mais il peut aussi être adapté aux modèles à poids ouvert.
La nouveauté réside dans la structure agentique qui maintient l'ensemble et permet à un modèle de langage d'IA d'effectuer une tâche de recherche de manière autonome. Aymeric Roucher, de Hugging Face, qui dirige le projet Open Deep Research, a déclaré que l'équipe a choisi d'utiliser un modèle fermé (Deep Research d'OpenAI) simplement parce qu'il fonctionnait bien. L'équipe a expliqué tout le processus de développement et le code a été publié.
Il est possible d'utiliser également des modèles open source. « Il est possible de passer à n'importe quel autre modèle, de sorte qu'il prend en charge un pipeline entièrement ouvert. J'ai essayé un certain nombre de LLM, y compris [DeepSeek] R1 et o3-mini. Et pour ce cas d'utilisation, c'est o1 qui a le mieux fonctionné. Mais avec l'initiative open-R1 que nous avons lancée, nous pourrions remplacer o1 par un meilleur modèle ouvert », a-t-il déclaré.
Bien que le modèle au cœur de l'agent de recherche soit important, Open Deep Research montre que la construction de la bonne couche agentique est essentielle, car les benchmarks montrent que l'approche agentique en plusieurs étapes améliore considérablement la capacité des grands modèles de langage : GPT-4o d'OpenAI seul (sans cadre agentique) obtient un score moyen de 29 % sur le benchmark GAIA, contre 67 % pour OpenAI Deep Research.
Selon Aymeric Roucher, c'est un élément essentiel de la reproduction de Hugging Face qui permet au projet de fonctionner aussi bien. Ils ont utilisé la bibliothèque open source « smolagents » de Hugging Face, qui utilise ce qu'ils appellent des « agents de code » plutôt que des agents basés sur JSON.
Ces agents de code écrivent leurs actions en code de programmation, ce qui les rendrait 30 % plus efficaces dans l'accomplissement des tâches. Selon les chercheurs, cette approche permet au système de gérer des séquences d'actions complexes de manière plus concise.
Évolution potentielle du projet Open Deep Research de Hugging Face
Bien que le projet open source Open Deep Research n'atteigne pas encore les performances du modèle propriétaire Deep Research d'OpenAI, sa publication permet aux développeurs d'étudier et de modifier librement la technologie. Le projet démontre la capacité de la communauté des chercheurs à reproduire rapidement et à partager ouvertement des capacités d'IA qui n'étaient auparavant disponibles que par l'intermédiaire de fournisseurs commerciaux.
Selon Aymeric Roucher, les améliorations futures du modèle pourraient inclure la prise en charge d'un plus grand nombre de formats de fichiers et des capacités de navigation sur le Web basées sur la vision. Hugging Face travaille déjà sur le clonage du modèle Operator d'OpenAI, qui peut effectuer d'autres types de tâches (telles que la visualisation d'écrans d'ordinateur et le contrôle des entrées de souris et de clavier) dans un environnement de navigateur Web.
Hugging Face a publié le code du projet Open Deep Research sur GitHub et a ouvert des postes d'ingénieurs pour aider à développer les capacités du projet. « La réponse a été formidable. Nous avons beaucoup de nouveaux contributeurs qui participent et proposent des ajouts », a déclaré Aymeric Roucher.
« C'est un peu comme attraper la vague en surfant, la communauté est vraiment une force puissante », a-t-il ajouté.
Des chercheurs ont formé un rival du modèle o1 d'OpenAI pour moins de 50 $
Des chercheurs de Stanford et de l'université de Washington ont formé un modèle d'IA axé sur le raisonnement en moins d'une demi-heure et pour moins de 50 $. Le modèle, appelé s1, serait à la hauteur de certains des meilleurs modèles, comme o1 d'OpenAI et R1 de la startup chinoise DeepSeek, en particulier en ce qui concerne les compétences en mathématique et en codage. L'équipe a utilisé la « distillation » pour puiser dans le modèle Gemini de Google.
Les chercheurs ont présenté le modèle s1 dans un article publié au début du mois. L'article explique que l'équipe a utilisé une méthode connue sous le nom de « distillation » pour affiner s1 en utilisant les réponses du modèle de Google axé sur le raisonnement, Gemini 2.0 Flash Thinking Experimental. L'équipe cherchait l'approche la plus simple pour obtenir de bonnes performances en matière de raisonnement ainsi qu'une « mise à l'échelle du temps de test ».
En d'autres termes, l'équipe cherchait un moyen de permettre au modèle de « réfléchir » davantage avant de répondre à une question. Le modèle s1 utilise une technique appelée « test-time scaling », qui permet au modèle de « réfléchir » plus longtemps avant de produire une réponse. Comme l'expliquent les chercheurs dans l'article, ils ont également forcé le modèle à poursuivre son raisonnement en ajoutant la mention « Wait » à la réponse du modèle.
« Cela peut conduire le modèle à revérifier sa réponse, souvent en corrigeant des étapes de raisonnement incorrectes », indique l'article. Il s'agit là de quelques-unes des percées réalisées dans le cadre du projet o1 d'OpenAI, que DeepSeek et d'autres ont tenté de reproduire par le biais de diverses techniques.
Dans le domaine des grands modèles de langage (LLM), la distillation est le processus de transfert de connaissances d'un grand modèle à un modèle plus petit. Selon plusieurs rapports récents, la startup chinoise DeepSeek a distillé des connaissances à partir des modèles d'OpenAI pour former son modèle d'IA R1.
Selon l'article, les modèles axés sur le raisonnement peuvent être distillés à partir d'un ensemble de données restreint en utilisant un processus appelé réglage fin supervisé (Supervised Fine-Tuning - SFT), dans lequel un modèle est explicitement chargé d'imiter certains comportements dans un ensemble de données.
Le réglage fin supervisé est généralement moins coûteux que la méthode d'apprentissage par renforcement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.