Des chercheurs chinois ont partagé un plan détaillé pour reproduire les capacités de raisonnement du modèle o1 d'OpenAI. La feuille de route se concentre sur quatre éléments clés : l'initialisation de la politique, la conception de la récompense, la recherche et l'apprentissage. Selon les chercheurs, les projets open-source existants qui tentent de reproduire o1 peuvent être considérés comme une partie ou une variante de cette feuille de route. Mais est-ce que cette découverte pourrait secouer OpenAI ?Le domaine de l'intelligence artificielle (IA) a été témoin d'une exploration et d'un progrès sans précédent des grands modèles de langage (LLM) au cours des deux dernières années. Les LLM ont progressivement évolué pour traiter des tâches de plus en plus sophistiquées telles que la programmation et la résolution de problèmes mathématiques avancés. Le modèle o1 d'OpenAI représente une étape importante dans le domaine de l'intelligence artificielle (IA), qui permet d'obtenir des performances de niveau expert dans de nombreuses tâches difficiles nécessitant un raisonnement solide. OpenAI a affirmé que la principale technique derrière o1 est l'apprentissage par renforcement.
Des travaux récents utilisent des approches alternatives telles que la distillation des connaissances pour imiter le style de raisonnement de o1, mais leur efficacité est limitée par le plafond de capacité du modèle enseignant. Par conséquent, des chercheurs chinois ont analysé et partagé une feuille de route pour atteindre o1 du point de vue de l'apprentissage par renforcement, en se concentrant sur quatre éléments clés : l'initialisation de la politique, la conception de la récompense, la recherche et l'apprentissage.
L'initialisation de la politique permet aux modèles de développer des comportements de raisonnement semblables à ceux des humains, ce qui les dote de la capacité d'explorer efficacement les espaces de solution pour les problèmes complexes. La conception des récompenses fournit des signaux denses et efficaces par le biais de la mise en forme des récompenses ou de la modélisation des récompenses, qui sert de guide à la fois pour la recherche et l'apprentissage.
La recherche joue un rôle crucial dans la génération de solutions de haute qualité au cours des phases de formation et de test, qui peuvent produire de meilleures solutions avec davantage de calculs. L'apprentissage utilise les données générées par la recherche pour améliorer la politique, ce qui permet d'obtenir de meilleures performances avec davantage de paramètres et de données recherchées.
Selon les chercheurs, les projets open-source existants qui tentent de reproduire o1 peuvent être considérés comme une partie ou une variante de cette feuille de route. Ils affirment que, collectivement, ces composants soulignent comment l'apprentissage et la recherche conduisent à l'avancement de o1, apportant des contributions significatives au développement des grands modèles de langage (LLM).
Impication de cette feuille de route pour OpenAIStep-by-step blueprint reveals how to recreate OpenAI's o1's reasoning abilities from scratch.
— Rohan Paul (@rohanpaul_ai) December 27, 2024
This paper presents a roadmap to reproduce OpenAI's o1 model using reinforcement learning, focusing on policy initialization, reward design, search, and learning components.
-----
🤔… pic.twitter.com/pTAz9Yo5lg
Pour différents chercheurs en IA, le modèle o1 d'OpenAI est un modèle référence pour une IA capable de raisonner et d'effectuer différentes tâches. Un ingénieur d'OpenAI a même déclaré que l'AGI est "déjà atteinte", notamment "avec o1". Il a affirmé : "Nous ne sommes pas parvenus à « faire mieux que n'importe quel humain pour n'importe quelle tâche », mais à « faire mieux que la plupart des humains pour la plupart des tâches »."
Cette affirmation soulève les débats sur la véritable définition de l'AGI. Même OpenAI, qui possède une certaine avance dans le domaine de l'IA, reste flou sur le sujet. La définition publique qu'OpenAI donne à l'AGI la décrit comme "un système hautement autonome qui surpasse les humains dans la plupart des travaux économiquement valables". Mais depuis l'accord de financement de plusieurs milliards de dollars entre OpenAI et Microsoft, cette définition a changé. Selon des documents, OpenAI et Microsoft ont défini conjointement l'AGI comme un système pouvant générer 100 milliards de dollars de bénéfices. L'AGI serait-elle donc basée sur les bénéfices de la startup d'IA ?
La question qui se pose également est : est-ce que cette découverte pourrait secouer OpenAI ? En tout cas, cette nouvelle étude et les études suivantes dans sa lignée devraient permettre d'améliorer les modèles d'IA futurs. Les chercheurs ont notamment conclu leurs découvertes dans ce sens :
Nous présentons une feuille de route pour reproduire o1 du point de vue de l'apprentissage par renforcement, en mettant l'accent sur des éléments clés tels que l'initialisation de la politique, la conception des récompenses, la recherche et l'apprentissage. Nous proposons une étude complète de ces composants et montrons que les projets open-source existants qui tentent de reproduire o1 sont des variations de notre feuille de route. Enfin, nous espérons que cette feuille de route inspirera d'autres recherches visant à surmonter les difficultés liées à la reproduction de o1.
Voici les points essentiels de l'étude :
Feuille de route pour reproduire o1 du point de vue de l'apprentissage par renforcement[...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.