Le domaine de l'intelligence artificielle (IA) a été témoin d'une exploration et d'un progrès sans précédent des grands modèles de langage (LLM) au cours des deux dernières années. Les LLM ont progressivement évolué pour traiter des tâches de plus en plus sophistiquées telles que la programmation et la résolution de problèmes mathématiques avancés. Le modèle o1 d'OpenAI représente une étape importante dans le domaine de l'intelligence artificielle (IA), qui permet d'obtenir des performances de niveau expert dans de nombreuses tâches difficiles nécessitant un raisonnement solide. OpenAI a affirmé que la principale technique derrière o1 est l'apprentissage par renforcement.
Des travaux récents utilisent des approches alternatives telles que la distillation des connaissances pour imiter le style de raisonnement de o1, mais leur efficacité est limitée par le plafond de capacité du modèle enseignant. Par conséquent, des chercheurs chinois ont analysé et partagé une feuille de route pour atteindre o1 du point de vue de l'apprentissage par renforcement, en se concentrant sur quatre éléments clés : l'initialisation de la politique, la conception de la récompense, la recherche et l'apprentissage.
L'initialisation de la politique permet aux modèles de développer des comportements de raisonnement semblables à ceux des humains, ce qui les dote de la capacité d'explorer efficacement les espaces de solution pour les problèmes complexes. La conception des récompenses fournit des signaux denses et efficaces par le biais de la mise en forme des récompenses ou de la modélisation des récompenses, qui sert de guide à la fois pour la recherche et l'apprentissage.
La recherche joue un rôle crucial dans la génération de solutions de haute qualité au cours des phases de formation et de test, qui peuvent produire de meilleures solutions avec davantage de calculs. L'apprentissage utilise les données générées par la recherche pour améliorer la politique, ce qui permet d'obtenir de meilleures performances avec davantage de paramètres et de données recherchées.
Selon les chercheurs, les projets open-source existants qui tentent de reproduire o1 peuvent être considérés comme une partie ou une variante de cette feuille de route. Ils affirment que, collectivement, ces composants soulignent comment l'apprentissage et la recherche conduisent à l'avancement de o1, apportant des contributions significatives au développement des grands modèles de langage (LLM).
Impication de cette feuille de route pour OpenAIStep-by-step blueprint reveals how to recreate OpenAI's o1's reasoning abilities from scratch.
— Rohan Paul (@rohanpaul_ai) December 27, 2024
This paper presents a roadmap to reproduce OpenAI's o1 model using reinforcement learning, focusing on policy initialization, reward design, search, and learning components.
-----
🤔… pic.twitter.com/pTAz9Yo5lg
Pour différents chercheurs en IA, le modèle o1 d'OpenAI est un modèle référence pour une IA capable de raisonner et d'effectuer différentes tâches. Un ingénieur d'OpenAI a même déclaré que l'AGI est "déjà atteinte", notamment "avec o1". Il a affirmé : "Nous ne sommes pas parvenus à « faire mieux que n'importe quel humain pour n'importe quelle tâche », mais à « faire mieux que la plupart des humains pour la plupart des tâches »."
Cette affirmation soulève les débats sur la véritable définition de l'AGI. Même OpenAI, qui possède une certaine avance dans le domaine de l'IA, reste flou sur le sujet. La définition publique qu'OpenAI donne à l'AGI la décrit comme "un système hautement autonome qui surpasse les humains dans la plupart des travaux économiquement valables". Mais depuis l'accord de financement de plusieurs milliards de dollars entre OpenAI et Microsoft, cette définition a changé. Selon des documents, OpenAI et Microsoft ont défini conjointement l'AGI comme un système pouvant générer 100 milliards de dollars de bénéfices. L'AGI serait-elle donc basée sur les bénéfices de la startup d'IA ?
La question qui se pose également est : est-ce que cette découverte pourrait secouer OpenAI ? En tout cas, cette nouvelle étude et les études suivantes dans sa lignée devraient permettre d'améliorer les modèles d'IA futurs. Les chercheurs ont notamment conclu leurs découvertes dans ce sens :
Nous présentons une feuille de route pour reproduire o1 du point de vue de l'apprentissage par renforcement, en mettant l'accent sur des éléments clés tels que l'initialisation de la politique, la conception des récompenses, la recherche et l'apprentissage. Nous proposons une étude complète de ces composants et montrons que les projets open-source existants qui tentent de reproduire o1 sont des variations de notre feuille de route. Enfin, nous espérons que cette feuille de route inspirera d'autres recherches visant à surmonter les difficultés liées à la reproduction de o1.
Voici les points essentiels de l'étude :
Feuille de route pour reproduire o1 du point de vue de l'apprentissage par renforcement
Le modèle o1 d'OpenAI peut générer des processus de raisonnement très longs et mener des actions de raisonnement semblables à celles des humains, comme la clarification et la décomposition de questions, la réflexion et la correction d'erreurs antérieures, l'exploration de nouvelles solutions lorsque l'on rencontre des modes d'échec. Le modèle o1 a dépassé les capacités de raisonnement des LLM précédents, atteignant des performances comparables à celles d'un doctorat. Ses remarquables performances en matière de raisonnement témoignent de la progression d'OpenAI vers la deuxième étape ("Raisonneur") de sa feuille de route en cinq étapes vers l'Intelligence Générale Artificielle (AGI).
Les informations partagées par OpenAI et la carte système de o1 démontrent que les performances de o1 s'améliorent constamment avec l'augmentation du calcul de l'apprentissage par renforcement et de l'inférence. Cela suggère que o1 pourrait conduire à deux changements de paradigme dans l'IA : de l'apprentissage (auto)supervisé vers l'apprentissage par renforcement, et de la mise à l'échelle du calcul d'entraînement uniquement vers la mise à l'échelle du calcul d'entraînement et d'inférence. o1 augmente le calcul du temps de formation avec l'apprentissage par renforcement et le calcul du temps de test avec plus de réflexion.
Pour mettre en œuvre le processus de réflexion de o1, les chercheurs ont pris la recherche comme moyen. En effet, la recherche est évolutive et il existe de nombreuses études réussies qui utilisent la recherche pour l'entraînement et la décision dans l'apprentissage par renforcement, comme AlphaGo et AlphaGo Zero. Les chercheurs ont donc mis l'apprentissage par renforcement au cœur de la feuille de route pour atteindre o1. La feuille de route se compose de quatre éléments : l'initialisation de la politique, la conception des récompenses, la recherche et l'apprentissage.
Illustration de la feuille de route
Initialisation de la politique
Dans le contexte des LLM, la politique se réfère typiquement à la distribution de probabilité pour générer le prochain jeton/étape/réponse (action) basé sur un contexte donné (état). L'initialisation de la politique apporte aux LLM des comportements de raisonnement de type humain, comme la composition de tâches, l'auto-évaluation et l'autocorrection.
La formation d'un LLM à partir de zéro à l'aide de l'apprentissage par renforcement est exceptionnellement difficile en raison de son vaste espace d'action. Heureusement, il est possible d'exploiter de nombreuses données Internet pour pré-entraîner un modèle de langage, en établissant un modèle de politique initial puissant capable de générer des sorties de langage fluides.
En outre, l'ingénierie rapide et le réglage fin supervisé aident les modèles à acquérir des comportements de raisonnement semblables à ceux des humains, ce qui leur permet de penser de manière systématique et de valider leurs propres résultats. Ces approches permettent aux modèles d'explorer en profondeur leurs espaces de solution, ce qui conduit à des capacités de résolution de problèmes plus complètes.
Processus d'Initialisation de la politique
Conception de la récompense
La conception de la récompense vise à fournir des signaux d'orientation pour la recherche et l'apprentissage. La conception de la récompense peut prendre ou remodeler le signal de récompense de l'environnement ou apprendre un modèle de récompense à partir des données de préférence. L'initialisation de la politique et la conception des récompenses sont toutes deux des préparations à la recherche et à l'apprentissage.
En effet, la recherche et l'apprentissage nécessitent des signaux de récompense pour améliorer la politique. Il existe différents niveaux de granularité des actions, chacun correspondant à différents niveaux de granularité des signaux de récompense, qui peuvent être explorés plus avant. En outre, ces signaux sont souvent peu nombreux, voire inexistants, dans de nombreux environnements.
Pour transformer une récompense de résultat clairsemée en une récompense de processus dense, il existe des méthodes de mise en forme de la récompense. Pour les environnements où le signal de récompense n'est pas disponible, comme la tâche d'écriture d'une histoire, il est possible d'apprendre un modèle de récompense à partir de données de préférence ou de données d'experts. La construction d'un modèle de récompense peut ensuite évoluer vers la construction d'un modèle mondial.
Différence entre la récompense de résultat et la récompense de processus
Recherche
La recherche joue un rôle crucial pendant les phases de formation et de test. La recherche pendant le temps de formation fait référence à la génération de données de formation à partir du processus de recherche. L'avantage d'utiliser la recherche pour générer des données de formation, par opposition à un simple échantillonnage, est que la recherche produit de meilleures actions ou solutions, c'est-à-dire des données de formation de meilleure qualité, améliorant ainsi l'efficacité de l'apprentissage.
Pendant l'inférence, la recherche continue à jouer un rôle essentiel dans l'amélioration des politiques sous-optimales du modèle. Par exemple, AlphaGo utilise la recherche arborescente Monte Carlo (MCTS) pendant les tests pour améliorer ses performances. Cependant, la mise à l'échelle de la recherche pendant les tests peut entraîner une mise à l'échelle inverse en raison du changement de distribution : les modèles de politique, de récompense et de valeur sont formés sur une distribution, mais évalués sur une autre.
Diagramme de la recherche
Apprentissage
L'apprentissage utilise les données générées par la recherche pour améliorer la politique. L'apprentissage à partir de données d'experts humains nécessite une annotation coûteuse des données. En revanche, l'apprentissage par renforcement apprend par le biais d'interactions avec l'environnement, ce qui élimine la nécessité d'une annotation coûteuse des données et offre la possibilité de performances surhumaines.
Dans cette feuille de route, l'apprentissage par renforcement utilise les données générées par la recherche pour l'apprentissage via le gradient de politique ou le clonage de comportement. Les méthodes de gradient de politique utilisent beaucoup de données, car elles exploitent à la fois les solutions positives et négatives, tandis que le clonage de comportement est avantageux en termes de simplicité et d'efficacité de la mémoire.
Un exemple marquant de l'interaction itérative entre la recherche et l'apprentissage est AlphaGo Zero, qui combine la recherche arborescente de Monte Carlo (MCTS) comme algorithme de recherche et le clonage de comportement comme méthode d'apprentissage, pour finalement atteindre des performances surhumaines dans le jeu de Go.
Méthodes d'apprentissage
Source : "Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective"
Et vous ?
Pensez-vous que cette feuille de route pour reproduire o1 est crédible ou pertinente ?
Quel est votre avis sur cette étude ?
Voir aussi :
OpenAI menace de bannir ceux qui tentent de découvrir le processus de raisonnement de son IA «Strawberry», craignant la concurrence. Toutefois, son IA a été formée gratuitement sur du matériel sous copyright
Les 25 prédictions en matière d'IA pour 2025, par Gary Marcus, professeur émérite à l'université de New York et fondateur de Geometric Intelligence, une société spécialisée dans l'apprentissage automatique
Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre
Annonce du Prix ARC : un concours de plus d'un million de dollars pour les progrès de l'AGI open-source, car une approche open-source permettrait de générer de nouvelles idées pour atteindre l'AGI