Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes

Car o1 réfléchit avant de répondre

Le 13 septembre 2024 à 19:55, par Jade Emy

220PARTAGES

Apprendre à raisonner avec les LLM, avec OpenAI o1, un nouveau LLM formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre, par OpenAI

OpenAI présente OpenAI o1, un nouveau grand modèle de langage (LLM) formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes. Selon OpenAI, o1 réfléchit avant de répondre, c'est-à-dire qu'il peut produire une longue chaîne de pensée interne avant de répondre à l'utilisateur.

Voici la présentation d'OpenAI o1 par OpenAI :

Apprendre à raisonner avec les LLM

OpenAI o1 se classe dans le 89e percentile pour les questions de programmation compétitives (Codeforces), parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades américaines de mathématiques (AIME), et dépasse le niveau de précision d'un doctorat humain sur un benchmark de problèmes de physique, de biologie et de chimie (GPQA). Bien que le travail nécessaire pour rendre ce nouveau modèle aussi facile à utiliser que les modèles actuels soit encore en cours, nous publions une première version de ce modèle, OpenAI o1-preview, pour une utilisation immédiate dans ChatGPT et pour les utilisateurs d'API de confiance.

Notre algorithme d'apprentissage par renforcement à grande échelle apprend au modèle à penser de manière productive en utilisant sa chaîne de pensée dans le cadre d'un processus de formation très efficace en termes de données. Nous avons constaté que les performances de o1 s'améliorent constamment avec plus d'apprentissage par renforcement (calcul du temps de formation) et avec plus de temps passé à réfléchir (calcul du temps de test). Les contraintes liées à la mise à l'échelle de cette approche diffèrent considérablement de celles du préapprentissage LLM, et nous continuons à les étudier.

Evaluation

Pour mettre en évidence l'amélioration du raisonnement par rapport à GPT-4o, nous avons testé nos modèles sur un ensemble varié d'examens humains et de benchmarks ML. Nous montrons que o1 surpasse de manière significative GPT-4o sur la grande majorité de ces tâches de raisonnement. Sauf indication contraire, nous avons évalué o1 dans le cadre d'un calcul à temps de test maximal.

Dans de nombreux benchmarks de raisonnement, o1 rivalise avec les performances des experts humains. Les récents modèles frontières obtiennent de si bons résultats sur MATH2 et GSM8K que ces repères ne sont plus efficaces pour différencier les modèles. Nous avons évalué les performances en mathématiques sur l'AIME, un examen conçu pour mettre à l'épreuve les étudiants en mathématiques les plus brillants des écoles secondaires américaines. Lors des examens AIME 2024, GPT-4o n'a résolu en moyenne que 12 % (1,8/15) des problèmes. o1 a obtenu une moyenne de 74 % (11,1/15) avec un seul échantillon par problème, 83 % (12,5/15) avec un consensus entre 64 échantillons, et 93 % (13,9/15) en reclassant 1 000 échantillons avec une fonction de notation apprise. Un score de 13,9 le place parmi les 500 meilleurs élèves au niveau national et au-dessus du seuil d'admission aux Olympiades de mathématiques des États-Unis.

Nous avons également évalué o1 sur GPQA diamond, un benchmark d'intelligence difficile qui teste l'expertise en chimie, physique et biologie. Afin de comparer les modèles aux humains, nous avons recruté des experts titulaires d'un doctorat pour répondre aux questions du GPQA-diamond. Nous avons constaté que o1 a surpassé les performances de ces experts humains, devenant ainsi le premier modèle à le faire sur ce benchmark. Ces résultats n'impliquent pas que o1 soit plus performant qu'un docteur en tous points, mais seulement que le modèle est plus compétent pour résoudre certains problèmes qu'un docteur devrait résoudre. Sur plusieurs autres benchmarks de ML, o1 s'est amélioré par rapport à l'état de l'art. Avec ses capacités de perception de la vision activées, o1 a obtenu un score de 78,2 % sur MMMU, ce qui en fait le premier modèle à être compétitif par rapport aux experts humains. Il a également surpassé GPT-4o dans 54 des 57 sous-catégories du MMLU.

Chaîne de pensée

À l'instar d'un être humain qui peut réfléchir longuement avant de répondre à une question difficile, o1 utilise une chaîne de pensée lorsqu'il tente de résoudre un problème. Grâce à l'apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à perfectionner les stratégies qu'il utilise. Il apprend à reconnaître et à corriger ses erreurs. Il apprend à décomposer les étapes délicates en étapes plus simples. Il apprend à essayer une approche différente lorsque l'approche actuelle ne fonctionne pas. Ce processus améliore considérablement la capacité de raisonnement du modèle. L'illustration suivant montre l'amélioration que la chaîne de pensée apporte à OpenAI o1-preview par rapport à GPT-4o :

Codage

Nous avons entraîné un modèle qui a obtenu 213 points et s'est classé dans le 49e percentile aux Olympiades internationales d'informatique (IOI) de 2024, en initialisant à partir de o1 et en s'entraînant pour améliorer encore les compétences en programmation. Ce modèle a participé à l'IOI 2024 dans les mêmes conditions que les concurrents humains. Il disposait de dix heures pour résoudre six problèmes algorithmiques difficiles et avait droit à 50 soumissions par problème.

Pour chaque problème, notre système a échantillonné de nombreux candidats et en a soumis 50 sur la base d'une stratégie de sélection basée sur le temps de test. Les soumissions ont été sélectionnées sur la base de la performance sur les cas de test publics de l'IOI, les cas de test générés par le modèle et une fonction de notation apprise. Si nous avions soumis au hasard, nous n'aurions obtenu que 156 points en moyenne, ce qui suggère que cette stratégie valait près de 60 points sous les contraintes de la compétition.

Avec une contrainte de soumission assouplie, nous avons constaté que les performances du modèle s'amélioraient de manière significative. Avec 10 000 soumissions par problème, le modèle a obtenu un score de 362,14 - supérieur au seuil de la médaille d'or - même sans aucune stratégie de sélection du temps de test.

Enfin, nous avons simulé des concours de programmation organisés par Codeforces pour démontrer les compétences de codage de ce modèle. Nos évaluations correspondaient étroitement aux règles du concours et permettaient 10 soumissions. GPT-4o a obtenu une note Elo3 de 808, ce qui correspond au 11e percentile des concurrents humains. Ce modèle a largement dépassé GPT-4o et o1 - il a obtenu une note Elo de 1807, soit une performance supérieure à celle de 93 % des concurrents.

Évaluation des préférences humaines

Outre les examens et les critères académiques, nous avons également évalué la préférence humaine de o1-preview par rapport à GPT-4o sur des questions difficiles et ouvertes dans un large éventail de domaines. Dans cette évaluation, des formateurs humains ont reçu des réponses anonymes à une question posée par o1-preview et GPT-4o, et ont voté pour la réponse qu'ils préféraient. o1-preview est préféré à GPT-4o par une grande marge dans les catégories à forte capacité de raisonnement comme l'analyse de données, le codage et les mathématiques. Cependant, o1-preview n'est pas préféré dans certaines tâches de langage naturel, ce qui suggère qu'il n'est pas adapté à tous les cas d'utilisation.

Sécurité

Le raisonnement par chaîne de pensée offre de nouvelles possibilités d'alignement et de sécurité. Nous avons constaté que l'intégration de nos politiques de comportement du modèle dans la chaîne de pensée d'un modèle de raisonnement est un moyen efficace d'enseigner de manière robuste les valeurs et les principes humains. En enseignant au modèle nos règles de sécurité et la manière de raisonner à leur sujet dans le contexte, nous avons trouvé des preuves que la capacité de raisonnement profite directement à la robustesse du modèle : o1-preview a obtenu des performances considérablement améliorées sur les évaluations clés de jailbreak et nos repères internes les plus durs pour évaluer les limites de refus de la sécurité de notre modèle. Nous pensons que l'utilisation d'une chaîne de pensée offre des avancées significatives en matière de sécurité et d'alignement car (1) elle nous permet d'observer le raisonnement du modèle de manière lisible, et (2) le raisonnement du modèle sur les règles de sécurité est plus robuste face aux scénarios de non-distribution.

Pour tester nos améliorations, nous avons procédé à une série de tests de sécurité et à un red-teaming avant le déploiement, conformément à notre Preparedness Framework (s'ouvre dans une nouvelle fenêtre). Nous avons constaté que le raisonnement en chaîne de pensée a contribué à l'amélioration des capacités dans l'ensemble de nos évaluations. En particulier, nous avons observé des cas intéressants de piratage de récompenses. Les résultats détaillés de ces évaluations sont présentés dans la carte système ci-jointe.

Cacher la chaîne de pensée

Nous pensons qu'une chaîne de pensée cachée présente une opportunité unique pour les modèles de surveillance. En supposant qu'elle soit fidèle et lisible, la chaîne de pensée cachée nous permet de "lire dans l'esprit" du modèle et de comprendre son processus de pensée. Par exemple, à l'avenir, nous pourrions souhaiter surveiller la chaîne de pensée pour y déceler des signes de manipulation de l'utilisateur. Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d'exprimer ses pensées sous une forme inchangée, de sorte que nous ne pouvons pas intégrer à la chaîne de pensée une quelconque conformité à la politique ou aux préférences de l'utilisateur. Nous ne voulons pas non plus qu'une chaîne de pensée non alignée soit directement visible par les utilisateurs.

C'est pourquoi, après avoir évalué plusieurs facteurs, notamment l'expérience de l'utilisateur, l'avantage concurrentiel et la possibilité de poursuivre la surveillance de la chaîne de pensée, nous avons décidé de ne pas montrer les chaînes de pensée brutes aux utilisateurs. Nous reconnaissons que cette décision présente des inconvénients. Nous nous efforçons de compenser partiellement ces inconvénients en apprenant au modèle à reproduire toute idée utile de la chaîne de pensée dans la réponse. Pour la série de modèles o1, nous montrons un résumé de la chaîne de pensée généré par le modèle.

Conclusion

o1 fait progresser de manière significative l'état de l'art en matière de raisonnement IA. Nous prévoyons de publier des versions améliorées de ce modèle au fur et à mesure de notre travail d'itération. Nous pensons que ces nouvelles capacités de raisonnement amélioreront notre capacité à aligner les modèles sur les valeurs et les principes humains. Nous pensons qu'o1 - et ses successeurs - débloqueront de nombreux nouveaux cas d'utilisation de l'IA dans les domaines de la science, du codage, des mathématiques et d'autres domaines connexes. Nous sommes impatients que les utilisateurs et les développeurs d'API découvrent comment l'IA peut améliorer leur travail quotidien.

Source : OpenAI

Et vous ?

Quel est votre avis sur ce nouveau produit d'OpenAI ?

Voir aussi :

OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne. Les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites

Malgré leurs fortes capacités de raisonnement inductif, les LLM ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel"

Des chercheurs ont donné à l'IA un "monologue intérieur" qui a permis d'améliorer considérablement ses performances : Quiet-STaR. Les modèles de langage peuvent apprendre à réfléchir avant de parler

Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

Vous avez lu gratuitement 3 178 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes

Car o1 réfléchit avant de répondre

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes Car o1 réfléchit avant de répondre

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes

Car o1 réfléchit avant de répondre