OpenAI présente OpenAI o1, un nouveau grand modèle de langage (LLM) formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes. Selon OpenAI, o1 réfléchit avant de répondre, c'est-à-dire qu'il peut produire une longue chaîne de pensée interne avant de répondre à l'utilisateur.Voici la présentation d'OpenAI o1 par OpenAI :
Apprendre à raisonner avec les LLM
OpenAI o1 se classe dans le 89e percentile pour les questions de programmation compétitives (Codeforces), parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades américaines de mathématiques (AIME), et dépasse le niveau de précision d'un doctorat humain sur un benchmark de problèmes de physique, de biologie et de chimie (GPQA). Bien que le travail nécessaire pour rendre ce nouveau modèle aussi facile à utiliser que les modèles actuels soit encore en cours, nous publions une première version de ce modèle, OpenAI o1-preview, pour une utilisation immédiate dans ChatGPT et pour les utilisateurs d'API de confiance.
Notre algorithme d'apprentissage par renforcement à grande échelle apprend au modèle à penser de manière productive en utilisant sa chaîne de pensée dans le cadre d'un processus de formation très efficace en termes de données. Nous avons constaté que les performances de o1 s'améliorent constamment avec plus d'apprentissage par renforcement (calcul du temps de formation) et avec plus de temps passé à réfléchir (calcul du temps de test). Les contraintes liées à la mise à l'échelle de cette approche diffèrent considérablement de celles du préapprentissage LLM, et nous continuons à les étudier.
Evaluation
Pour mettre en évidence l'amélioration du raisonnement par rapport à GPT-4o, nous avons testé nos modèles sur un ensemble varié d'examens humains et de benchmarks ML. Nous montrons que o1 surpasse de manière significative GPT-4o sur la grande majorité de ces tâches de raisonnement. Sauf indication contraire, nous avons évalué o1 dans le cadre d'un calcul à temps de test maximal.
Dans de nombreux benchmarks de raisonnement, o1 rivalise avec les performances des experts humains. Les récents modèles frontières obtiennent de si bons résultats sur MATH2 et GSM8K que ces repères ne sont plus efficaces pour différencier les modèles. Nous avons évalué les performances en mathématiques sur l'AIME, un examen conçu pour mettre à l'épreuve les étudiants en mathématiques les plus brillants des écoles secondaires américaines. Lors des examens AIME 2024, GPT-4o n'a résolu en moyenne que 12 % (1,8/15) des problèmes. o1 a obtenu une moyenne de 74 % (11,1/15) avec un seul échantillon par problème, 83 % (12,5/15) avec un consensus entre 64 échantillons, et 93 % (13,9/15) en reclassant 1 000 échantillons avec une fonction de notation apprise. Un score de 13,9 le place parmi les 500 meilleurs élèves au niveau national et au-dessus du seuil d'admission aux Olympiades de mathématiques des États-Unis.
Nous avons également évalué o1 sur GPQA diamond, un benchmark d'intelligence difficile qui teste l'expertise en chimie, physique et biologie. Afin de comparer les modèles aux humains, nous avons recruté des experts titulaires d'un doctorat pour répondre aux questions du GPQA-diamond. Nous avons constaté que o1 a surpassé les performances de ces experts humains, devenant ainsi le premier modèle à le faire sur ce benchmark. Ces résultats n'impliquent pas que o1 soit plus performant qu'un docteur en tous points, mais seulement que le modèle est plus compétent pour résoudre certains problèmes qu'un docteur devrait résoudre. Sur plusieurs autres benchmarks de ML, o1 s'est amélioré par rapport à l'état de l'art. Avec ses capacités de perception de la vision activées, o1 a obtenu un score de 78,2 % sur MMMU, ce qui en fait le premier modèle à être compétitif par rapport aux experts humains. Il a également surpassé GPT-4o dans 54 des 57 sous-catégories du MMLU.
Chaîne de pensée
À l'instar d'un être humain qui peut réfléchir longuement avant de répondre à une question difficile, o1 utilise une chaîne de pensée lorsqu'il tente de résoudre un problème. Grâce à l'apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à perfectionner les stratégies qu'il utilise. Il apprend à reconnaître et à corriger ses erreurs. Il apprend à décomposer les étapes délicates en étapes plus simples. Il apprend à essayer une approche différente lorsque l'approche actuelle ne fonctionne pas. Ce processus améliore considérablement la capacité de raisonnement du modèle. L'illustration suivant montre l'amélioration que la chaîne de pensée apporte à OpenAI o1-preview par rapport à GPT-4o :
Codage
Nous avons entraîné un modèle qui a obtenu 213 points et s'est classé dans le 49e percentile aux Olympiades internationales d'informatique (IOI) de 2024, en initialisant à partir de o1 et en s'entraînant pour améliorer encore les compétences en programmation. Ce modèle a participé à l'IOI 2024 dans les mêmes conditions que les concurrents humains. Il disposait de dix heures pour résoudre six problèmes algorithmiques difficiles et avait droit à 50 soumissions par problème.
Pour...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quelle lecture faites-vous de l'analyse du PDG de Nvidia ?