
OpenAI a lancé une nouvelle série de modèles, connus sous le nom de code o1, dotés de capacités de « raisonnement » et conçus pour passer plus de temps avant de répondre aux questions des utilisateurs. Le nouveau modèle est immédiatement utilisable et est censé pouvoir effectuer des tâches plus complexes que les modèles précédents.
Les modèles de la série o1 sont entraînés pour passer plus de temps à réfléchir avant de répondre, imitant ainsi le processus de pensée humaine. Cette approche permet aux modèles de décomposer les problèmes en étapes plus petites, d’essayer différentes stratégies et de reconnaître leurs erreurs. Par exemple, lors d’un examen de qualification pour l’Olympiade Internationale de Mathématiques, le modèle o1 a résolu 83 % des problèmes, contre seulement 13 % pour le modèle GPT-4o.
Le modèle a également amélioré les performances sur des questions de programmation compétitives et a dépassé le niveau de précision d'un doctorant humain sur une référence de problèmes scientifiques, a déclaré l'entreprise.
Dans une série de posts sur X (anciennement Twitter), Noam Brown, chercheur à l'OpenAI, a déclaré que o1 est conçu pour « penser » dans une chaîne de pensée privée avant de répondre aux requêtes. Brown affirme que plus o1 est long, plus il est performant dans les tâches de raisonnement.
Une nouvelle approche dans la formation de son LLM
Expliquant le processus de réflexion de o1 dans un billet de blog, OpenAI a écrit :
« Nous avons formé ces modèles pour qu'ils passent plus de temps à réfléchir aux problèmes avant de réagir, comme le ferait une personne. Grâce à l'entraînement, ils apprennent à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître leurs erreurs.
« Lors de nos tests, la prochaine mise à jour du modèle a obtenu des résultats similaires à ceux d'étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie. Nous avons également constaté qu'il excelle en mathématiques et en codage. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (IMO), GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que le modèle de raisonnement a obtenu un score de 83 %. Leurs capacités de codage ont été évaluées lors de concours et ont atteint le 89e percentile dans les compétitions Codeforces. Pour en savoir plus, consultez notre article sur la recherche technique.
« En tant que modèle précoce, il ne dispose pas encore de la plupart des fonctionnalités qui rendent ChatGPT utile, comme la recherche d'informations sur le web et le téléchargement de fichiers et d'images. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme.
« Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1 ».
Concernant OpenAI o1-mini, l'entreprise explique :
« La série o1 excelle dans la génération et le débogage précis de codes complexes. Afin d'offrir une solution plus efficace aux développeurs, nous lançons également OpenAI o1-mini, un modèle de raisonnement plus rapide et moins cher, particulièrement efficace pour le codage. En tant que modèle plus petit, o1-mini est 80 % moins cher que o1-preview, ce qui en fait un modèle puissant et rentable pour les applications qui requièrent un raisonnement mais pas une connaissance étendue du monde ».
« Nous avons remarqué que ce modèle hallucine moins »
La formation de o1 est fondamentalement différente de celle de ses prédécesseurs, a expliqué Jerry Tworek, responsable de la recherche chez OpenAI, bien que l'entreprise reste vague sur les détails exacts. Il précise que o1 « a été entraîné à l'aide d'un algorithme d'optimisation entièrement nouveau et d'un nouvel ensemble de données d'entraînement spécialement conçu pour lui ».
OpenAI a appris aux précédents modèles GPT à imiter les modèles de ses données d'apprentissage. Avec o1, elle a entraîné le modèle à résoudre des problèmes par lui-même en utilisant une technique connue sous le nom d'apprentissage par renforcement, qui enseigne au système par le biais de récompenses et de pénalités. Il utilise ensuite une « chaîne de pensée » pour traiter les requêtes, de la même manière que les humains traitent les problèmes en les examinant étape par étape.
Grâce à cette nouvelle méthode d'entraînement, OpenAI estime que le modèle devrait être plus précis. « Nous avons remarqué que ce modèle hallucine moins », explique Tworek. Mais le problème persiste. « Nous ne pouvons pas dire que nous avons résolu le problème des hallucinations ».
Ce qui distingue principalement ce nouveau modèle de GPT-4o, c'est sa capacité à s'attaquer à des problèmes complexes, comme le codage et les mathématiques, bien mieux que ses prédécesseurs, tout en expliquant son raisonnement, selon OpenAI.
Sécurité et alignement
OpenAI a également mis en place une nouvelle approche de formation à la sécurité pour ces modèles, utilisant leurs capacités de raisonnement pour mieux adhérer aux directives de sécurité et d’alignement. Par exemple, dans des tests de contournement de sécurité, le modèle o1 a obtenu un score de 84 sur une échelle de 0 à 100, contre 22 pour le modèle GPT-4o.
« Dans le cadre du développement de ces nouveaux modèles, nous avons mis au point une nouvelle approche de formation à la sécurité qui exploite leurs capacités de raisonnement pour les faire adhérer aux lignes directrices en matière de sécurité et d'alignement. En étant capable de raisonner sur nos règles de sécurité dans leur contexte, ils peuvent les appliquer plus efficacement.
« L'une des façons de mesurer la sécurité consiste à tester dans quelle mesure notre modèle continue à respecter ses règles de sécurité lorsqu'un utilisateur tente de les contourner (ce que l'on appelle le « jailbreaking »). Lors de l'un de nos tests de jailbreaking les plus difficiles, GPT-4o a obtenu un score de 22 (sur une échelle de 0 à 100), tandis que notre modèle o1-preview a obtenu un score de 84. Pour en savoir plus, consultez la carte système et notre article de recherche.
« Pour répondre aux nouvelles capacités de ces modèles, nous avons renforcé notre travail de sécurité, notre gouvernance interne et notre collaboration avec le gouvernement fédéral. Cela inclut des tests et des évaluations rigoureuses à l'aide de notre Preparedness Framework, une équipe rouge de premier ordre et des processus d'examen au niveau du conseil d'administration, y compris par notre comité de sûreté et de sécurité.
« Pour renforcer notre engagement en faveur de la sécurité de l'IA, nous avons récemment formalisé des accords avec les instituts de sécurité de l'IA des États-Unis et du Royaume-Uni. Nous avons commencé à rendre ces accords opérationnels, notamment en accordant aux instituts un accès anticipé à une version de recherche de ce modèle. Il s'agit d'une première étape importante de notre partenariat, qui contribue à établir un processus de recherche, d'évaluation et de test des futurs modèles avant et après leur diffusion publique ».
Un pas vers l'AGI, selon OpenAI
Pour OpenAI, o1 représente un pas en avant vers son objectif plus large d'une intelligence artificielle semblable à celle de l'homme. D'un point de vue plus pratique, il permet d'écrire du code et de résoudre des problèmes en plusieurs étapes plus facilement que les modèles précédents. Mais il est aussi plus cher et plus lent à utiliser que le GPT-4o. OpenAI qualifie cette version o1 de « preview » (avant-première) pour souligner à quel point elle est naissante.
Les utilisateurs...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.