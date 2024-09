Une nouvelle approche dans la formation de son LLM

« Nous avons remarqué que ce modèle hallucine moins »

Sécurité et alignement

Un pas vers l'AGI, selon OpenAI

Construire vers des agents

OpenAI a lancé une nouvelle série de modèles, connus sous le nom de code o1, dotés de capacités de « raisonnement » et conçus pour passer plus de temps avant de répondre aux questions des utilisateurs. Le nouveau modèle est immédiatement utilisable et est censé pouvoir effectuer des tâches plus complexes que les modèles précédents.Les modèles de la série o1 sont entraînés pour passer plus de temps à réfléchir avant de répondre, imitant ainsi le processus de pensée humaine. Cette approche permet aux modèles de décomposer les problèmes en étapes plus petites, d’essayer différentes stratégies et de reconnaître leurs erreurs. Par exemple, lors d’un examen de qualification pour l’Olympiade Internationale de Mathématiques, le modèle o1 a résolu 83 % des problèmes, contre seulement 13 % pour le modèle GPT-4o.Le modèle a également amélioré les performances sur des questions de programmation compétitives et a dépassé le niveau de précision d'un doctorant humain sur une référence de problèmes scientifiques, a déclaré l'entreprise.Dans une série de posts sur X (anciennement Twitter), Noam Brown, chercheur à l'OpenAI, a déclaré que o1 est conçu pour « penser » dans une chaîne de pensée privée avant de répondre aux requêtes. Brown affirme que plus o1 est long, plus il est performant dans les tâches de raisonnement.Expliquant le processus de réflexion de o1 dans un billet de blog, OpenAI a écrit :« Nous avons formé ces modèles pour qu'ils passent plus de temps à réfléchir aux problèmes avant de réagir, comme le ferait une personne. Grâce à l'entraînement, ils apprennent à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître leurs erreurs.« Lors de nos tests, la prochaine mise à jour du modèle a obtenu des résultats similaires à ceux d'étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie. Nous avons également constaté qu'il excelle en mathématiques et en codage. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (IMO), GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que le modèle de raisonnement a obtenu un score de 83 %. Leurs capacités de codage ont été évaluées lors de concours et ont atteint le 89e percentile dans les compétitions Codeforces. Pour en savoir plus, consultez notre article sur la recherche technique.« En tant que modèle précoce, il ne dispose pas encore de la plupart des fonctionnalités qui rendent ChatGPT utile, comme la recherche d'informations sur le web et le téléchargement de fichiers et d'images. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme.« Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1 ».Concernant OpenAI o1-mini, l'entreprise explique :« La série o1 excelle dans la génération et le débogage précis de codes complexes. Afin d'offrir une solution plus efficace aux développeurs, nous lançons également OpenAI o1-mini, un modèle de raisonnement plus rapide et moins cher, particulièrement efficace pour le codage. En tant que modèle plus petit, o1-mini est 80 % moins cher que o1-preview, ce qui en fait un modèle puissant et rentable pour les applications qui requièrent un raisonnement mais pas une connaissance étendue du monde ».La formation de o1 est fondamentalement différente de celle de ses prédécesseurs, a expliqué Jerry Tworek, responsable de la recherche chez OpenAI, bien que l'entreprise reste vague sur les détails exacts. Il précise que o1 « a été entraîné à l'aide d'un algorithme d'optimisation entièrement nouveau et d'un nouvel ensemble de données d'entraînement spécialement conçu pour lui ».OpenAI a appris aux précédents modèles GPT à imiter les modèles de ses données d'apprentissage. Avec o1, elle a entraîné le modèle à résoudre des problèmes par lui-même en utilisant une technique connue sous le nom d'apprentissage par renforcement, qui enseigne au système par le biais de récompenses et de pénalités. Il utilise ensuite une « chaîne de pensée » pour traiter les requêtes, de la même manière que les humains traitent les problèmes en les examinant étape par étape.Grâce à cette nouvelle méthode d'entraînement, OpenAI estime que le modèle devrait être plus précis. « Nous avons remarqué que ce modèle hallucine moins », explique Tworek. Mais le problème persiste. « Nous ne pouvons pas dire que nous avons résolu le problème des hallucinations ».Ce qui distingue principalement ce nouveau modèle de GPT-4o, c'est sa capacité à s'attaquer à des problèmes complexes, comme le codage et les mathématiques, bien mieux que ses prédécesseurs, tout en expliquant son raisonnement, selon OpenAI.OpenAI a également mis en place une nouvelle approche de formation à la sécurité pour ces modèles, utilisant leurs capacités de raisonnement pour mieux adhérer aux directives de sécurité et d’alignement. Par exemple, dans des tests de contournement de sécurité, le modèle o1 a obtenu un score de 84 sur une échelle de 0 à 100, contre 22 pour le modèle GPT-4o.« Dans le cadre du développement de ces nouveaux modèles, nous avons mis au point une nouvelle approche de formation à la sécurité qui exploite leurs capacités de raisonnement pour les faire adhérer aux lignes directrices en matière de sécurité et d'alignement. En étant capable de raisonner sur nos règles de sécurité dans leur contexte, ils peuvent les appliquer plus efficacement.« L'une des façons de mesurer la sécurité consiste à tester dans quelle mesure notre modèle continue à respecter ses règles de sécurité lorsqu'un utilisateur tente de les contourner (ce que l'on appelle le « jailbreaking »). Lors de l'un de nos tests de jailbreaking les plus difficiles, GPT-4o a obtenu un score de 22 (sur une échelle de 0 à 100), tandis que notre modèle o1-preview a obtenu un score de 84. Pour en savoir plus, consultez la carte système et notre article de recherche.« Pour répondre aux nouvelles capacités de ces modèles, nous avons renforcé notre travail de sécurité, notre gouvernance interne et notre collaboration avec le gouvernement fédéral. Cela inclut des tests et des évaluations rigoureuses à l'aide de notre Preparedness Framework, une équipe rouge de premier ordre et des processus d'examen au niveau du conseil d'administration, y compris par notre comité de sûreté et de sécurité.« Pour renforcer notre engagement en faveur de la sécurité de l'IA, nous avons récemment formalisé des accords avec les instituts de sécurité de l'IA des États-Unis et du Royaume-Uni. Nous avons commencé à rendre ces accords opérationnels, notamment en accordant aux instituts un accès anticipé à une version de recherche de ce modèle. Il s'agit d'une première étape importante de notre partenariat, qui contribue à établir un processus de recherche, d'évaluation et de test des futurs modèles avant et après leur diffusion publique ».Pour OpenAI, o1 représente un pas en avant vers son objectif plus large d'une intelligence artificielle semblable à celle de l'homme. D'un point de vue plus pratique, il permet d'écrire du code et de résoudre des problèmes en plusieurs étapes plus facilement que les modèles précédents. Mais il est aussi plus cher et plus lent à utiliser que le GPT-4o. OpenAI qualifie cette version o1 de « preview » (avant-première) pour souligner à quel point elle est naissante.Les utilisateurs de ChatGPT Plus et Team ont accès à o1-preview et o1-mini à partir d'aujourd'hui, tandis que les utilisateurs de Enterprise et Edu y auront accès au début de la semaine prochaine. OpenAI dit qu'elle prévoit d'offrir l'accès à o1-mini à tous les utilisateurs gratuits de ChatGPT, mais n'a pas encore fixé de date de sortie. L'accès des développeurs à o1 est très coûteux : dans l'API, o1-preview coûte 15 dollars pour 1 million de tokens d'entrée, ou morceaux de texte analysés par le modèle, et 60 dollars pour 1 million de tokens de sortie. À titre de comparaison, GPT-4o coûte 5 dollars pour 1 million de jetons d'entrée et 15 dollars pour 1 million de jetons de sortie.Les grands modèles de langage ne sont pas vraiment intelligents tels qu'ils existent aujourd'hui. Ils se contentent de prédire des séquences de mots pour vous donner une réponse en se basant sur des modèles appris à partir de grandes quantités de données. Prenons l'exemple de ChatGPT, qui a tendance à affirmer à tort que le mot « strawberry » n'a que deux R parce qu'il ne décompose pas le mot correctement. Pour ce qu'il en vaut, le nouveau modèle o1 a correctement répondu à cette requête.Alors qu'OpenAI cherche apparemment à lever davantage de fonds, avec une valorisation impressionnante de 150 milliards de dollars, son élan dépend de nouvelles percées dans le domaine de la recherche. L'entreprise apporte des capacités de raisonnement aux LLM parce qu'elle entrevoit un avenir avec des systèmes autonomes, ou agents, capables de prendre des décisions et d'agir en votre nom.Pour les chercheurs en IA, le raisonnement par craquage est une étape importante vers une intelligence de niveau humain. En effet, si un modèle est capable de faire plus que de la reconnaissance de formes, il pourrait permettre des percées dans des domaines tels que la médecine et l'ingénierie. Pour l'instant, cependant, les capacités de raisonnement d'o1 sont relativement lentes, ne ressemblent pas à celles d'un agent et sont coûteuses à utiliser pour les développeurs.« Nous avons passé de nombreux mois à travailler sur le raisonnement, car nous pensons qu'il s'agit là d'une avancée décisive », explique M. McGrew. « Fondamentalement, il s'agit d'une nouvelle modalité pour les modèles afin de pouvoir résoudre les problèmes vraiment difficiles qui sont nécessaires pour progresser vers des niveaux d'intelligence semblables à ceux de l'homme.Source : OpenAI Pensez-vous que les capacités de raisonnement des IA peuvent surpasser celles des humains dans un avenir proche ? 