OpenAI, soutenue par Microsoft, a récemment dévoilé une nouvelle série de modèles d’intelligence artificielle conçue pour résoudre des problèmes complexes en passant plus de temps à traiter les réponses. Ces nouveaux modèles, o1 et o1-mini, se distinguent par leurs capacités de raisonnement avancées, particulièrement dans les domaines de la science, du codage et des mathématiques. OpenAI a utilisé le nom de code Strawberry pour désigner le projet en interne, tandis qu'elle a baptisé les modèles annoncés jeudi o1 et o1-mini. o1 est disponible dans ChatGPT et son API, a indiqué la société.OpenAI a lancé une nouvelle série de modèles, connus sous le nom de code o1, dotés de capacités de « raisonnement » et conçus pour passer plus de temps avant de répondre aux questions des utilisateurs. Le nouveau modèle est immédiatement utilisable et est censé pouvoir effectuer des tâches plus complexes que les modèles précédents.
Les modèles de la série o1 sont entraînés pour passer plus de temps à réfléchir avant de répondre, imitant ainsi le processus de pensée humaine. Cette approche permet aux modèles de décomposer les problèmes en étapes plus petites, d’essayer différentes stratégies et de reconnaître leurs erreurs. Par exemple, lors d’un examen de qualification pour l’Olympiade Internationale de Mathématiques, le modèle o1 a résolu 83 % des problèmes, contre seulement 13 % pour le modèle GPT-4o.
Le modèle a également amélioré les performances sur des questions de programmation compétitives et a dépassé le niveau de précision d'un doctorant humain sur une référence de problèmes scientifiques, a déclaré l'entreprise.
Dans une série de posts sur X (anciennement Twitter), Noam Brown, chercheur à l'OpenAI, a déclaré que o1 est conçu pour « penser » dans une chaîne de pensée privée avant de répondre aux requêtes. Brown affirme que plus o1 est long, plus il est performant dans les tâches de raisonnement.
Une nouvelle approche dans la formation de son LLM
Expliquant le processus de réflexion de o1 dans un billet de blog, OpenAI a écrit :
« Nous avons formé ces modèles pour qu'ils passent plus de temps à réfléchir aux problèmes avant de réagir, comme le ferait une personne. Grâce à l'entraînement, ils apprennent à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître leurs erreurs.
« Lors de nos tests, la prochaine mise à jour du modèle a obtenu des résultats similaires à ceux d'étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie. Nous avons également constaté qu'il excelle en mathématiques et en codage. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (IMO), GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que le modèle de raisonnement a obtenu un score de 83 %. Leurs capacités de codage ont été évaluées lors de concours et ont atteint le 89e percentile dans les compétitions Codeforces. Pour en savoir plus, consultez notre article sur la recherche technique.
« En tant que modèle précoce, il ne dispose pas encore de la plupart des fonctionnalités qui rendent ChatGPT utile, comme la recherche d'informations sur le web et le téléchargement de fichiers et d'images. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme.
« Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1 ».
Concernant OpenAI o1-mini, l'entreprise explique :
« La série o1 excelle dans la génération et le débogage précis de codes complexes. Afin d'offrir une solution plus efficace aux développeurs, nous lançons également OpenAI o1-mini, un modèle de raisonnement plus rapide et moins cher, particulièrement efficace pour le codage. En tant que modèle plus petit, o1-mini est 80 % moins cher que o1-preview, ce qui en fait un modèle puissant et rentable pour les applications qui requièrent un raisonnement mais pas une connaissance étendue du monde ».
« Nous avons remarqué que ce modèle hallucine moins »
La formation de o1 est fondamentalement différente de celle de ses prédécesseurs, a expliqué Jerry Tworek, responsable de la recherche chez OpenAI, bien que l'entreprise reste vague sur les détails exacts. Il précise que o1 « a été entraîné à l'aide d'un algorithme d'optimisation entièrement nouveau et d'un nouvel ensemble de données d'entraînement spécialement conçu pour lui ».
OpenAI a appris aux précédents modèles GPT à imiter les modèles de ses données d'apprentissage. Avec o1, elle a entraîné le modèle à résoudre...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quelle lecture faites-vous de l'analyse du PDG de Nvidia ?