OpenAI o1 fait partie des nouveaux modèles qui se distinguent par leurs « capacités de raisonnement » semblables à celles d’un humain



Malgré les avancées de l'IA, la vigilance humaine reste indispensable

Les modèles de la série o1 sont entraînés pour passer plus de temps à réfléchir avant de répondre, imitant ainsi le processus de pensée humaine. Cette approche permet aux modèles de décomposer les problèmes en étapes plus petites, d’essayer différentes stratégies et de reconnaître leurs erreurs. Par exemple, lors d’un examen de qualification pour l’Olympiade Internationale de Mathématiques, le modèle o1 a résolu 83 % des problèmes, contre seulement 13 % pour le modèle GPT-4o.Le modèle améliore également les performances sur des questions de programmation compétitives et a dépassé le niveau de précision d'un doctorant humain sur une référence de problèmes scientifiques, selon OpenAI.Expliquant le processus de réflexion de o1 dans un billet de blog, OpenAI a écrit :« Nous avons formé ces modèles pour qu'ils passent plus de temps à réfléchir aux problèmes avant de réagir, comme le ferait une personne. Grâce à l'entraînement, ils apprennent à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître leurs erreurs.« Lors de nos tests, la prochaine mise à jour du modèle a obtenu des résultats similaires à ceux d'étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie. Nous avons également constaté qu'il excelle en mathématiques et en codage. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (IMO), GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que le modèle de raisonnement a obtenu un score de 83 %. Leurs capacités de codage ont été évaluées lors de concours et ont atteint le 89e percentile dans les compétitions Codeforces. Pour en savoir plus, consultez notre article sur la recherche technique.« En tant que modèle précoce, il ne dispose pas encore de la plupart des fonctionnalités qui rendent ChatGPT utile, comme la recherche d'informations sur le web et le téléchargement de fichiers et d'images. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme.« Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1 ».Concernant OpenAI o1-mini, l'entreprise explique :« La série o1 excelle dans la génération et le débogage précis de codes complexes. Afin d'offrir une solution plus efficace aux développeurs, nous lançons également OpenAI o1-mini, un modèle de raisonnement plus rapide et moins cher, particulièrement efficace pour le codage. En tant que modèle plus petit, o1-mini est 80 % moins cher que o1-preview, ce qui en fait un modèle puissant et rentable pour les applications qui requièrent un raisonnement mais pas une connaissance étendue du monde ».Pour OpenAI, o1 représente un pas en avant vers son objectif plus large d'une intelligence artificielle semblable à celle de l'homme. D'un point de vue plus pratique, il permet d'écrire du code et de résoudre des problèmes en plusieurs étapes plus facilement que les modèles précédents.L’erreur de ChatGPT qui a coûté 10 000 dollars à une startup est un rappel que, malgré les avancées de l’IA, la vigilance humaine reste indispensable. Les outils d’IA sont puissants, mais ils ne remplacent pas le jugement critique et l’expertise des développeurs. En fin de compte, c’est la responsabilité des équipes humaines de s’assurer que la technologie qu’elles utilisent est sûre et fiable.D'ailleurs, l'erreur ne saurait être imputable entièrement à ChatGPT : les développeurs auraient du prendre la peine d'analyser le code au lieu de se limiter à quelques tests avant la copie. Ils semblent le reconnaître lorsqu'ils déclarent :« Je voudrais commencer par dire que les pratiques en question sont très mauvaises et embarrassantes (et nous avons depuis ajouté des tests unitaires et d'intégration robustes ainsi que des alertes et des enregistrements), qu'elles auraient pu et dû être évitées, qu'il s'agissait d'erreurs humaines au-delà de tout, et qu'elles sont très évidentes avec le recul.« Cela s'est passé à une autre époque, avec d'importantes contraintes de temps, aux tout premiers stades (premières semaines) de la création d'une entreprise. Je partage surtout cette histoire comme une anecdote amusante avec des circonstances uniques entourant la reproductibilité des bogues en prod (encore une fois à cause de notre propre stupidité) ».Quoi qu'il en soit, tout est bien qui finit bien : « Rétrospectivement, aussi pénibles qu'aient été ces cinq jours, c'est l'un de ces moments de la vie d'une startup que nous n'oublierons jamais. Comme toutes les startups, nous avons fait une tonne d'erreurs tout au long de notre parcours, celle-ci étant peut-être la pire. J'évoquerai peut-être les autres plus tard. Nous sommes simplement heureux de pouvoir regarder ces jours-là en arrière et d'en rire. Oui, nous aurions dû faire plus de tests. Oui, nous n'aurions pas dû copier-coller du code. Oui, nous n'aurions pas dû passer directement à l'application principale. Quoi qu'il en soit, je ne regrette pas cette expérience ».Le concessionnaire Chevrolet a de même procédé à l’intégration d’un chatbot basé sur ChatGPT à son site web. Objectif : automatiser la gestion des requêtes des clients. Un acquéreur de véhicule est ensuite parvenu à le tromper pour l’amener à lui proposer une Chevy Taho édition 2024 pour 1 dollar. D’autres internautes ont rapporté avoir reçu des recommandations de véhicules Tesla à partir du même site web géré par ledit chatbot.Source : OpenAI Pensez-vous que les capacités de raisonnement des IA peuvent surpasser celles des humains dans un avenir proche ? Pourquoi ?Quels sont, selon vous, les domaines où ces nouveaux modèles d’IA pourraient avoir le plus grand impact ?Quels sont les risques potentiels de dépendre trop fortement des IA pour des tâches complexes ?Comment les entreprises et les gouvernements devraient-ils réguler l’utilisation des IA pour garantir qu’elles sont utilisées de manière responsable ?Pensez-vous que les IA devraient avoir des limites dans leur capacité à prendre des décisions autonomes ? Si oui, quelles devraient être ces limites ?Comment les capacités de raisonnement des IA pourraient-elles transformer le secteur de l’éducation ?Comment les IA avec des capacités de raisonnement pourraient-elles changer la dynamique du marché du travail ?Voyez-vous des avantages ou des inconvénients à ce que les IA participent à des processus de prise de décision dans des domaines critiques comme la médecine ou la justice ?