L'IA open-source AlphaCodium de Qodo serait plus performante que o1 d'OpenAI en matière de génération de code

Avec un flux en plusieurs étapes qui met l'accent sur l'amélioration continue par itération

Le 15 octobre 2024 à 18:22, par Jade Emy

0PARTAGES

Une analyse de l'équipe de recherche de Qodo compare les performances du modèle o1 d'OpenAI et du logiciel d'IA open-source AlphaCodium. Si OpenAI revendique que o1 possède une pensée Système 2, les résultats montrent qu'il s'agirait plutôt d'un "Système 1.5". Mais la combinaison d'AlphaCodium et de o1 sur les tests a révélé une augmentation considérable de la précision et des performances d'o1. Cette analyse représente une étape vers la pensée Système 2 des LLM : passer de réponses rapides et instinctives à des processus plus réfléchis, méthodiques et raisonnés.

AlphaCodium, développé et mis à disposition par l'équipe de recherche de Qodo, représente une nouvelle approche de la génération de code avec les grands modèles de langage (LLM). Contrairement aux méthodes traditionnelles de génération de code en une seule fois, AlphaCodium utilise un flux en plusieurs étapes orienté vers le code qui met l'accent sur l'amélioration continue grâce à l'itération. Ce processus itératif en deux phases consiste à générer du code, à l'exécuter, à le tester et à corriger les problèmes éventuels, afin de garantir que le système aboutisse à une solution entièrement validée.

Avec GPT-4, AlphaCodium a augmenté la précision de la résolution des problèmes de codage de 19 % à 44 %. Il s'agit d'une amélioration significative par rapport à la meilleure approche précédente, AlphaCode de Google DeepMind. De plus, GPT-4o a atteint une précision de 54 % avec AlphaCodium, contre 48 % pour GPT-4T.

Depuis, OpenAI a publié le modèle o1 qui a entraîné un flot de discussions sur ses nouvelles capacités. Le président d'OpenAI, Greg Brockman, a bien cadré la conversation en décrivant les modèles précédents comme illustrant la "pensée Système 1", où les réponses rapides et instinctives dominent, alors que la promesse des "chaînes de pensée" d'o1 pourrait débloquer la "pensée Système 2", des processus plus réfléchis et raisonnés.

OpenAI o1 — our first model trained with reinforcement learning to think hard about problems before answering. Extremely proud of the team!

This is a new paradigm with vast opportunity. This is evident quantitatively (eg reasoning metrics are already a step function improved)… https://t.co/rj0wMh4Sec
— Greg Brockman (@gdb) September 12, 2024

Dans ce contexte, l'équipe de recherche de Qodo a voulu mettre ces affirmations à l'épreuve. AlphaCodium permet déjà d'améliorer les performances de divers modèles fondamentaux dans la résolution de problèmes de codage de concours. Ils ont donc appliqué cette méthodologie au dernier modèle d'OpenAI.

L'équipe de recherche de Qodo vient de partager les résultats de cette expérience en répondant à la question suivante : "si o1 fait déjà preuve d'un raisonnement de type Système 2, le fait de l'insérer dans AlphaCodium améliorerait-il ses résultats ou les détériorerait-il au contraire ?"

La pensée systémique : un cadre pour la prise de décision en matière d'IA

Deux éléments clés distinguent le flux d'AlphaCodium. Premièrement, le système génère des données supplémentaires pour faciliter le processus itératif, comme les réflexions sur les problèmes et le raisonnement des tests, qui aident le modèle à mieux comprendre et à affiner son approche de la résolution de problèmes complexes. Ensuite, AlphaCodium enrichit les cas de test publics existants avec des tests générés par l'IA, en introduisant des couches supplémentaires d'examen pour valider la robustesse des solutions.

Grâce à ce processus structuré, AlphaCodium se concentre non seulement sur le code lui-même, mais aussi sur le raisonnement et les tests nécessaires pour garantir un résultat fiable et de haute qualité.

À titre de comparaison, parlons des pensées Systèmes 1 et 2. Le lauréat du prix Nobel Daniel Kahneman a fait référence à ces modes distincts de la pensée humaine qui régissent la prise de décision et la résolution de problèmes, et ils fournissent un cadre utile pour comprendre les évolutions des LLM et leur rôle dans la résolution de problèmes.

Système 1 : réponses rapides avec une compréhension superficielle

La pensée Système 1 correspond à une personne qui réagit rapidement et instinctivement. Dans le contexte de l'IA, il s'agit d'une analogie avec les modèles qui produisent rapidement de grandes quantités de données pour obtenir des résultats quasi-instantanés. La plupart des LLM actuels fonctionnent selon ce mode, générant du code en reconnaissant des modèles dans les données d'apprentissage, en s'appuyant souvent sur des heuristiques similaires au fonctionnement de l'intuition humaine. Cette approche permet de produire rapidement des extraits de code ou des solutions à des problèmes de programmation courants.

Bien que cette rapidité soit avantageuse, les modèles de type Système 1 peuvent être sujets à des erreurs lors de défis de codage plus complexes ou moins familiers. Ils ont tendance à se concentrer sur les modèles de surface et peuvent ne pas comprendre pleinement la logique profonde requise pour des tâches sophistiquées.

Par conséquent, le code généré peut sembler correct mais échouer dans les cas extrêmes ou lorsqu'il est soumis à des tests rigoureux. Par exemple, ces modèles peuvent ne pas tenir compte des dépendances sous-jacentes, ne pas gérer des structures de données complexes ou générer un code syntaxiquement correct qui ne l'est pas sur le plan sémantique.
Système 2 : résolution réfléchie des problèmes

La pensée Système 2 représente l'étape suivante de l'IA pour le codage : passer de réponses rapides et instinctives à des processus plus réfléchis, méthodiques et raisonnés. Ce changement est essentiel pour relever les défis de codage complexes qui nécessitent une compréhension et une logique approfondies.

Dans le cadre du Système 2, les LLM se concentrent sur l'analyse minutieuse, le raisonnement et la réflexion avant de parvenir à une solution. Contrairement au Système 1, axé sur la rapidité et l'heuristique, le Système 2 est conçu pour s'engager dans un processus analytique, garantissant que le résultat final n'est pas seulement syntaxiquement correct, mais aussi logique, sémantiquement significatif et efficace dans une variété de conditions.

Par exemple, imaginons un développeur travaillant sur une tâche telle que la création d'une API REST qui gère des transactions de base de données complexes. Une IA de Système 2 déconstruirait le problème en analysant les différents composants de la tâche, raisonnerait sur les différentes décisions et simulerait des solutions potentielles. Tout au long de ce processus, le modèle affinerait son code de manière itérative en réagissant au retour d'information des tests (en analysant les scénarios dans lesquels des blocages pourraient se produire, des goulets d'étranglement se produiraient au niveau des performances ou des conditions de course affecteraient l'intégrité des données) et demanderait même davantage de données ou d'intégration s'il s'en rendait compte.

Analyse des chercheurs de Qodo du modèle o1 d'OpenAI

Après avoir testé les performances du modèle o1 d'OpenAI, les chercheurs de Qodo pensent que le modèle serait davantage un "Système 1.5". C'est-à-dire, une zone intermédiaire où l'IA fait preuve de certaines capacités de raisonnement au-delà de l'intuition pure, mais ne dispose pas encore de la profondeur et de la délibération complètes de la résolution de problèmes en plusieurs étapes que l'on retrouve dans la pensée Système 2.

Les chercheurs définissent donc les niveaux de la pensée systémique comme suit :

Système 1 : déduction rapide
Système 1.5 : chaîne de pensée guidée
Système 2 : raisonnement approfondi et réfléchi, renforcé par des informations provenant de processus de validation, utilisant des cadres et des outils de réflexion pertinents, y compris l'élaboration et le choix d'options.

Envoyé par Daniel Kahneman in Thinking, Fast and Slow

Le mieux que nous puissions faire est un compromis : apprendre à reconnaître les situations dans lesquelles des erreurs sont probables et s'efforcer d'éviter les erreurs importantes lorsque les enjeux sont élevés.

Terence Tao, lauréat de la médaille Fields et largement considéré comme le plus grand mathématicien vivant au monde, a réalisé une évaluation du modèle o1 qui offre une comparaison utile.

Tao décrit o1 comme un "étudiant diplômé médiocre" capable de résoudre des problèmes complexes, mais seulement après avoir été fortement incité et guidé, et a noté qu'il "n'a pas généré les idées conceptuelles clés par lui-même". Cela correspond à la définition de l'IA du système 1.5, à savoir qu'elle a besoin d'une direction extérieure pour accomplir des tâches complexes.

Si o1 peut traiter des problèmes bien structurés, il a du mal à raisonner en profondeur et n'atteint pas le niveau de pensée Système 2, où les modèles fonctionnent de manière indépendante avec une résolution et une validation des problèmes en plusieurs étapes. Tao suggère qu'avec de nouvelles améliorations et l'intégration d'outils, les modèles d'IA pourraient éventuellement atteindre la compétence d'un "étudiant diplômé compétent", confirmant l'analyse que ces modèles se rapprochent du Système 2 mais n'y sont pas encore tout à fait parvenus.

Cette limitation est liée à l'un des problèmes les plus importants de o1. L'internet regorge de cas où o1 présente des hallucinations extrêmes (bien que, pour être juste, les gens "hallucinent" aussi, même lorsqu'ils appliquent la pensée Système 2). Si o1 peut générer un code d'apparence plausible, il peut aussi produire des résultats incorrects ou absurdes lorsqu'il est poussé au-delà de sa capacité de raisonnement. Parce que o1 ne raisonne pas complètement à travers les problèmes, il peut générer des solutions erronées, en particulier lorsqu'il s'agit de raisonner à travers des problèmes complexes.

AlphaCodium + o1 : Une étape progressive vers le Système 2 ?

Les chercheurs de Qodo ont également évalué AlphaCodium et o1 sur le benchmark Codeforces, également connu sous le nom de CodeContests. AlphaCodium agit en tant que fournisseur de stratégie, en concevant l'approche, en établissant un cadre et en fournissant les outils pour alimenter et guider la chaîne de pensée de o1, tandis que o1 exécute des portions significatives du raisonnement et des processus internes.

Les résultats ont montré une nette amélioration de la précision, démontrant qu'AlphaCodium augmente considérablement les performances d'o1. Comme le montrent les graphiques ci-dessous, les taux de précision ont montré une amélioration constante lorsque l'AlphaCodium était associé à o1 par rapport aux invites directs seuls.

Les chercheurs commentent les résultats de l'expérience:

D'après notre compréhension du rapport d'OpenAI, AlphaCodium-o1 obtient de meilleurs résultats que o1 (auquel nous n'avons pas eu accès - nous avons utilisé o1-mini et o1-preview) et même que o1-ioi ( !), un modèle qui a été entraîné spécifiquement pour les compétences en programmation, ce qui en fait la solution de pointe pour ce benchmark de codage.

Pourquoi AlphaCodium-o1 offre de meilleures performances ?

L'impact de l'utilisation de la méthodologie d'AlphaCodium avec le modèle o1 a montré une amélioration substantielle de la précision pass@5 sur le benchmark Codeforces. Cette amélioration était à la fois significative et cohérente entre les différents modèles évalués. Bien que le modèle o1 autonome offre des performances supérieures à la simple inférence (Système 1), l'analyse de Qodo affirme qu'il est comparable à la chaîne de pensée guidée (Système 1.5).

Il convient également de noter que le modèle o1 a été entraîné par apprentissage par renforcement afin de devenir plus performant en matière de chaîne de pensée. Des travaux récents comme RLEF offrent une comparaison intéressante avec AlphaCodium-o1.

RLEF utilise l'apprentissage par renforcement avec un retour d'exécution pour améliorer la performance des modèles de génération de code, atteignant l'état de l'art. RLEF s'aligne bien sur l'hypothèse que l'apprentissage par renforcement peut aider à stimuler la pensée intuitive (Système 1.5), mais n'est pas encore proche d'une pensée de type Système 2.

Même avec les avantages mis en évidence par RL/RLEF, l'expérience avec o1 montre que le cadre d'AlphaCodium, lorsqu'il est combiné avec des modèles forts comme o1, peut encore fournir une augmentation significative de la performance. Le couplage avec AlphaCodium a poussé o1 vers une résolution de problèmes plus stratégique et délibérée.

Les résultats suggèrent que les modèles comme o1, lorsqu'ils sont encadrés par les bons outils et guidés par un cadre solide pour fournir une stratégie de raisonnement, peuvent atteindre un niveau supérieur à celui des simples réponses instinctives. Cette combinaison permet au modèle de fonctionner de manière plus réfléchie et itérative, en se rapprochant du type de raisonnement approfondi du Système 2 requis pour des tâches de codage plus complexes.

Cadre et implications de l'analyse de l'équipe de recherche de Qodo

Envoyé par L'équipe de recherche de Qodo

Pourquoi nous avons choisi Codeforces ?

Nous avons choisi Codeforces pour notre analyse comparative parce qu'il présente des problèmes algorithmiquement rigoureux et difficiles, qui sont cruciaux pour évaluer la capacité d'un modèle à gérer un raisonnement complexe en plusieurs étapes. Codeforces pousse les modèles au-delà des simples tâches de codage du monde réel, exigeant des compétences avancées de résolution de problèmes qui s'alignent sur la pensée Système 2, ce qui le rend plus idéal pour tester la profondeur des capacités de raisonnement des modèles d'IA.

Cependant, nous avons remarqué que plus d'équipes participent à SWE-bench qu'à Codeforces, ce qui soulève une question intéressante : Est-ce parce que la concurrence avec des équipes établies comme OpenAI, DeepMind, Salesforce et Meta est perçue comme plus stimulante ?

Nous pensons que c'est parce que :

SWE-Bench a commencé avec des critères plus accessibles qui ont attiré un plus grand nombre de participants. Cela dit, depuis août 2024, nous avons remarqué qu'il n'y a pas eu de nouvelles soumissions sur SWE-Bench, ce qui pourrait indiquer qu'il a maintenant atteint un niveau aussi élevé en termes de résultats.
Le cadre de SWE-bench est structuré comme un "problème" sur GitHub qui doit être résolu, imitant le codage du monde réel. Cette configuration peut intéresser un plus grand nombre d'équipes car elle semble plus pratique et reflète plus fidèlement les défis de codage quotidiens, plutôt que la nature purement compétitive et axée sur les algorithmes de Codeforces.

Un nouvel outil open-source pour la communauté

Nous pensons que ces résultats sont importants pour l'ensemble de la communauté de recherche en IA. C'est pourquoi nous avons fait d'AlphaCodium un outil open-source. Toute personne intéressée peut trouver notre travail sur GitHub ici et explorer notre méthodologie détaillée dans l'article sur arXiv.

Quelle est la suite des événements ?

La promesse d'AlphaCodium est claire : avec la bonne ingénierie stratégique des flux, les modèles fondamentaux comme o1 peuvent être poussés vers la pensée Système 2. Nous avons encore du travail à faire pour passer du "Système 1.5" à une véritable IA de niveau Système 2, mais en observant des outils comme AlphaCodium, nous pouvons mieux comprendre l'écart et continuer à faire des recherches pour nous en rapprocher. L'avenir de l'IA réside dans la collaboration, et nous sommes impatients de voir ce que nous pourrons construire ensemble en continuant à innover.

Chez Qodo, nous nous concentrons sur l'intégrité du code, c'est-à-dire que nous construisons vers la pensée du Système 2 qui incorporera intégralement les capacités et les flux de test et de révision du code, parmi d'autres méthodes, pour s'assurer que le code et le logiciel générés fonctionnent comme les développeurs l'ont prévu et en conformité avec les meilleures pratiques.

Source : L'équipe de recherche de Qodo

Et vous ?

Pensez-vous que cette analyse est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les assistants d'IA de codage font-ils vraiment gagner du temps aux développeurs ? Une étude suggère que ces outils n'augmentent pas la vitesse de codage, mais augmentent significativement le taux de bogues

Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes car o1 réfléchit avant de répondre

L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"

Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'IA open-source AlphaCodium de Qodo serait plus performante que o1 d'OpenAI en matière de génération de code

Avec un flux en plusieurs étapes qui met l'accent sur l'amélioration continue par itération

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'IA open-source AlphaCodium de Qodo serait plus performante que o1 d'OpenAI en matière de génération de code Avec un flux en plusieurs étapes qui met l'accent sur l'amélioration continue par itération

L'IA open-source AlphaCodium de Qodo serait plus performante que o1 d'OpenAI en matière de génération de code

Avec un flux en plusieurs étapes qui met l'accent sur l'amélioration continue par itération