Les principaux modèles d'IA peuvent réparer les codes défectueux, mais ils sont loin d'être prêts à remplacer les ingénieurs logiciels humains, selon les tests approfondis réalisés par les chercheurs d'OpenAI. La dernière étude de l'entreprise a mis à l'épreuve des modèles et des systèmes d'IA sur des tâches de programmation réelles, et même les modèles les plus avancés n'ont pu résoudre qu'un quart des défis typiques de l'ingénierie.L'équipe de recherche a créé un test appelé SWE-Lancer, à partir de 1 488 correctifs logiciels réels apportés à la base de code d'Expensify, ce qui représente un million de dollars de travail d'ingénierie en freelance. Face à ces tâches de programmation quotidiennes, le meilleur modèle d'IA - Claude 3.5 Sonnet - n'a réussi à accomplir que 26,2 % des tâches de codage pratique et 44,9 % des décisions de gestion technique.
Bien que les systèmes d'IA se soient révélés capables de trouver rapidement les sections de code pertinentes, ils ont trébuché lorsqu'il s'est agi de comprendre comment les différentes parties d'un logiciel interagissaient. Les modèles ont souvent suggéré des corrections superficielles sans comprendre les implications plus profondes de ces changements.
Les grands modèles de langage (LLM) ont peut-être changé le développement logiciel, mais les entreprises devront réfléchir à deux fois avant de remplacer entièrement les ingénieurs logiciels humains par des LLM, même si le PDG d'OpenAI, Sam Altman, affirme que les modèles peuvent remplacer les ingénieurs de « bas niveau ».
D'ailleurs, Emad Mostaque, cofondateur et ancien PDG de Stability AI, estime que l'IA est devenue meilleure que n'importe quel programmeur externalisé : « L'IA est meilleure que n'importe quel programmeur indien externalisé à l'heure actuelle. 2025 verra la destruction complète du marché de l'externalisation des processus d'affaires », a déclaré Emad Mostaque lors de l'émission Moonshots avec Peter Diamandis, fondateur de la Fondation XPRIZE. « Le fait d'être présent en personne sera bénéfique pour votre emploi à l'heure actuelle, car tout ce qui est à distance sera le premier à disparaître », a-t-il ajouté.
Dans un nouvel article, les chercheurs d'OpenAI expliquent en détail comment ils ont développé un benchmark LLM appelé SWE-Lancer pour tester combien les modèles de base peuvent gagner en effectuant des tâches d'ingénierie logicielle en freelance dans la vie réelle. Le test a révélé que, bien que les modèles puissent résoudre des bogues, ils ne peuvent pas comprendre pourquoi le bogue existe et continuent à faire d'autres erreurs.
Les chercheurs ont confié à trois LLM - GPT-4o et o1 d'OpenAI et Claude-3.5 Sonnet d'Anthropic - 1 488 tâches d'ingénieur logiciel freelance provenant de la plateforme Upwork, pour un montant de 1 million de dollars. Ils ont divisé les tâches en deux catégories : les tâches de contribution individuelle (résolution de bogues ou mise en œuvre de fonctionnalités) et les tâches de gestion (où le modèle joue le rôle d'un gestionnaire qui choisira la meilleure proposition pour résoudre les problèmes).
« Les résultats indiquent que le travail en freelance dans le monde réel de notre benchmark reste un défi pour les modèles de langage d'avant-garde », écrivent les chercheurs.
Le test montre que les modèles de base ne peuvent pas remplacer totalement les ingénieurs humains. Bien qu'ils puissent aider à résoudre des bogues, ils ne sont pas tout à fait au niveau où ils peuvent commencer à gagner de l'argent en freelance par eux-mêmes.
Analyse comparative des modèles de freelancing
Les chercheurs et 100 autres ingénieurs logiciels professionnels ont identifié des tâches potentielles sur Upwork et, sans changer aucun mot, les ont transmises à un conteneur Docker pour créer l'ensemble de données SWE-Lancer. Le conteneur n'a pas d'accès à Internet et ne peut pas accéder à GitHub « pour éviter que les modèles ne collectent (scrap) des détails de code ou des Pull Request », expliquent-ils.
L'équipe a identifié 764 tâches de contributeurs individuels, d'une valeur totale d'environ 414 775 dollars, allant de la correction de bogues en 15 minutes à des demandes de fonctionnalités d'une durée d'une semaine. Ces tâches, qui comprenaient l'examen de propositions de pigistes et d'offres d'emploi, auraient été rémunérées à hauteur de 585 225 dollars.
Les tâches ont été ajoutées à la plateforme de facturation Expensify.
Les chercheurs ont généré des invites basées sur le titre et la description de la tâche, ainsi que sur un aperçu de la base de code. S'il y avait d'autres propositions pour résoudre le problème, « nous avons également généré une tâche de gestion en utilisant la description du problème et la liste des propositions », ont-ils expliqué.
À partir de là, les chercheurs sont passés au développement de tests de bout en bout. Ils ont rédigé des tests Playwright pour chaque tâche appliquant les correctifs générés, qui ont ensuite été « triplement vérifiés » par des ingénieurs logiciels professionnels.
« Les tests simulent des flux d'utilisateurs réels, tels que la connexion à l'application, l'exécution d'actions complexes (transactions financières) et la vérification que la solution du modèle fonctionne comme prévu », explique le document.
Résultats du test
Après avoir effectué le test, les chercheurs ont constaté qu'aucun des modèles n'avait permis d'atteindre la valeur totale des tâches, soit 1 million de dollars. Claude 3.5 Sonnet, le modèle le plus performant, n'a gagné que 208 050 dollars et a résolu 26,2 % des problèmes des contributeurs individuels. Cependant, les chercheurs soulignent que « la majorité de ses solutions sont incorrectes et qu'une plus grande fiabilité est nécessaire pour un déploiement digne de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quel est votre avis sur le sujet ?
calvaire,