Un logiciel d’intelligence artificielle, promu comme le tout premier « ingénieur logiciel IA », fait l'objet de critiques sévères après des tests durant un mois qui remettent en question son efficacité. « Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, trois résultats non concluants et seulement trois réussites », ont constaté des chercheurs, soit un maigre taux de réussite d'à peine 15 %, concluant qu'en dépit d'un battage médiatique de près d'un an, il « fonctionnait rarement ». Si l'idée de remplacer des développeurs humains par une IA semblait révolutionnaire, la réalité semble bien différente, selon les témoignages d’utilisateurs et d'experts du domaine.Un service décrit comme « le premier ingénieur logiciel de l'IA » semble être plutôt mauvais dans son travail, d'après une évaluation récente.
Le codeur automatique s'appelle « Devin » et a été introduit en mars 2024. Le créateur du robot, une entreprise appelée Cognition AI, a affirmé que « Devin peut construire et déployer des applications de bout en bout » et « peut trouver et corriger de manière autonome les bogues dans les bases de code ». L'outil a atteint la disponibilité générale en décembre 2024, à partir de 500 $ par mois.
« Devin est un ingénieur logiciel IA autonome qui peut écrire, exécuter et tester du code, aidant les ingénieurs logiciels à travailler sur des tâches personnelles ou sur leurs projets d'équipe », déclare la documentation de Cognition. Il « peut réviser les PR, soutenir les migrations de code, répondre aux problèmes de garde, construire des applications web, et même effectuer des tâches d'assistant personnel comme commander votre déjeuner sur DoorDash afin que vous puissiez rester enfermé dans votre base de code ».
Le service utilise Slack comme interface principale pour les commandes, qui sont envoyées à son environnement informatique, un conteneur Docker qui héberge un terminal, un navigateur, un éditeur de code et un planificateur. L'agent d'IA prend en charge l'intégration API avec des services externes. Cela lui permet, par exemple, d'envoyer des messages électroniques au nom d'un utilisateur via SendGrid.
Devin est un « système d'IA composé », ce qui signifie qu'il s'appuie sur plusieurs modèles d'IA sous-jacents, dont le GPT-4o d'OpenAI, et qu'il est susceptible d'évoluer au fil du temps.
En théorie, vous devriez pouvoir lui demander d'entreprendre des tâches telles que la migration du code vers nbdev, une plateforme de développement de carnets Jupyter, et vous attendre à ce qu'il le fasse avec succès. Mais c'est peut-être trop demander.
Les premières évaluations de Devin ont révélé des problèmes
Cognition AI a publié une vidéo promotionnelle censée montrer le codeur d'IA en train de réaliser des projets de manière autonome sur la plateforme de freelance Upwork.
Il n'a pas fallu longtemps aux chercheurs pour dénoncer la situation, un certain nombre de développeurs de logiciels analysant la vidéo de Cognition et accusant l'entreprise de « mentir » au sujet de ses affirmations.
Parmi eux, figure Carl Brown, développeur de logiciels, qui a analysé cette vidéo et a réfuté les revendications de la vidéo sur sa chaîne YouTube Internet of Bugs.
« Tous ces éléments donnent l'impression que Devin a beaucoup travaillé », a déclaré Carl Brown. « Cela donne l'impression que Devin a accompli beaucoup de choses ».
« Honnêtement, en ce qui me concerne, c'est assez impressionnant », a-t-il ajouté. « Mais s'il faut tenir compte de ce qu'aurait dû être un travail sur Upwork, du fait que plusieurs personnes disent que Devin “prend des travaux sur Upwork et les fait”, et surtout dans le contexte de l'entreprise qui dit que cette vidéo nous permettra de voir Devin être payé pour faire du travail, tout ceci n'est qu'un mensonge, encore une fois ».
L'agent logiciel a également été mis en cause par un autre spécialiste du code sur YouTube pour avoir prétendument inclus des problèmes de sécurité critiques....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.