Le « premier ingénieur logiciel IA » loin d'être à la hauteur : Devin a un taux de réussite de 15 %

Des chercheurs notent que l'IA prend des jours pour faire des tâches simples qui auraient pris des heures

Le 27 janvier 2025 à 16:18, par Stéphane le calme

13PARTAGES

Un logiciel d’intelligence artificielle, promu comme le tout premier « ingénieur logiciel IA », fait l'objet de critiques sévères après des tests durant un mois qui remettent en question son efficacité. « Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, trois résultats non concluants et seulement trois réussites », ont constaté des chercheurs, soit un maigre taux de réussite d'à peine 15 %, concluant qu'en dépit d'un battage médiatique de près d'un an, il « fonctionnait rarement ». Si l'idée de remplacer des développeurs humains par une IA semblait révolutionnaire, la réalité semble bien différente, selon les témoignages d’utilisateurs et d'experts du domaine.

Un service décrit comme « le premier ingénieur logiciel de l'IA » semble être plutôt mauvais dans son travail, d'après une évaluation récente.

Le codeur automatique s'appelle « Devin » et a été introduit en mars 2024. Le créateur du robot, une entreprise appelée Cognition AI, a affirmé que « Devin peut construire et déployer des applications de bout en bout » et « peut trouver et corriger de manière autonome les bogues dans les bases de code ». L'outil a atteint la disponibilité générale en décembre 2024, à partir de 500 $ par mois.

« Devin est un ingénieur logiciel IA autonome qui peut écrire, exécuter et tester du code, aidant les ingénieurs logiciels à travailler sur des tâches personnelles ou sur leurs projets d'équipe », déclare la documentation de Cognition. Il « peut réviser les PR, soutenir les migrations de code, répondre aux problèmes de garde, construire des applications web, et même effectuer des tâches d'assistant personnel comme commander votre déjeuner sur DoorDash afin que vous puissiez rester enfermé dans votre base de code ».

Le service utilise Slack comme interface principale pour les commandes, qui sont envoyées à son environnement informatique, un conteneur Docker qui héberge un terminal, un navigateur, un éditeur de code et un planificateur. L'agent d'IA prend en charge l'intégration API avec des services externes. Cela lui permet, par exemple, d'envoyer des messages électroniques au nom d'un utilisateur via SendGrid.

Devin est un « système d'IA composé », ce qui signifie qu'il s'appuie sur plusieurs modèles d'IA sous-jacents, dont le GPT-4o d'OpenAI, et qu'il est susceptible d'évoluer au fil du temps.

En théorie, vous devriez pouvoir lui demander d'entreprendre des tâches telles que la migration du code vers nbdev, une plateforme de développement de carnets Jupyter, et vous attendre à ce qu'il le fasse avec succès. Mais c'est peut-être trop demander.

Les premières évaluations de Devin ont révélé des problèmes

Cognition AI a publié une vidéo promotionnelle censée montrer le codeur d'IA en train de réaliser des projets de manière autonome sur la plateforme de freelance Upwork.

Il n'a pas fallu longtemps aux chercheurs pour dénoncer la situation, un certain nombre de développeurs de logiciels analysant la vidéo de Cognition et accusant l'entreprise de « mentir » au sujet de ses affirmations.

Parmi eux, figure Carl Brown, développeur de logiciels, qui a analysé cette vidéo et a réfuté les revendications de la vidéo sur sa chaîne YouTube Internet of Bugs.

« Tous ces éléments donnent l'impression que Devin a beaucoup travaillé », a déclaré Carl Brown. « Cela donne l'impression que Devin a accompli beaucoup de choses ».

« Honnêtement, en ce qui me concerne, c'est assez impressionnant », a-t-il ajouté. « Mais s'il faut tenir compte de ce qu'aurait dû être un travail sur Upwork, du fait que plusieurs personnes disent que Devin “prend des travaux sur Upwork et les fait”, et surtout dans le contexte de l'entreprise qui dit que cette vidéo nous permettra de voir Devin être payé pour faire du travail, tout ceci n'est qu'un mensonge, encore une fois ».

L'agent logiciel a également été mis en cause par un autre spécialiste du code sur YouTube pour avoir prétendument inclus des problèmes de sécurité critiques.

Des résultats peu convaincants

Dans une analyse menée par Hamel Husain, Isaac Flath et Johno Whitaker, une équipe de data scientists spécialisés dans l'apprentissage automatique et travaillant pour le laboratoire indépendant de recherche et de développement en IA Answer.AI, Devin a bien commencé, réussissant à extraire des données d'une base de données Notion vers Google Sheets. L'agent d'IA a également réussi à créer un traqueur de planètes pour vérifier les affirmations sur les positions historiques de Jupiter et de Saturne.

Mais au fur et à mesure que les trois chercheurs poursuivaient leurs tests, ils ont rencontré des problèmes.

« Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures, Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables », expliquent les chercheurs dans leur rapport. « Ce qui est encore plus inquiétant, c'est la tendance de Devin à poursuivre des tâches qui n'étaient pas possibles en réalité ».

À titre d'exemple, ils citent comment Devin, lorsqu'on lui a demandé de déployer plusieurs applications sur la plateforme de déploiement d'infrastructure Railway, n'a pas compris que cela n'était pas pris en charge et a passé plus d'une journée à essayer des approches qui n'ont pas fonctionné et à halluciner sur des fonctionnalités inexistantes.

Sur les 20 tâches proposées à Devin, l'ingénieur logiciel en IA n'en a accompli que trois de manière satisfaisante - les deux citées ci-dessus et un troisième défi consistant à chercher comment construire un robot Discord en Python. Trois autres tâches ont donné des résultats non concluants, et 14 projets ont carrément échoué.

[QUOTE=Chercheurs d'Answer.AI]Travailler avec Devin a montré ce que le développement autonome de l'IA aspire à être. L'interface utilisateur est soignée - discuter via Slack, le voir travailler de manière asynchrone, le voir mettre en place des environnements et gérer les dépendances. Lorsque cela fonctionnait, c'était impressionnant.

Mais c'est bien là le problème : il ne fonctionnait que rarement. Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, 3 résultats non concluants et seulement 3 réussites. Ce qui est encore plus inquiétant, c'est notre incapacité à prédire quelles tâches seraient couronnées de succès. Même les tâches similaires à nos premières réussites échouaient de manière complexe et fastidieuse. La nature autonome qui semblait prometteuse est devenue un handicap - Devin passait des jours à rechercher des solutions impossibles plutôt qu'à reconnaître les obstacles fondamentaux.

Cette situation reflète une tendance que nous avons observée à plusieurs reprises dans le domaine des outils d'IA. L'engouement des médias sociaux et la valorisation des entreprises n'ont qu'un rapport minime avec l'utilité dans le monde réel. Nous avons constaté que le signal le plus fiable provient des récits détaillés d'utilisateurs qui livrent des produits et des services. Pour l'instant, nous nous en tenons à des outils qui nous permettent de piloter le processus de développement tout en fournissant une assistance IA en cours de route.[[/quote=chercheurs d'answer.ai]...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le « premier ingénieur logiciel IA » loin d'être à la hauteur : Devin a un taux de réussite de 15 %

Des chercheurs notent que l'IA prend des jours pour faire des tâches simples qui auraient pris des heures

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le « premier ingénieur logiciel IA » loin d'être à la hauteur : Devin a un taux de réussite de 15 % Des chercheurs notent que l'IA prend des jours pour faire des tâches simples qui auraient pris des heures

Le « premier ingénieur logiciel IA » loin d'être à la hauteur : Devin a un taux de réussite de 15 %

Des chercheurs notent que l'IA prend des jours pour faire des tâches simples qui auraient pris des heures