IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Le « premier ingénieur logiciel IA » loin d'être à la hauteur : Devin a un taux de réussite de 15 %
Des chercheurs notent que l'IA prend des jours pour faire des tâches simples qui auraient pris des heures

Le , par Stéphane le calme

8PARTAGES

13  0 
Un logiciel d’intelligence artificielle, promu comme le tout premier « ingénieur logiciel IA », fait l'objet de critiques sévères après des tests durant un mois qui remettent en question son efficacité. « Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, trois résultats non concluants et seulement trois réussites », ont constaté des chercheurs, soit un maigre taux de réussite d'à peine 15 %, concluant qu'en dépit d'un battage médiatique de près d'un an, il « fonctionnait rarement ». Si l'idée de remplacer des développeurs humains par une IA semblait révolutionnaire, la réalité semble bien différente, selon les témoignages d’utilisateurs et d'experts du domaine.

Un service décrit comme « le premier ingénieur logiciel de l'IA » semble être plutôt mauvais dans son travail, d'après une évaluation récente.

Le codeur automatique s'appelle « Devin » et a été introduit en mars 2024. Le créateur du robot, une entreprise appelée Cognition AI, a affirmé que « Devin peut construire et déployer des applications de bout en bout » et « peut trouver et corriger de manière autonome les bogues dans les bases de code ». L'outil a atteint la disponibilité générale en décembre 2024, à partir de 500 $ par mois.

« Devin est un ingénieur logiciel IA autonome qui peut écrire, exécuter et tester du code, aidant les ingénieurs logiciels à travailler sur des tâches personnelles ou sur leurs projets d'équipe », déclare la documentation de Cognition. Il « peut réviser les PR, soutenir les migrations de code, répondre aux problèmes de garde, construire des applications web, et même effectuer des tâches d'assistant personnel comme commander votre déjeuner sur DoorDash afin que vous puissiez rester enfermé dans votre base de code ».

Le service utilise Slack comme interface principale pour les commandes, qui sont envoyées à son environnement informatique, un conteneur Docker qui héberge un terminal, un navigateur, un éditeur de code et un planificateur. L'agent d'IA prend en charge l'intégration API avec des services externes. Cela lui permet, par exemple, d'envoyer des messages électroniques au nom d'un utilisateur via SendGrid.

Devin est un « système d'IA composé », ce qui signifie qu'il s'appuie sur plusieurs modèles d'IA sous-jacents, dont le GPT-4o d'OpenAI, et qu'il est susceptible d'évoluer au fil du temps.

En théorie, vous devriez pouvoir lui demander d'entreprendre des tâches telles que la migration du code vers nbdev, une plateforme de développement de carnets Jupyter, et vous attendre à ce qu'il le fasse avec succès. Mais c'est peut-être trop demander.

Les premières évaluations de Devin ont révélé des problèmes

Cognition AI a publié une vidéo promotionnelle censée montrer le codeur d'IA en train de réaliser des projets de manière autonome sur la plateforme de freelance Upwork.


Il n'a pas fallu longtemps aux chercheurs pour dénoncer la situation, un certain nombre de développeurs de logiciels analysant la vidéo de Cognition et accusant l'entreprise de « mentir » au sujet de ses affirmations.

Parmi eux, figure Carl Brown, développeur de logiciels, qui a analysé cette vidéo et a réfuté les revendications de la vidéo sur sa chaîne YouTube Internet of Bugs.

« Tous ces éléments donnent l'impression que Devin a beaucoup travaillé », a déclaré Carl Brown. « Cela donne l'impression que Devin a accompli beaucoup de choses ».

« Honnêtement, en ce qui me concerne, c'est assez impressionnant », a-t-il ajouté. « Mais s'il faut tenir compte de ce qu'aurait dû être un travail sur Upwork, du fait que plusieurs personnes disent que Devin “prend des travaux sur Upwork et les fait”, et surtout dans le contexte de l'entreprise qui dit que cette vidéo nous permettra de voir Devin être payé pour faire du travail, tout ceci n'est qu'un mensonge, encore une fois ».


L'agent logiciel a également été mis en cause par un autre spécialiste du code sur YouTube pour avoir prétendument inclus des problèmes de sécurité critiques.


Des résultats peu convaincants

Dans une analyse menée par Hamel Husain, Isaac Flath et Johno Whitaker, une équipe de data scientists spécialisés dans l'apprentissage automatique et travaillant pour le laboratoire indépendant de recherche et de développement en IA Answer.AI, Devin a bien commencé, réussissant à extraire des données d'une base de données Notion vers Google Sheets. L'agent d'IA a également réussi à créer un traqueur de planètes pour vérifier les affirmations sur les positions historiques de Jupiter et de Saturne.

Mais au fur et à mesure que les trois chercheurs poursuivaient leurs tests, ils ont rencontré des problèmes.

« Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures, Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables », expliquent les chercheurs dans leur rapport. « Ce qui est encore plus inquiétant, c'est la tendance de Devin à poursuivre des tâches qui n'étaient pas possibles en réalité ».

À titre d'exemple, ils citent comment Devin, lorsqu'on lui a demandé de déployer plusieurs applications sur la plateforme de déploiement d'infrastructure Railway, n'a pas compris que cela n'était pas pris en charge et a passé plus d'une journée à essayer des approches qui n'ont pas fonctionné et à halluciner sur des fonctionnalités inexistantes.

Sur les 20 tâches proposées à Devin, l'ingénieur logiciel en IA n'en a accompli que trois de manière satisfaisante - les deux citées ci-dessus et un troisième défi consistant à chercher comment construire un robot Discord en Python. Trois autres tâches ont donné des résultats non concluants, et 14 projets ont carrément échoué.

Citation Envoyé par Chercheurs d'Answer.AI
Travailler avec Devin a montré ce que le développement autonome de l'IA aspire à être. L'interface utilisateur est soignée - discuter via Slack, le voir travailler de manière asynchrone, le voir mettre en place des environnements et gérer les dépendances. Lorsque cela fonctionnait, c'était impressionnant.

Mais c'est bien là le problème : il ne fonctionnait que rarement. Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, 3 résultats non concluants et seulement 3 réussites. Ce qui est encore plus inquiétant, c'est notre incapacité à prédire quelles tâches seraient couronnées de succès. Même les tâches similaires à nos premières réussites échouaient de manière complexe et fastidieuse. La nature autonome qui semblait prometteuse est devenue un handicap - Devin passait des jours à rechercher des solutions impossibles plutôt qu'à reconnaître les obstacles fondamentaux.

Cette situation reflète une tendance que nous avons observée à plusieurs reprises dans le domaine des outils d'IA. L'engouement des médias sociaux et la valorisation des entreprises n'ont qu'un rapport minime avec l'utilité dans le monde réel. Nous avons constaté que le signal le plus fiable provient des récits détaillés d'utilisateurs qui livrent des produits et des services. Pour l'instant, nous nous en tenons à des outils qui nous permettent de piloter le processus de développement tout en fournissant une assistance IA en cours de route.

Devin de Congition met en évidence l'écart souvent important entre les affirmations des entreprises d'IA et la réalité

Les résultats soulignent que malgré le marketing tapageur de Cognition AI sur la capacité de Devin à « construire et déployer des applications de bout en bout » lorsque l'outil a été introduit pour la première fois en mars 2024, la technologie est toujours confrontée à certains problèmes fondamentaux.

Il s'agit d'un sujet pertinent, le PDG de Meta, Mark Zuckerberg, ayant récemment annoncé qu'il avait l'intention de remplacer les « ingénieurs de niveau intermédiaire » par l'IA dès cette année. OpenAI devrait également « annoncer une nouvelle avancée qui permettra à des super-agents de niveau doctoral d'effectuer des tâches humaines complexes ».

Mais la question de savoir si la technologie sera réellement à la hauteur du battage médiatique et si elle sera prête à remplacer les travailleurs humains dans un délai aussi court (ou même si elle sera prête à remplacer tout court) reste ouverte.

Comme le souligne l'équipe d'Answer.AI, les premières démonstrations de l'assistant d'IA étaient impressionnantes. Dans une vidéo diffusée en mars, Cognition affirmait que Devin pouvait être utilisé pour « gagner de l'argent en prenant en charge des tâches fastidieuses » sur la plateforme de freelancing Upwork.

Answer.AI et Brown ont tous deux constaté que Devin prenait également beaucoup plus de temps que n'importe quel codeur humain pour réaliser des tâches. « Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures », écrivent les chercheurs d'Answer.AI, « Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables ».

En sommes, Devin de Congition met en évidence l'écart souvent important entre les affirmations des entreprises d'IA et la réalité, qui affecte le secteur depuis des années maintenant.

Il reste donc à voir si un assistant d'IA sera un jour capable de remplacer de manière compétente un ingénieur logiciel - sans causer de maux de tête majeurs à ses collègues humains, du moins.

Source : chercheurs d'Answer.AI

Et vous ?

Peut-on considérer qu'une IA a sa place dans le développement logiciel si elle génère des erreurs nécessitant des corrections humaines ?

Les bogues générés par l’IA sont-ils le signe d’une immaturité technologique ou d’une limite inhérente à ce type de système ?

Une IA doit-elle être conçue pour remplacer les développeurs humains ou pour les assister dans des tâches précises ?

En tant que développeur, quels types de tâches seriez-vous prêts à déléguer à une IA sans compromettre la qualité du produit final ?

Les entreprises qui misent sur ces outils peuvent-elles réellement faire des économies ou risquent-elles de perdre du temps à corriger les erreurs ?

Le coût d’intégration et de formation à ces outils justifie-t-il les bénéfices potentiels qu’ils offrent ?

Une IA peut-elle réellement innover dans la conception logicielle, ou sera-t-elle toujours limitée à des solutions stéréotypées ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Pierre Louis Chevalier
Expert éminent sénior https://www.developpez.com
Le 27/01/2025 à 16:46
Encore une startup qui a encaissé des millions de $ pour vendre du rêve à des investisseurs naïfs excités par la nouvelle bulle IA.

Et est-ce que c'est une vrai IA ? Si "ça prends des jours", c'est pas plutôt un codeur en inde payé un euro de l'heure qui envoi les réponses ?
4  0 
Avatar de Nym4x
Membre confirmé https://www.developpez.com
Le 28/01/2025 à 12:57
S’il suffisait de copier coller du code stackoverflow ou github cela ce saurait… La plupart du code à valeur ajoutée utilisé en entreprises n’est pas sur github ou stackoverflow. L’ia generative reste de l’esbroufe, une simulation d’intelligence par brut forcing et une bulle spéculative.
1  0 
Avatar de Nym4x
Membre confirmé https://www.developpez.com
Le 27/01/2025 à 19:09
Content de voir que les chercheurs arrivent aux mêmes conclusions que moi. Comme je l’ai dit dans un autre thread, les tests de l’ia sur des applications réelles sont décevants:

Citation Envoyé par Nym4xx
C’est surprenant parce que quand j’essaie régulièrement d’utiliser une IA pour coder je suis déçu. Encore ce week-end j’ai tenté de lui faire générer une app classique expressjs/typescript avec authentification et une entité. Et bien il faut que je lui dicte exactement ce qu’il faut qu’elle utilise sinon pas de winston par exemple ou encore la gestion des erreurs n’est pas centralisée mais gérée dans chaque route dans le catch avec un res.send, elle invente des commandes ou oublient des paramètres (typeorm pour générer des migrations par exemple), il y avait 13 erreurs de compilation dont certaines qu’elle n’a pas su corriger, l’authentification ne fonctionne pas pour les utilisateurs créés, elle ne gère pas les refresh tokens etc… De même elle oublie du code généré avant quand elle corrige ses erreurs: les erreurs étaient affichées avec des console.error() au lieu d’utiliser winston par exemple et on voit bien qu’elle ne comprend pas ce qu’elle génère globalement.
0  0 
Avatar de dee phoenix
Membre du Club https://www.developpez.com
Le 27/01/2025 à 22:29
"Rome ne s'est pas faite en un jour"
0  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 28/01/2025 à 7:58
j'ai retesté ce weekend gemini et l'ia d'office 365 copilot, vraiment à la ramasse et inutile, aucune requête ne donnait de bon résultat.
seul chatgpt me donne de "bon" résultats, mais ces réponses sont absolument pas plug and play, il continue de m'inventer des api ou méthodes de fonctions d'objet qui n'existe pas.
et si je lui donne la sortie d'erreur il m'invente un autre truc qui marche pas, puis si je lui retourne la nouvelle erreur alors il me redonne sa 1ere solution, et sa tourne en rond comme ça indéfiniment.

entre le marketing et la réalité, l'ia est très décevante.

je ne pense pas que dans le futur la qualité des réponses va s'améliorer (à la marge en tous cas), les ia comme chatgpt ont déjà été entrainé avec de bon datasets et massifs. Ils ont déjà tous pompé stackoverflow, github et wikipedia, il n'y a plus de nouvelle donnés a exploiter.
je pense par contre que les boites vont orienter la r&d vers des modèles moins couteux comme le fait DeepSeek.

il reste encore peut être les vidéos youtubes (la transcription audio) mais j'ai du mal a y voir l’intérêt, les videos youtubes ne sont souvent qu'un support de présentation "fun" d'un sujet chiant, par exemple du droits ou de la sciences, le youtubeur lit des papiers bien chiant en anglais, ce que l'ia a du déjà faire en pompant scihub et autres sites....
mais youtube ne crée pas de l'information de qualité, elle le présente de manière ludique, contrairement a stackoverflow ou wikipedia ou le site de droit du gouvernement français par exemple.
0  0