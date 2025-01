Les premières évaluations de Devin ont révélé des problèmes

Des résultats peu convaincants

Envoyé par Chercheurs d'Answer.AI Envoyé par Travailler avec Devin a montré ce que le développement autonome de l'IA aspire à être. L'interface utilisateur est soignée - discuter via Slack, le voir travailler de manière asynchrone, le voir mettre en place des environnements et gérer les dépendances. Lorsque cela fonctionnait, c'était impressionnant.



Mais c'est bien là le problème : il ne fonctionnait que rarement. Sur les 20 tâches que nous avons tentées, nous avons constaté 14 échecs, 3 résultats non concluants et seulement 3 réussites. Ce qui est encore plus inquiétant, c'est notre incapacité à prédire quelles tâches seraient couronnées de succès. Même les tâches similaires à nos premières réussites échouaient de manière complexe et fastidieuse. La nature autonome qui semblait prometteuse est devenue un handicap - Devin passait des jours à rechercher des solutions impossibles plutôt qu'à reconnaître les obstacles fondamentaux.



Cette situation reflète une tendance que nous avons observée à plusieurs reprises dans le domaine des outils d'IA. L'engouement des médias sociaux et la valorisation des entreprises n'ont qu'un rapport minime avec l'utilité dans le monde réel. Nous avons constaté que le signal le plus fiable provient des récits détaillés d'utilisateurs qui livrent des produits et des services. Pour l'instant, nous nous en tenons à des outils qui nous permettent de piloter le processus de développement tout en fournissant une assistance IA en cours de route.

Devin de Congition met en évidence l'écart souvent important entre les affirmations des entreprises d'IA et la réalité

Un service décrit comme « le premier ingénieur logiciel de l'IA » semble être plutôt mauvais dans son travail, d'après une évaluation récente.Le codeur automatique s'appelle « Devin » et a été introduit en mars 2024. Le créateur du robot, une entreprise appelée Cognition AI, a affirmé que « Devin peut construire et déployer des applications de bout en bout » et « peut trouver et corriger de manière autonome les bogues dans les bases de code ». L'outil a atteint la disponibilité générale en décembre 2024, à partir de 500 $ par mois.« Devin est un ingénieur logiciel IA autonome qui peut écrire, exécuter et tester du code, aidant les ingénieurs logiciels à travailler sur des tâches personnelles ou sur leurs projets d'équipe », déclare la documentation de Cognition. Il « peut réviser les PR, soutenir les migrations de code, répondre aux problèmes de garde, construire des applications web, et même effectuer des tâches d'assistant personnel comme commander votre déjeuner sur DoorDash afin que vous puissiez rester enfermé dans votre base de code ».Le service utilise Slack comme interface principale pour les commandes, qui sont envoyées à son environnement informatique, un conteneur Docker qui héberge un terminal, un navigateur, un éditeur de code et un planificateur. L'agent d'IA prend en charge l'intégration API avec des services externes. Cela lui permet, par exemple, d'envoyer des messages électroniques au nom d'un utilisateur via SendGrid.Devin est un « système d'IA composé », ce qui signifie qu'il s'appuie sur plusieurs modèles d'IA sous-jacents, dont le GPT-4o d'OpenAI, et qu'il est susceptible d'évoluer au fil du temps.En théorie, vous devriez pouvoir lui demander d'entreprendre des tâches telles que la migration du code vers nbdev, une plateforme de développement de carnets Jupyter, et vous attendre à ce qu'il le fasse avec succès. Mais c'est peut-être trop demander.Cognition AI a publié une vidéo promotionnelle censée montrer le codeur d'IA en train de réaliser des projets de manière autonome sur la plateforme de freelance Upwork.Il n'a pas fallu longtemps aux chercheurs pour dénoncer la situation, un certain nombre de développeurs de logiciels analysant la vidéo de Cognition et accusant l'entreprise de « mentir » au sujet de ses affirmations.Parmi eux, figure Carl Brown, développeur de logiciels, qui a analysé cette vidéo et a réfuté les revendications de la vidéo sur sa chaîne YouTube« Tous ces éléments donnent l'impression que Devin a beaucoup travaillé », a déclaré Carl Brown. « Cela donne l'impression que Devin a accompli beaucoup de choses ».« Honnêtement, en ce qui me concerne, c'est assez impressionnant », a-t-il ajouté. « Mais s'il faut tenir compte de ce qu'aurait dû être un travail sur Upwork, du fait que plusieurs personnes disent que Devin “prend des travaux sur Upwork et les fait”, et surtout dans le contexte de l'entreprise qui dit que cette vidéo nous permettra de voir Devin être payé pour faire du travail, tout ceci n'est qu'un mensonge, encore une fois ».L'agent logiciel a également été mis en cause par un autre spécialiste du code sur YouTube pour avoir prétendument inclus des problèmes de sécurité critiques.Dans une analyse menée par Hamel Husain, Isaac Flath et Johno Whitaker, une équipe de data scientists spécialisés dans l'apprentissage automatique et travaillant pour le laboratoire indépendant de recherche et de développement en IA Answer.AI, Devin a bien commencé, réussissant à extraire des données d'une base de données Notion vers Google Sheets. L'agent d'IA a également réussi à créer un traqueur de planètes pour vérifier les affirmations sur les positions historiques de Jupiter et de Saturne.Mais au fur et à mesure que les trois chercheurs poursuivaient leurs tests, ils ont rencontré des problèmes.« Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures, Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables », expliquent les chercheurs dans leur rapport. « Ce qui est encore plus inquiétant, c'est la tendance de Devin à poursuivre des tâches qui n'étaient pas possibles en réalité ».À titre d'exemple, ils citent comment Devin, lorsqu'on lui a demandé de déployer plusieurs applications sur la plateforme de déploiement d'infrastructure Railway, n'a pas compris que cela n'était pas pris en charge et a passé plus d'une journée à essayer des approches qui n'ont pas fonctionné et à halluciner sur des fonctionnalités inexistantes.Sur les 20 tâches proposées à Devin, l'ingénieur logiciel en IA n'en a accompli que trois de manière satisfaisante - les deux citées ci-dessus et un troisième défi consistant à chercher comment construire un robot Discord en Python. Trois autres tâches ont donné des résultats non concluants, et 14 projets ont carrément échoué.Les résultats soulignent que malgré le marketing tapageur de Cognition AI sur la capacité de Devin à « construire et déployer des applications de bout en bout » lorsque l'outil a été introduit pour la première fois en mars 2024, la technologie est toujours confrontée à certains problèmes fondamentaux.Il s'agit d'un sujet pertinent, le PDG de Meta, Mark Zuckerberg, ayant récemment annoncé qu'il avait l'intention de remplacer les « ingénieurs de niveau intermédiaire » par l'IA dès cette année. OpenAI devrait également « annoncer une nouvelle avancée qui permettra à des super-agents de niveau doctoral d'effectuer des tâches humaines complexes ».Mais la question de savoir si la technologie sera réellement à la hauteur du battage médiatique et si elle sera prête à remplacer les travailleurs humains dans un délai aussi court (ou même si elle sera prête à remplacer tout court) reste ouverte.Comme le souligne l'équipe d'Answer.AI, les premières démonstrations de l'assistant d'IA étaient impressionnantes. Dans une vidéo diffusée en mars, Cognition affirmait que Devin pouvait être utilisé pour « gagner de l'argent en prenant en charge des tâches fastidieuses » sur la plateforme de freelancing Upwork.Answer.AI et Brown ont tous deux constaté que Devin prenait également beaucoup plus de temps que n'importe quel codeur humain pour réaliser des tâches. « Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures », écrivent les chercheurs d'Answer.AI, « Devin restant bloqué dans des impasses techniques ou produisant des solutions trop complexes et inutilisables ».En sommes, Devin de Congition met en évidence l'écart souvent important entre les affirmations des entreprises d'IA et la réalité, qui affecte le secteur depuis des années maintenant.Il reste donc à voir si un assistant d'IA sera un jour capable de remplacer de manière compétente un ingénieur logiciel - sans causer de maux de tête majeurs à ses collègues humains, du moins.Source : chercheurs d'Answer.AI Peut-on considérer qu'une IA a sa place dans le développement logiciel si elle génère des erreurs nécessitant des corrections humaines ?Les bogues générés par l’IA sont-ils le signe d’une immaturité technologique ou d’une limite inhérente à ce type de système ?Une IA doit-elle être conçue pour remplacer les développeurs humains ou pour les assister dans des tâches précises ?En tant que développeur, quels types de tâches seriez-vous prêts à déléguer à une IA sans compromettre la qualité du produit final ?Les entreprises qui misent sur ces outils peuvent-elles réellement faire des économies ou risquent-elles de perdre du temps à corriger les erreurs ?Le coût d’intégration et de formation à ces outils justifie-t-il les bénéfices potentiels qu’ils offrent ?Une IA peut-elle réellement innover dans la conception logicielle, ou sera-t-elle toujours limitée à des solutions stéréotypées ?