
ils ont mis 19 % plus de temps à accomplir leurs tâches de codage
Les assistants d'IA de codage sont censés accélérer le développement de logiciels. Les entreprises d'IA comme Microsoft affirment que leurs outils améliorent déjà la productivité des développeurs, mais les études rigoureuses indépendantes révèlent le contraire. Une nouvelle étude du Model Evaluation & Threat Research rapporte que l'utilisation d'outils d'IA fait perdre du temps aux développeurs. Ils s'attendaient à une augmentation de 24 % de leur productivité, mais l'équipe a constaté un ralentissement de 19 %. Une précédente étude a révélé que l'utilisation d'outils d'IA n'augmente pas la vitesse de codage, mais augmente significativement le taux de bogues.
Le débat se poursuit au sein de la communauté des développeurs, avec des opinions divergentes sur les véritables avantages en matière de productivité des outils d'IA de codage, soulignant la nécessité d'une évaluation minutieuse de leur impact dans le monde réel. Si certaines entreprises ont fait état de gains de productivité significatifs grâce aux outils d'IA, d'autres ont constaté qu'ils introduisaient des erreurs et compliquaient les processus de débogage.
Les outils de codage ont été un cas d'utilisation précoce évident dans la ruée vers l'IA générative. Cependant, certaines observations montrent que les développeurs débutants ont souvent du mal à égaler l'efficacité des développeurs confirmés, même lorsqu'ils se font aider par les assistants d'IA.
La nouvelle étude du Model Evaluation & Threat Research (METR) rapporte que les outils d'IA de codage ralentissaient les développeurs, alors qu'on s'attendait à ce qu'il en soit autrement. Le METR est un organisme à but non lucratif qui se consacre à l'évaluation des capacités et de l'alignement des modèles d'apprentissage automatique. Il collabore avec des laboratoires d'IA tels qu'Anthropic et OpenAI pour réaliser des évaluations préliminaires de leurs modèles.
Méthodologie
L'étude a porté sur 16 développeurs expérimentés qui travaillent sur de grands projets open source. Les développeurs ont fourni une liste de problèmes réels (corrections de bogues, nouvelles fonctionnalités, etc.) qu'ils devaient traiter - 246 au total - et ont prévu combien de temps ces tâches allaient prendre. Ensuite, les chercheurs ont attribué au hasard à chaque problème l'autorisation ou l'interdiction d'utiliser l'IA pendant le travail sur le problème.
Lorsque l'IA est autorisée, les développeurs peuvent utiliser les outils de leur choix (principalement Cursor Pro avec Claude 3.5/3.7 Sonnet) ; lorsqu'elle est interdite, ils travaillent sans l'aide de l'IA générative. Les développeurs accomplissent ces tâches (qui durent en moyenne deux heures chacune) tout en enregistrant leur écran, puis déclarent eux-mêmes le temps total de mise en œuvre dont ils ont eu besoin. Le travail s'est déroulé entre février et juin 2025.
Principaux résultats
Lorsque les développeurs sont autorisés à utiliser des outils d'IA, ils mettent 19 % plus de temps à résoudre les problèmes, ce qui représente un ralentissement significatif qui va à l'encontre des convictions et des prévisions des experts. L'écart entre la perception et la réalité est frappant : les développeurs s'attendaient à ce que l'IA les accélère de 24 %, et même après avoir subi le ralentissement, ils pensaient encore que l'IA les avait accélérés de 20 %.
« Nous pouvons clairement constater que les développeurs mettent beaucoup plus de temps lorsqu'ils sont autorisés à utiliser des outils d'IA », ont écrit les chercheurs dans leur rapport. L'équipe indique que le ralentissement induit par l'IA générative peut être attribué à cinq facteurs :
- optimisme excessif quant à l'utilité de l'IA (les développeurs avaient des attentes irréalistes) ;
- grande familiarité des développeurs avec les référentiels (les développeurs étaient suffisamment expérimentés pour que l'aide de l'IA n'ait rien à leur apporter) ;
- référentiels vastes et complexes (l'IA est moins performante dans les grands référentiels de plus d'un million de lignes de code) ;
- faible fiabilité de l'IA (les développeurs ont accepté moins de 44 % des suggestions générées et ont ensuite passé du temps à les nettoyer et à les réviser) ;
- contexte implicite du référentiel (l'IA ne comprenait pas le contexte dans lequel elle opérait).
D'autres considérations telles que la latence de génération de l'IA et l'incapacité à fournir aux modèles un contexte optimal (entrée) peuvent avoir joué un rôle dans les résultats, mais les chercheurs affirment qu'ils ne sont pas certains de l'impact de ces éléments sur l'étude.
L'IA n'est pas toujours à la hauteur des espérances
D'autres études ont tiré des conclusions similaires. Une étude de l'entreprise Qodo, spécialisée dans les outils d'IA de codage, a montré que certains des avantages de l'assistance logicielle de l'IA sont amoindris par la nécessité d'effectuer un travail supplémentaire pour vérifier les suggestions de code de l'IA. Une étude économique a montré que l'IA générative n'a eu aucun impact sur l'emploi ou les salaires, sur la base de données provenant du Danemark.
Une étude d'Intel a montré que les PC propulsés par l'IA rendent les utilisateurs moins productifs. Enfin, les employés d'un centre d'appel d'une compagnie d'électricité chinoise affirment que si l'assistance de l'IA peut accélérer certaines tâches, elle les ralentit également en créant davantage de travail.
Les outils d'IA de codage augmentent le taux de bogues
Une étude publiée en septembre 2024 par la société d'analyse Uplevel indique que les améliorations de productivité promises par l'IA sont loin d'être au rendez-vous, si tant est qu'elles existent. Uplevel rapporte que l'utilisation de GitHub Copilot (de Microsoft) n'augmente pas la vitesse de codage, mais augmente significativement le taux de bogues. Selon les données de l'étude, l'utilisation de GitHub Copilot a introduit 41 % de bogues supplémentaires.
« Cela suggère que Copilot peut avoir un impact négatif sur la qualité du code. Les responsables de l'ingénierie peuvent souhaiter creuser davantage pour trouver les PR avec des bogues et mettre en place des garde-fous pour l'utilisation responsable de l'IA générative », indique le rapport d'Uplevel.
L'étude a mesuré le temps de cycle des demandes de fusion (pull request - PR), c'est-à-dire le temps nécessaire pour fusionner le code dans un dépôt, et le débit des PR, c'est-à-dire le nombre de demandes de fusion fusionnées. Elle n'a révélé aucune amélioration significative pour les développeurs utilisant GitHub Copilot. Ce résultat est l'un des trois énumérés par l'entreprise, qui a déclaré avoir mené la recherche pour répondre à trois questions :
- l'accès à GitHub Copilot aide-t-il les développeurs à produire du code plus rapidement ?
- GitHub Copilot aide-t-il les développeurs à produire un code de meilleure qualité ?
- GitHub Copilot atténue-t-il l'impact de l'épuisement des développeurs ?
Dans le cadre de l'étude, Uplevel a utilisé les données générées par ses clients et a comparé la production d'environ 800 développeurs utilisant GitHub Copilot sur une période de trois mois à leur production sur une période de trois mois avant l'adoption. Les deux autres conclusions d'Uplevel sont les suivantes :
Pas de changement significatif dans les mesures d'efficacité
« En comparant le temps de cycle, le débit et la complexité des RP avec les RP avec tests, GitHub Copilot n'a ni aidé ni nui aux développeurs de l'échantillon, et n'a pas non plus augmenté la vitesse de codage. Bien que certaines de ces mesures soient statistiquement significatives, le changement réel n'a pas eu d'incidence sur les résultats techniques, par exemple le temps de cycle a diminué de 1,7 minute », indique le rapport d'Uplevel.
Atténuation du risque d'épuisement professionnel
L'indicateur « Sustained Always On » d'Uplevel (temps de travail prolongé en dehors des heures normales et indicateur avancé d'épuisement professionnel) a diminué dans les deux groupes. Mais il a diminué de 17 % pour ceux qui avaient accès à GitHub Copilot et de près de 28 % pour ceux qui n'y avaient pas accès.
Une étude publiée par GitHub a abouti à des conclusions différentes
« L'étude d'Uplevel a été motivée par la curiosité suscitée par les affirmations selon lesquelles les assistants d'IA de codage deviendraient omniprésents », a déclaré Matt Hoffman, chef de produit et analyste de données au sein de l'entreprise. Une étude de GitHub publiée en août 2024 a révélé que 97 % des ingénieurs logiciels et des programmeurs déclaraient utiliser des outils d'IA de codage. D'autres études ont également donné des résultats similaires.
Dans le cadre de son étude, GitHub rapporte que plus de 97 % des personnes interrogées ont déclaré avoir utilisé des outils d'IA de codage au travail à un moment ou à un autre, un résultat qui se vérifie dans les quatre pays. Toutefois, un pourcentage plus faible de répondants ont déclaré que leur entreprise encourageait activement l'adoption d'outils d'IA ou en autorisait l'utilisation, ce qui varie d'une région à l'autre. Voici les principales conclusions de l'enquête :
- la vague d'IA générative dans le développement de logiciels continue de croître. L'enquête a été élargie à 2 000 répondants et presque tous (plus de 97 %) ont déclaré avoir utilisé ces outils à un moment ou à un autre, que ce soit au travail ou en dehors. (Ce qui ne veut pas dire que toutes les entreprises ont approuvé l'utilisation de ces outils) ;
- bien que les répondants à l'enquête affirment que leur entreprise accueille favorablement l'IA, des progrès restent à faire. Les données de l'enquête indiquent qu'une forte majorité (59 - 88 %) des répondants, tous marchés confondus, ont déclaré que « leur entreprise encourage activement ou autorise l'utilisation de ces outils » ;
- les équipes de développement logiciel reconnaissent plus d'avantages aux outils d'IA de codage qu'on ne l'a dit. Il s'agit notamment de la création de logiciels plus sûrs, de l'amélioration de la qualité du code, d'une meilleure génération de cas de test et d'une adoption plus rapide des langages de programmation. En fin de compte, cela s'est traduit par un gain de temps qu'elles ont pu consacrer à des tâches plus stratégiques.
« Les personnes interrogées dans le cadre de notre enquête ont déclaré que l'IA les aidait à travailler de manière plus productive, en utilisant le temps gagné pour concevoir des systèmes, collaborer davantage et mieux répondre aux exigences des clients. L'IA ne remplace pas les emplois humains, elle libère du temps pour la créativité humaine. Passons maintenant à la recherche », a déclaré que Kyle Daigle, directeur des opérations de GitHub, dans un billet de blogue.
Cependant, l'étude publiée par Uplevel suggère, quant à elle, que si les mesures de productivité sont solides, les développeurs passent désormais plus de temps à examiner le code généré par l'IA, ce qui pourrait contrebalancer tout gain de temps. Avant Uplevel, GitClear avait rapporté au début de l'année que l'utilisation des assistants d'IA pour la programmation ne contribue pas toujours à la qualité du code produit. Au lieu de cela, ils introduisent plus de bogues.
Les chercheurs de GitClear ont constaté que les outils d'IA comme GitHub Copilot ne donnent en fait que des suggestions pour ajouter du code. Aucune suggestion n'est faite pour la mise à jour ou la suppression de code. Il en résulte notamment une quantité importante de code redondant. Ils ont également constaté une forte augmentation du "code churn". Cela signifie que le code est fréquemment modifié, ce qui est généralement un mauvais signe pour la qualité.
« Chaque nouvelle itération du code généré par l'IA finit par être moins cohérente lorsque différentes parties du code sont développées à l'aide d'invites différentes. Il devient de plus en plus difficile de comprendre et de déboguer le code généré par l'IA, et le dépannage devient si gourmand en ressources qu'il est plus facile de réécrire le code à partir de zéro que de le réparer », explique un utilisateur qui affirme que l'IA n'améliore pas pour l'instant la productivité.
Conclusion
L'accès à des outils d'IA comme GitHub Copilot a soulevé un certain nombre de questions importantes. L'IA aidera-t-elle les développeurs à livrer plus rapidement ? Peut-elle les aider à écrire un meilleur code et à éviter l'épuisement professionnel ? « Pas encore pour cette population. Cependant, l'innovation évolue rapidement, et GitHub a constaté que Copilot améliore la satisfaction des développeurs », a répondu Uplevel dans son rapport.
Pour l'instant, l'IA semble ajouter de la surcharge, ce qui ralentit les développeurs. Cet aspect de l'utilisation des outils d'IA - le surcroît de travail - est évident dans l'un des graphiques du METR. « Lorsque l'IA est autorisée, les développeurs passent moins de temps à coder activement et à rechercher/lire des informations, et passent plutôt du temps à solliciter l'IA, à attendre et à examiner les résultats de l'IA, et à rester inactifs », explique l'étude du METR.
Selon de nombreux codeurs, les outils d'IA peuvent aider à tester rapidement de nouveaux concepts avec peu d'enjeux et à automatiser certaines tâches de routine, mais qu'ils ne permettent pas de gagner du temps, car il faut toujours valider si le code fonctionne réellement. Ils n'apprennent pas comme un stagiaire. En d'autres termes, les outils d'IA peuvent rendre la programmation progressivement plus amusante, mais ils ne la rendent pas plus efficace.
Les auteurs de l'étude du METR - Joel Becker, Nate Rush, Beth Barnes et David Rein - précisent que leurs travaux doivent être examinés dans un contexte restreint, comme un instantané dans le temps basé sur des outils et des conditions expérimentales spécifiques. Les auteurs ajoutent également que leurs conclusions ne signifient pas que les systèmes d'IA actuels ne sont pas utiles ou que les futurs modèles d'IA ne feront pas mieux.
Source : rapport de l'étude
Et vous ?





Voir aussi



Vous avez lu gratuitement 64 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.