Génération de code à l'aide de grands modèles de langage : 62 % du code généré contient des erreurs d'API

Qui auraient des conséquences inattendues si le code était introduit dans un logiciel réel

Le 28 août 2023 à 22:30, par Jade Emy

131PARTAGES

Génération de code à l'aide de grands modèles de langage : 62 % du code généré contient des erreurs d'API, qui auraient des conséquences inattendues si le code était introduit dans un logiciel réel.

Récemment, les grands modèles de langage (LLM) ont montré une capacité extraordinaire à comprendre le langage naturel et à générer du code de programmation. Les ingénieurs logiciels ont l'habitude de consulter les LLM lorsqu'ils sont confrontés à des questions de codage. Bien que des efforts aient été faits pour éviter les erreurs de syntaxe et aligner le code sur la sémantique prévue, la fiabilité et la robustesse de la génération de code à partir des LLM n'ont pas encore fait l'objet d'une étude approfondie.

La mauvaise utilisation des API dans le code généré pourrait conduire à des problèmes graves, tels que les fuites de ressources, les plantages de programme. Les utilisateurs des services de génération de code LLM sont en fait les développeurs qui sont les plus vulnérables à ce code qui semble correct. Ce sont toujours des développeurs novices qui ne sont pas familiers avec les API que les LLM génèrent du code pour eux. Par conséquent, ils peuvent difficilement détecter les abus dans le code généré par les LLM, ce qui facilite davantage l'application de codes incorrects dans les logiciels du monde réel. Les repères et les ensembles de données d'évaluation de code existants se concentrent sur l'élaboration de petites tâches telles que les questions de programmation dans les entretiens de codage, ce qui s'écarte toutefois du problème des développeurs qui demanderaient au LLM une aide au codage dans le monde réel.

Pour combler cette lacune, Li Zhong et Zilong Wang proposent dans leur travail un ensemble de données RobustAPI pour évaluer la fiabilité et la robustesse du code généré par les LLM. Ils ont recueilli 1208 questions de codage de StackOverflow sur 24 API Java représentatives. Ils ont résumé les schémas d'utilisation abusive courants de ces API et les évaluons sur des LLM courants et populaires. Les résultats de l'évaluation montrent que même pour GPT-4, 62% du code généré contient des abus d'API, ce qui entraînerait des conséquences inattendues si le code était introduit dans un logiciel réel.

Vous pourrez trouver les détails de leur étude dans le lien source.

Source : "A Study on Robustness and Reliability of Large Language Model Code Generation"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-4 est capable d'améliorer ses performances de 30 % en utilisant un processus d'auto-réflexion, consistant à demander au modèle d'apprendre de ses erreurs pour pouvoir ensuite s'auto-corriger

GPT Pilot pourrait coder l'ensemble d'une application pendant que vous supervisez l'écriture du code, d'après son créateur

92 % des développeurs utiliseraient des outils d'intelligence artificielle selon une enquête de GitHub auprès des développeurs

Vous avez lu gratuitement 2 557 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :