La mauvaise utilisation des API dans le code généré pourrait conduire à des problèmes graves, tels que les fuites de ressources, les plantages de programme. Les utilisateurs des services de génération de code LLM sont en fait les développeurs qui sont les plus vulnérables à ce code qui semble correct. Ce sont toujours des développeurs novices qui ne sont pas familiers avec les API que les LLM génèrent du code pour eux. Par conséquent, ils peuvent difficilement détecter les abus dans le code généré par les LLM, ce qui facilite davantage l'application de codes incorrects dans les logiciels du monde réel. Les repères et les ensembles de données d'évaluation de code existants se concentrent sur l'élaboration de petites tâches telles que les questions de programmation dans les entretiens de codage, ce qui s'écarte toutefois du problème des développeurs qui demanderaient au LLM une aide au codage dans le monde réel.
Pour combler cette lacune, Li Zhong et Zilong Wang proposent dans leur travail un ensemble de données RobustAPI pour évaluer la fiabilité et la robustesse du code généré par les LLM. Ils ont recueilli 1208 questions de codage de StackOverflow sur 24 API Java représentatives. Ils ont résumé les schémas d'utilisation abusive courants de ces API et les évaluons sur des LLM courants et populaires. Les résultats de l'évaluation montrent que même pour GPT-4, 62% du code généré contient des abus d'API, ce qui entraînerait des conséquences inattendues si le code était introduit dans un logiciel réel.
Vous pourrez trouver les détails de leur étude dans le lien source.
Source : "A Study on Robustness and Reliability of Large Language Model Code Generation"
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
GPT-4 est capable d'améliorer ses performances de 30 % en utilisant un processus d'auto-réflexion, consistant à demander au modèle d'apprendre de ses erreurs pour pouvoir ensuite s'auto-corriger
GPT Pilot pourrait coder l'ensemble d'une application pendant que vous supervisez l'écriture du code, d'après son créateur
92 % des développeurs utiliseraient des outils d'intelligence artificielle selon une enquête de GitHub auprès des développeurs