Une étude publiée récemment par des chercheurs de l'université de Purdue, aux États-Unis, a révélé que ChatGPT produit un code incorrect (mais convaincant) environ une fois sur deux. Le rapport de l'étude indique que 52 % des réponses de ChatGPT sont incorrectes et 77 % sont verbeuses. Toutefois, le rapport estime que le chatbot d'IA d'OpenAI a été suffisamment convaincant pour tromper un tiers des participants à l'étude. Les réponses ChatGPT sont préférées dans 39,34 % des cas en raison de leur exhaustivité et de leur style de langage bien articulé. Les chercheurs indiquent également que parmi l'ensemble des réponses de ChatGPT qui ont été choisies, 77 % étaient fausses.
L'équipe de recherche a analysé les réponses de ChatGPT à 517 questions de Stack Overflow afin d'évaluer l'exactitude, la cohérence, l'exhaustivité et la concision des réponses du chatbot. Les chercheurs ont également procédé à une analyse linguistique et sentimentale des réponses et ont interrogé une douzaine de participants volontaires sur les résultats générés par le modèle. « Notre analyse montre que 52 % des réponses de ChatGPT sont incorrectes et 77 % sont verbeuses. Néanmoins, les réponses ChatGPT sont préférées dans 39,34 % des cas en raison de leur exhaustivité et de leur style de langage bien articulé », indique le rapport de l'étude.
Sur le site Web officiel de ChatGPT, OpenAI reconnaît que "son logiciel peut produire des informations inexactes sur des personnes, des lieux ou des faits". Nous avons demandé au laboratoire s'il avait des commentaires à faire sur l'étude de Purdue. Le rapport est intitulé "Who Answers It Better ? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions". Il a été rédigé par les universitaires Samia Kabir, David Udo-Imeh, Bonan Kou et le professeur assistant Tianyi Zhang. Les universitaires ont rapporté que les suggestions de ChatGPT paraissent parfois tellement plausibles qu'elles en deviennent agaçantes.
Ils ont constaté que lorsqu'une réponse de ChatGPT est clairement erronée, elle est immédiatement reconnue par les développeurs. Lorsqu'une réponse nécessite plus de recherches, il est plus difficile pour les utilisateurs de reconnaître si une réponse est erronée ou si le degré d'erreur est sous-estimé : « nous avons observé que les utilisateurs ne peuvent identifier l'erreur dans la réponse de ChatGPT que lorsque celle-ci est évidente. Mais lorsqu'elle n'est pas facilement ou qu'elle nécessite une IDE ou une documentation externe, les utilisateurs ne parviennent souvent pas à identifier l'incorrection ou sous-estiment le degré d'erreur de la réponse ».
Les chercheurs ont également constaté que les mauvaises réponses étaient plus souvent acceptées parce qu'elles contenaient plus de texte, étaient plus détaillées et plus perspicaces, avaient un langage plus poli et promettaient souvent une solution. Même lorsque la réponse comporte une erreur flagrante, deux des 12 participants ont tout de même indiqué que la réponse était préférable. « D'après les entretiens semi-structurés, il est évident que le langage poli, les réponses articulées et de style manuel, l'exhaustivité et l'affiliation dans les réponses font que des réponses complètement fausses semblent correctes », explique le rapport de l'étude.
Samia Kabir, étudiante en doctorat à l'université de Purdue et l'un des auteurs de l'étude, a déclaré : « les cas où les participants ont préféré les réponses incorrectes et verbeuses de ChatGPT à celles de Stack Overflow étaient dus à plusieurs raisons, comme l'ont indiqué les participants. L'une des principales raisons est le niveau de détail des réponses de ChatGPT. Dans de nombreux cas, les participants ne se soucient pas de la longueur des réponses s'ils obtiennent des informations utiles à partir de réponses longues et détaillées. Les sentiments positifs et la politesse des réponses [de ChatGPT] sont les deux autres raisons avancées par les participants ».
Kabir a ajouté : « les participants ont ignoré les erreurs lorsqu'ils ont trouvé que la réponse de ChatGPT était perspicace. La manière dont ChatGPT transmet en toute confiance des informations (même lorsqu'elles sont incorrectes) gagne la confiance des utilisateurs, ce qui les incite à préférer la réponse incorrecte ». Les chercheurs observent que les réponses de ChatGPT contiennent plus d'"attributs de motivation", mais ne décrivent pas les risques aussi fréquemment que les messages de Stack Overflow. À de nombreuses reprises, ils ont observé que ChatGPT insérait dans ses réponses des mots et des phrases tels que "bien sûr", "je peux vous aider", etc.
En ce qui concerne les autres résultats, les auteurs de l'étude ont constaté que ChatGPT était plus susceptible de commettre des erreurs conceptuelles que des erreurs factuelles. « De nombreuses réponses sont incorrectes en raison de l'incapacité de ChatGPT à comprendre le contexte sous-jacent de la question qui a été posée », ont écrit les chercheurs. En outre, l'analyse linguistique des réponses de ChatGPT et de Stack Overflow effectuée par les universitaires suggère que les réponses du robot sont plus formelles, expriment une pensée plus analytique, montrent plus d'efforts pour atteindre les objectifs et montrent moins d'émotions négatives.
Kabir a déclaré : « d'après nos résultats et nos observations, nous pensons que Stack Overflow devrait intégrer des méthodes efficaces pour détecter la toxicité et les sentiments négatifs dans les commentaires et les réponses afin d'améliorer le sentiment et la politesse. Nous pensons également que le site pourrait vouloir améliorer la visibilité de ses réponses afin d'aider à trouver des réponses utiles. En outre, le site de questions-réponses pourrait également fournir des lignes directrices plus spécifiques pour aider les personnes qui répondent à structurer leurs réponses, par exemple en les présentant étape par étape et en les détaillant ».
L'analyse des sentiments conclut que les réponses de ChatGPT expriment des sentiments plus positifs que celles de Stack Overflow. Dans l'étude, 60 % des répondants ont trouvé que les réponses (vraisemblablement) rédigées par des humains étaient plus correctes, concises et utiles. Néanmoins, l'utilisation de Stack Overflow semble avoir diminué, bien que l'ampleur de cette baisse soit contestée. Selon un rapport publié en avril par la société d'analyse de données Similarweb, le trafic du site Web a baissé de 6 % chaque mois depuis janvier 2022 et a baissé de 13,9 % en mars. Similarweb suggère que l'utilisation de ChatGPT pourrait être un facteur de ce déclin.
Les conclusions de l'étude des chercheurs de l'université de Purdue font écho à celles d'une étude publiée en avril par des chercheurs de l'Université du Québec. Selon l'étude, le code généré par ChatGPT est truffé de vulnérabilités. L'étude indique que ChatGPT produit non seulement un "code peu sûr", mais n'alerte pas non plus les utilisateurs sur ses insuffisances, alors qu'il est capable de les mettre en évidence. Le chatbot ne fournit des conseils utiles pour améliorer la qualité du code qu'après avoir été invité à remédier aux problèmes détectés par l'utilisateur. Les experts ont mis en garde contre les risques d'une surconfiance en ChatGPT.
L'étude remet en cause les déclarations selon lesquelles ChatGPT pourrait remplacer la majorité des programmeurs dans les prochaines années. « Les résultats sont inquiétants. Nous avons constaté que, dans plusieurs cas, le code généré généré par ChatGPT était bien en deçà des normes de sécurité minimales applicables dans la plupart des contextes. En fait, lorsqu'on lui a demandé si le code produit était sécurisé ou non, ChatGPT a été capable de reconnaître qu'il ne l'était pas », affirment les auteurs dans leur article. Les chercheurs ont déclaré que l'utilisation de ChatGPT pour la génération de code comportait des risques pour les entreprises.
Source : rapport de l'étude
Et vous ?
Que pensez-vous des conclusions de l'étude ?
Utilisez-vous ChatGPT pour générer du code informatique ?
Si oui, cela vous permet-il d'aller plus vite dans l'exécution de vos tâches ?
Quels sont les problèmes que vous rencontrez en générant du code avec ChatGPT ?
Quels sont les risques liés à l'utilisation de ChatGPT par les programmeurs ?
Selon vous, ChatGPT va-t-il remplacer les sites de questions-réponses pour les programmeurs ?
Voir aussi
ChatGPT génère un code informatique peu sûr, mais ne vous le dira pas à moins que vous ne le lui demandiez, les experts mettent en garde contre les risques d'une surconfiance en ChatGPT
Le chatbot d'IA ChatGPT est capable de lancer des attaques de phishing dangereuses et de concevoir des codes de téléchargement malveillant d'une efficacité redoutable
Des experts en sécurité sont parvenus à créer un logiciel malveillant polymorphe "hautement évasif" à l'aide de ChatGPT, le logiciel malveillant serait capable d'échapper aux produits de sécurité
Une étude affirme que 52 % des réponses de ChatGPT aux questions de codage informatique sont incorrectes et 77 % sont verbeuses,
Mais les réponses du chatbot sont "convaincantes"
Une étude affirme que 52 % des réponses de ChatGPT aux questions de codage informatique sont incorrectes et 77 % sont verbeuses,
Mais les réponses du chatbot sont "convaincantes"
Le , par Mathis Lucas
Une erreur dans cette actualité ? Signalez-nous-la !