Seth Larson, développeur de sécurité en résidence à la Python Software Foundation, a soulevé la question dans un billet de blog la semaine dernière, exhortant les personnes qui signalent des bogues à ne pas utiliser de systèmes d'IA pour la chasse aux bogues. « Récemment, j'ai remarqué une augmentation des rapports de sécurité de qualité extrêmement médiocre, spammés et hallucinés par LLM dans les projets open source », écrit-il, rappelant les résultats similaires obtenus par le projet Curl en janvier. « Ces rapports semblent à première vue potentiellement légitimes et nécessitent donc du temps pour être réfutés ».
Larson estime que les rapports de mauvaise qualité doivent être traités comme s'ils étaient malveillants.
Une montée en flèche des rapports automatisés
Les mainteneurs jouent un rôle essentiel dans l'univers de l'open source. Ces bénévoles consacrent leur temps et leur expertise à maintenir des projets utilisés par des millions de personnes à travers le monde. Pourtant, ces derniers mois, un phénomène inquiétant perturbe leur travail : une multiplication des rapports de bogues de mauvaise qualité générés par des intelligences artificielles (IA).
Avec l’essor des outils d'IA comme ChatGPT, Bard ou Copilot, il est devenu plus facile que jamais pour les utilisateurs de générer des rapports de bogues. Ces outils, bien qu’impressionnants, génèrent parfois des rapports qui manquent de pertinence, sont mal formulés ou complètement hors sujet. Résultat : les mainteneurs se retrouvent à gérer une quantité croissante de « bruit », au détriment des problèmes légitimes.
Les mainteneurs rapportent une tendance claire : des rapports contenant des descriptions vagues, des solutions proposées incorrectes, ou des erreurs inexistantes. Dans certains cas, des IA « inventent » des problèmes à partir d’une compréhension superficielle du code. Ces rapports peuvent sembler crédibles, mais nécessitent souvent un temps considérable pour être vérifiés et écartés.
Une pression accrue sur les mainteneurs
Ce phénomène exacerbe une charge de travail déjà lourde. Beaucoup de mainteneurs sont des bénévoles qui jonglent entre leur travail, leur vie personnelle, et leurs responsabilités dans des projets open source. Traiter des rapports inutiles prend du temps, fatigue émotionnellement et peut entraîner un épuisement professionnel.
En outre, ces rapports nuisent aux discussions communautaires. Lorsque les canaux de communication sont saturés de contenu généré par l’IA, il devient plus difficile pour les utilisateurs humains de se faire entendre.
Pour Seth Larson, cette tendance est très préoccupante
Envoyé par Seth Larson
« Si cela arrive à une poignée de projets pour lesquels j'ai de la visibilité, alors je soupçonne que cela arrive à grande échelle aux projets open source. Cette tendance est très préoccupante.
« La sécurité est déjà un sujet qui n'est pas aligné avec la raison pour laquelle de nombreux mainteneurs donnent de leur temps aux logiciels open source, considérant plutôt la sécurité comme importante pour aider à protéger leurs utilisateurs. En tant que rapporteurs, il est essentiel de respecter ce temps souvent bénévole.
« Les rapports de sécurité qui font perdre du temps aux mainteneurs sont source de confusion, de stress, de frustration et, pour couronner le tout, d'un sentiment d'isolement dû à la nature secrète des rapports de sécurité. Tous ces sentiments peuvent contribuer à l'épuisement des contributeurs aux projets open source, qui jouissent probablement d'une grande confiance.
« À bien des égards, ces rapports de mauvaise qualité devraient être traités comme s'ils étaient malveillants. Même si ce n'est pas leur intention, le résultat est que les mainteneurs sont épuisés et plus réticents au travail de sécurité légitime ».
L'illustration de la persistance de ces préoccupations avec un rapport de bogue du projet Curl
Comme pour souligner la persistance de ces préoccupations, un rapport de bogue du projet Curl publié le 8 décembre montre que près d'un an après que le responsable Daniel Stenberg a soulevé le problème, il est toujours confronté à la « lenteur de l'IA » - et perd son temps à discuter avec un auteur de bogue qui pourrait être partiellement ou entièrement automatisé.
En réponse au rapport de bogue, Stenberg a écrit :
« Nous recevons régulièrement et en grand nombre des erreurs d'IA de ce type. Vous contribuez à [la] charge inutile des mainteneurs de Curl et je refuse de prendre cela à la légère et je suis déterminé à agir rapidement contre cela. Maintenant et à l'avenir.
« Vous avez soumis ce qui semble être un "rapport" d'IA évident où vous dites qu'il y a un problème de sécurité, probablement parce qu'une IA vous a trompé en vous faisant croire cela. Vous nous faites ensuite perdre notre temps en ne nous disant pas qu'une IA a fait cela pour vous et vous poursuivez la discussion avec des réponses encore plus merdiques - apparemment générées elles aussi par une IA
« Il est tout à fait possible d'utiliser l'IA pour apprendre des choses et résoudre des problèmes potentiels, mais lorsque vous supposez aveuglément qu'un outil stupide est automatiquement juste parce qu'il semble plausible, vous nous rendez à tous (le projet curl, le monde, la communauté open source) un très mauvais service. Vous auriez dû étudier l'affirmation et la vérifier avant de la rapporter. Vous auriez dû nous dire qu'une IA vous l'avait signalée. Vous auriez dû fournir l'emplacement exact du code source ou les étapes de la reproduction lorsqu'on vous l'a demandé - parce que lorsque vous ne l'avez pas fait, vous avez prouvé que votre "rapport" n'avait aucune valeur particulière ».
« Ces systèmes ne sont pas encore capables de comprendre le code »
Les contenus en ligne polluants et de mauvaise qualité existaient bien avant les chatbots, mais les modèles d'IA générative ont facilité leur production. Il en résulte une pollution du journalisme, de la recherche sur le web et, bien sûr, des médias sociaux.
Pour les projets open source, les rapports de bogues assistés par l'IA sont particulièrement pernicieux car ils nécessitent l'examen et l'évaluation d'ingénieurs en sécurité - souvent bénévoles - qui sont déjà pressés par le temps.
« Ce qui arrive à Python ou à Pip est susceptible d'arriver à d'autres projets ou plus fréquemment », a averti Larson. « Je suis surtout préoccupé par les mainteneurs qui gèrent cela de manière isolée. S'ils ne savent pas que les rapports générés par l'IA sont monnaie courante, ils pourraient ne pas être en mesure de reconnaître ce qui se passe avant de perdre des tonnes de temps sur un faux rapport. Perdre un temps précieux de bénévolat à faire quelque chose que vous n'aimez pas et en fin de compte pour rien est le moyen le plus sûr d'épuiser les mainteneurs ou de les éloigner du travail de sécurité ».
Selon Larson, la communauté des logiciels libres doit prendre de l'avance sur cette tendance afin d'atténuer les dommages potentiels.
« J'hésite à dire que le problème sera résolu par plus de technologie », a-t-il déclaré. « Je pense que la sécurité des logiciels libres a besoin de changements fondamentaux. Nous ne pouvons pas continuer à confier le travail à un petit nombre de mainteneurs, et nous avons besoin d'une normalisation et d'une visibilité accrues de ces types de contributions à l'open source ».
« Nous devrions répondre à la question suivante : "Comment impliquer davantage de personnes de confiance dans l'open source ?" Le financement du personnel est une réponse - comme ma propre subvention par Alpha-Omega - et l'implication par le don de temps de travail en est une autre ».
Alors que la communauté du logiciel libre réfléchit à la manière de réagir, Larson demande aux personnes qui soumettent des rapports de bogues de ne pas le faire s'ils n'ont pas été vérifiés par un être humain - et de ne pas utiliser l'IA, car « ces systèmes ne sont pas encore capables de comprendre le code ». Il invite également les plateformes qui acceptent les rapports de vulnérabilité au nom des mainteneurs à prendre des mesures pour limiter la création automatisée ou abusive de rapports de sécurité.
Sources : Seth Larson, rapport de bogue,
Et vous ?
Quelle lecture faites-vous de la situation ? Trouvez-vous l'analyse de Seth Larson crédible ou pertinente ? Dans quelle mesure ?
Quelles implications imaginez-vous si la situation perdure et s'aggrave ?
Quelles solutions pourraient être mises en place pour mieux soutenir les mainteneurs face à cette surcharge ?
Les utilisateurs d’IA sont-ils suffisamment formés à soumettre des rapports de qualité ? Qui devrait se charger de cette éducation ?
Les IA pourraient-elles, au contraire, être utilisées pour filtrer les rapports de mauvaise qualité ? Si oui, comment éviter les biais dans leur utilisation ?
Le phénomène des rapports générés par IA remet-il en question la viabilité du modèle open source tel qu’il existe aujourd’hui ?