« C'est une absurdité totale » : des chercheurs en cybersécurité critiquent les méthodes actuelles de sécurisation des systèmes d'IA,

Affirmant qu'elles sont défectueuses et nécessitent une refonte complète

Le 12 février 2025 à 14:37, par Mathis Lucas

43PARTAGES

« C'est une absurdité totale » : des chercheurs en cybersécurité critiquent les méthodes actuelles de sécurisation des systèmes d'IA
affirmant qu'elles sont défectueuses et nécessitent une refonte complète

Des chercheurs en cybersécurité ont remis en cause l'efficacité des tests actuels de sécurité de l'IA lors de la conférence DEF CON. Ils estiment que les méthodes actuelles de protection des systèmes d'IA sont fondamentalement défectueuses et nécessitaient une refonte complète. L'industrie de l'IA se base actuellement sur l'approche « red team », qui consiste à demander à des experts en cybersécurité de rechercher les vulnérabilités des systèmes d'IA. Mais les chercheurs affirment que cette approche est inefficace, car la documentation des modèles d'IA est fragmentée et les évaluations incluses dans la documentation sont inadéquates.

Les experts appellent à changer l'approche en matière de sécurité de l'IA

La convention DEF CON a publié son rapport « Hackers’ Almanack », qui rassemble les résultats de l'édition 2024 de la conférence annuelle des chercheurs en sécurité (hackeurs). Le rapport a été produit conjointement avec la « Cyber Policy Initiative » de l'université de Chicago. Dans le rapport, les chercheurs formulent des recommandations à l'intention des décideurs politiques sur la sécurité des systèmes d'IA avancés, les ransomwares et le biohacking.

En ce qui concerne la sécurité de l'IA, les chercheurs ont déclaré que les méthodes sur lesquelles les entreprises se basent actuellement pour sécuriser leurs systèmes d'IA ne fonctionnent pas. Les entreprises mettent actuellement l'accent sur la « red team » (équipe rouge) pour assurer la sécurité des modèles d'IA. L'équipe rouge est chargée de rechercher et corriger les vulnérabilités dans les systèmes d'IA pour permettre à leurs créateurs de les corriger.

Près de 500 personnes ont participé au programme Generative Red Team (GRT) lors de la convention. Le rapport indique qu'il s'agissait de la deuxième édition du programme Generative Red Team. Les participants ont été invités à améliorer l'évaluation des modèles d'IA et même les personnes qui participaient pour la première fois ont été en mesure de trouver des vulnérabilités. Sven Cattell, responsable du AI Village à la DEF CON, écrit dans le rapport :

Envoyé par Sven Cattell

Après avoir dirigé les deux premières éditions du Generative Red Team à DEF CON 31 et 32, je pense que l'accent mis sur l'équipe rouge de l'IA ne tient pas compte de la forêt pour les arbres. Il n'est pas possible d'organiser une équipe rouge publique sur un modèle d'IA parce que la documentation sur ce que ces modèles sont censés faire est fragmentée et que les évaluations que nous incluons dans la documentation sont inadéquates.

Les fiches de modèle étaient censées être le document de description, mais dans la plupart des cas, elles ne remplissent tout simplement pas cet objectif. Les évaluations, réalisées en grande partie par des chercheurs et axées sur des questions techniques, passent également à côté de nombreux aspects du domaine auquel elles sont destinées.

Les chercheurs ont appelé à l'adoption de cadres similaires au système CVE (Common Vulnerabilities and Exposures) utilisé dans la cybersécurité traditionnelle depuis 1999. Le rapport indique que cela permettrait de créer des méthodes normalisées pour documenter et traiter les vulnérabilités de l'IA, plutôt que de s'en remettre à des audits de sécurité occasionnels. Les chercheurs ont également relevé d'autres défis liés à la sécurité des systèmes d'IA.

Selon Sven Cattell, pour concevoir une IA efficace, sans hallucination, sans parti pris et sans vulnérabilité à l'injection, il faut d'abord réfléchir à ce que ces systèmes d'IA sont censés faire (ou ne pas faire) de manière systématique, ce qui nécessitera une conception, une définition et des tests.

Les chercheurs affirment qu'il faut redéfinir l'objectif de la sécurité de l'IA

Sven Cattell estime qu'il est important de changer la façon dont la communauté de la sécurité perçoit l'équipe rouge de l'IA. Le terme est confus et désordonné et il y a deux problèmes distincts ici. Le premier est que la communauté de la sécurité au sens large ne comprend pas la sécurité de l'IA. L'objectif de la sécurité de l'IA n'est pas de rendre impossible le piratage d'un système, mais de faire en sorte que ce piratage soit coûteux et de courte durée.

Sven Cattell affirme que le second problème est qu'un rapport sur les vulnérabilités ou les failles doit être un récit accompagné de preuves statistiques montrant que ces ralentisseurs sont trop faciles à franchir dans une situation donnée. Le chercheur en sécurité appelle à une collaboration plus poussée :

Envoyé par Sven Cattell

Si nous voulons disposer d'un modèle dont nous pouvons dire en toute confiance qu'il « ne produit pas de contenu toxique » ou qu'il « facilite les tâches de programmation en JavaScript, mais qu'il n'aide pas non plus à produire des charges utiles malveillantes pour les mauvais acteurs », nous devons travailler ensemble...

C'est ce qui s'est passé en micro pendant la GRT2 qui s'est tenu à DEF CON 32. Les participants ont créé des évaluations ciblées sur des sujets de sécurité qui étaient meilleures que celles fournies par les évaluations existantes. La frontière entre l'écriture d'un « bon » code et d'un code « malveillant » est délicate et floue.

Les hackeurs, payés par des primes, peuvent faire un travail remarquable dans ce domaine.

Selon les chercheurs, pour concevoir une IA efficace et fiable, il faut améliorer les « modèles de base », en complétant et en soutenant les améliorations que l'on espère apporter aux systèmes complets. Les entreprises d'IA préfèrent se concentrer sur les systèmes, peut-être parce qu'elles veulent protéger les secrets commerciaux sur la façon dont les modèles de base sont entraînés à résister, mais de nombreux modèles de base ont des poids publics.

Selon Sven Cattell, l'on parle parfois à tort de modèles « open source ». Ce débat anime la communauté depuis quelques années. Certains critiques affirment que les modèles d'IA publiés par certaines entreprises comportent des limitations qui empêchent de le considérer comme open source.

Par exemple, Alessio Fanelli, associé chez Decibel, un fonds d’investissement indépendant de la Silicon Valley, s'est opposé à la qualification de LLaMA2 comme « open source » dans un article de blogue publié le 19 juillet 2023. Selon lui, LLama 2 comporte trop de restrictions pour être considéré comme open source.

« Les poids publiés sont plus proches d'un code binaire compilé que d'un code source. Il n'est pas facile de lire les poids, et il est moins facile d'apporter des modifications, et ce sont des libertés fondamentales que nous obtenons avec un code source ouvert », a écrit Sven Cattell dans son rapport.

La sécurité et la fiabilité restent des défis majeurs pour les entreprises d'IA

L'avènement de l'IA chinoise DeepSeek a mis en évidence la nécessité pour les communautés de l'IA et de la sécurité de se réunir d'urgence et de définir des paramètres et des méthodes d'analyse de l'IA. Des chercheurs en sécurité de Cisco ont découvert que le modèle d'IA de raisonnement R1 de DeepSeek est étonnamment vulnérable au jailbreaking. Lors de tests de sécurité, DeepSeek n'a pas été mesure de bloquer une seule invite nuisible.

L'IA chinoise a été testée sur 50 invites aléatoires de l'ensemble de données HarmBench, qui comprend la cybercriminalité, la désinformation, les activités illégales et les préjudices généraux. Il s'agit d'un développement remarquable si l'on considère l'ampleur du chaos que DeepSeek a semé dans l'industrie de l'IA.

Les inquiétudes concernant DeepSeek se sont accrues après que l'expert en sécurité Ivan Tsarynny a révélé un code caché dans l'application DeepSeek qui pourrait transmettre des données à des serveurs contrôlés par le gouvernement chinois. En outre, un rapport a révélé que DeepSeek a des liens avec une entreprise de télécommunications soutenue par l'État chinois, et interdite d'activité aux États-Unis, notamment la société China Mobile.

Les risques de sécurité liés à DeepSeek ont conduit à son interdiction dans plusieurs pays et il pourrait bientôt subir le même sort aux États-Unis. Les législateurs souhaitent interdire l'utilisation de l'application DeepSeek sur les appareils gouvernementaux, car ils craignent qu'elle ne collecte des données sur les utilisateurs susceptibles de compromettre la sécurité nationale. Cela rappelle notamment la mesure prise contre l'application TikTok de ByteDance.

Par ailleurs, l'hallucination reste un problème majeur pour l'ensemble de l'industrie de l'IA. Une étude d'OpenAI a révélé que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion. Et la concurrence ne se porte pas forcément mieux.

Quant à Grok, le modèle d'IA de startup d'Elon Musk, une étude publiée en août dernier affirme qu'il constitue un désastre pour la démocratie. L'IA d'Elon Musk intégrée à X (ex-Twitter) ne dispose pas de garde-fous pour empêcher les utilisateurs de générer de la désinformation électorale.

Source : rapport de la convention DEF CON (PDF)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des conclusions du rapport de la convention DEF CON ?

Les mesures proposées ci-dessus permettront-elles d'améliorer la sécurité des modèles d'IA ?

Quid de la fiabilité des modèles d'IA ? Les entreprises d'IA peuvent-elles venir à bout du problème de l'hallucination ?

Voir aussi

Grok AI est un désastre pour la démocratie : l'IA d'Elon Musk intégrée à X n'a pas de garde-fous pour empêcher les utilisateurs de générer de la désinformation électorale, selon une enquête du CCDH

DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT, affirment les chercheurs de Cisco

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux

Vous avez lu gratuitement 567 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

« C'est une absurdité totale » : des chercheurs en cybersécurité critiquent les méthodes actuelles de sécurisation des systèmes d'IA,

Affirmant qu'elles sont défectueuses et nécessitent une refonte complète

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

« C'est une absurdité totale » : des chercheurs en cybersécurité critiquent les méthodes actuelles de sécurisation des systèmes d'IA, Affirmant qu'elles sont défectueuses et nécessitent une refonte complète

« C'est une absurdité totale » : des chercheurs en cybersécurité critiquent les méthodes actuelles de sécurisation des systèmes d'IA,

Affirmant qu'elles sont défectueuses et nécessitent une refonte complète