
Les experts appellent à changer l'approche en matière de sécurité de l'IA
La convention DEF CON a publié son rapport « Hackers’ Almanack », qui rassemble les résultats de l'édition 2024 de la conférence annuelle des chercheurs en sécurité (hackeurs). Le rapport a été produit conjointement avec la « Cyber Policy Initiative » de l'université de Chicago. Dans le rapport, les chercheurs formulent des recommandations à l'intention des décideurs politiques sur la sécurité des systèmes d'IA avancés, les ransomwares et le biohacking.
En ce qui concerne la sécurité de l'IA, les chercheurs ont déclaré que les méthodes sur lesquelles les entreprises se basent actuellement pour sécuriser leurs systèmes d'IA ne fonctionnent pas. Les entreprises mettent actuellement l'accent sur la « red team » (équipe rouge) pour assurer la sécurité des modèles d'IA. L'équipe rouge est chargée de rechercher et corriger les vulnérabilités dans les systèmes d'IA pour permettre à leurs créateurs de les corriger.
Près de 500 personnes ont participé au programme Generative Red Team (GRT) lors de la convention. Le rapport indique qu'il s'agissait de la deuxième édition du programme Generative Red Team. Les participants ont été invités à améliorer l'évaluation des modèles d'IA et même les personnes qui participaient pour la première fois ont été en mesure de trouver des vulnérabilités. Sven Cattell, responsable du AI Village à la DEF CON, écrit dans le rapport :

Selon Sven Cattell, pour concevoir une IA efficace, sans hallucination, sans parti pris et sans vulnérabilité à l'injection, il faut d'abord réfléchir à ce que ces systèmes d'IA sont censés faire (ou ne pas faire) de manière systématique, ce qui nécessitera une conception, une définition et des tests.
Les chercheurs affirment qu'il faut redéfinir l'objectif de la sécurité de l'IA
Sven Cattell estime qu'il est important de changer la façon dont la communauté de la sécurité perçoit l'équipe rouge de l'IA. Le terme est confus et désordonné et il y a deux problèmes distincts ici. Le premier est que la communauté de la sécurité au sens large ne comprend pas la sécurité de l'IA. L'objectif de la sécurité de l'IA n'est pas de rendre impossible le piratage d'un système, mais de faire en sorte que ce piratage soit coûteux et de courte durée.
Sven Cattell affirme que le second problème est qu'un rapport sur les vulnérabilités ou les failles doit être un récit accompagné de preuves statistiques montrant que ces ralentisseurs sont trop faciles à franchir dans une situation donnée. Le chercheur en sécurité appelle à une collaboration plus poussée :

Selon Sven Cattell, l'on parle parfois à tort de modèles « open source ». Ce débat anime la communauté depuis quelques années. Certains critiques affirment que les modèles d'IA publiés par certaines entreprises comportent des limitations qui empêchent de le considérer comme open source.
Par exemple, Alessio Fanelli, associé chez Decibel, un fonds d’investissement indépendant de la Silicon Valley, s'est opposé à la qualification de LLaMA2 comme « open source » dans un article de blogue publié le 19 juillet 2023. Selon lui, LLama 2 comporte trop de restrictions pour être considéré comme open source.
« Les poids publiés sont plus proches d'un code binaire compilé que d'un code source. Il n'est pas facile de lire les poids, et il est moins facile d'apporter des modifications, et ce sont des libertés fondamentales que nous obtenons avec un code source ouvert », a écrit Sven Cattell dans son rapport.
La sécurité et la fiabilité restent des défis majeurs pour les entreprises d'IA
L'avènement de l'IA chinoise DeepSeek a mis en évidence la nécessité pour les communautés de l'IA et de la sécurité de se réunir d'urgence et de définir des paramètres et des méthodes d'analyse de l'IA. Des chercheurs en sécurité de Cisco ont découvert que le modèle d'IA de raisonnement R1 de DeepSeek est étonnamment vulnérable au jailbreaking. Lors de tests de sécurité, DeepSeek n'a pas été mesure de bloquer une seule invite nuisible.
L'IA chinoise a été testée sur 50 invites aléatoires de l'ensemble de données HarmBench, qui comprend...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.