Récemment, des chercheurs de Microsoft ont fait une déclaration frappante : l’intelligence artificielle (IA) ne pourra jamais être rendue totalement sécurisée. Cette affirmation, qui s’inscrit dans le contexte d’une évaluation critique des produits IA de l’entreprise elle-même, soulève des questions fondamentales sur les défis, les limites et les responsabilités des acteurs majeurs de ce domaine technologique en pleine expansion. Revenons sur cette déclaration et analysons ses implications, tant pour le secteur technologique que pour la société.L’origine de la déclaration : le poids de l’autocritique
Microsoft, l’un des géants mondiaux de la technologie, est à l’avant-garde du développement et de la commercialisation de l’IA. Des produits comme Azure AI, OpenAI (en partenariat avec ChatGPT) ou encore Copilot pour Office 365 témoignent de son investissement massif dans ce domaine. Cependant, en soumettant ses propres systèmes à des tests approfondis, les chercheurs ont découvert des vulnérabilités qui mettent en lumière les défis de sécurisation de l’IA.
Cette démarche autocritique peut être saluée pour sa transparence et son honnêteté. Dans un secteur souvent dominé par des discours marketing sur la fiabilité et la performance des solutions IA, admettre que la sécurité parfaite est une chimère est une approche rare et audacieuse. Toutefois, cette déclaration soulève des interrogations sur la manière dont les entreprises technologiques envisagent leur rôle vis-à-vis des risques inhérents à l’IA.
En effet, si Microsoft reconnaît l’impossibilité d’une sécurité parfaite, cette déclaration pourrait aussi être perçue comme une tentative de diluer sa responsabilité. Après tout, les entreprises comme Microsoft bénéficient de revenus colossaux grâce à l’IA, et il est légitime d’attendre d’elles un engagement significatif pour minimiser les risques.
L’aveu de l’imperfection ne devrait pas devenir une excuse pour ne pas investir suffisamment dans la sécurisation. Les entreprises doivent non seulement améliorer la robustesse technique de leurs systèmes, mais également adopter une posture proactive en termes de réglementation, d’éthique et de protection des utilisateurs.
Les leçons tirées de l'examen de sécurité de plus de 100 produits d'IA générative
Les experts de Microsoft qui ont examiné la sécurité de plus de 100 produits d'IA générative du géant du logiciel sont repartis avec un message qui donne à réfléchir : Les modèles amplifient les risques de sécurité existants et en créent de nouveaux.
Les 26 auteurs ont fait remarquer que « le travail de sécurisation des systèmes d'IA ne sera jamais achevé » dans un document intitulé Leçons tirées du red-teaming de 100 produits d'IA générative.
C'est la dernière des huit leçons proposées dans l'article, bien qu'elle ne soit pas entièrement apocalyptique. Les auteurs, dont Mark Russinovich, directeur technique d'Azure, affirment qu'en travaillant davantage, il est possible d'augmenter le coût des attaques contre les systèmes d'IA, comme cela s'est déjà produit pour d'autres risques de sécurité informatique, grâce à des tactiques de défense en profondeur et à des principes de sécurité par conception.
« Comprendre ce que le système peut faire et où il est appliqué »
Les Microsofties (le nom de baptême des employés de Microsoft) suggèrent qu'il y a beaucoup de travail à faire. La première leçon à retenir est de « comprendre ce que le système peut faire et où il est appliqué ».
Ce conseil insipide fait allusion au fait que les modèles se comportent différemment selon leur conception et leur application, et qu'il faut donc bien comprendre leurs capacités pour mettre en œuvre des défenses efficaces.
« En testant la série Phi-3 de modèles de langage, par exemple, nous avons constaté que les modèles plus grands étaient généralement plus aptes à respecter les instructions de l'utilisateur, ce qui est une capacité essentielle qui rend les modèles plus utiles », affirment les auteurs. C'est une bonne nouvelle pour les utilisateurs, mais une mauvaise pour les défenseurs, car les modèles sont plus susceptibles de suivre des instructions malveillantes.
Les auteurs conseillent également d'examiner les implications en matière de sécurité des capacités d'un modèle dans le contexte de son objectif. Pour comprendre pourquoi, il suffit de considérer qu'une attaque contre un LLM conçu pour aider à la création littéraire ne risque pas de créer un risque organisationnel, mais qu'une action adverse dirigée contre un LLM qui résume les antécédents médicaux des patients pourrait produire de nombreux résultats indésirables.
« Il n'est pas nécessaire de calculer des gradients pour casser un système d'intelligence artificielle »
La deuxième leçon est la suivante : « Il n'est pas nécessaire de calculer des gradients pour casser un système d'intelligence artificielle ». Les attaques basées sur le gradient fonctionnent en testant des jetons adverses lorsque les paramètres et l'architecture du modèle sont disponibles (ce qui est le cas pour les modèles open source, mais pas pour les modèles commerciaux propriétaires).
L'objectif de ces attaques est de faire en sorte qu'un modèle produise une réponse inexacte en modifiant légèrement les données d'entrée, ce qui affecte la fonction de perte du gradient utilisée dans l'apprentissage automatique.
Mais comme le font remarquer les membres de l'équipe rouge de Microsoft, les attaques basées sur...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
