Microsoft a publié son premier rapport de transparence sur l'IA responsable, décrivant les mesures prises en 2023 pour développer et déployer des technologies d'IA de manière responsable. Ce rapport s'inscrit dans le cadre de l'engagement de Microsoft à créer des systèmes d'IA plus sûrs, une promesse faite dans le cadre d'un accord volontaire avec la Maison Blanche en juillet de l'année précédente.Un nouveau rapport de Microsoft décrit les mesures prises par l'entreprise pour mettre en place des plateformes d'IA responsables l'année dernière.
Dans son rapport de transparence sur l'IA responsable, qui couvre principalement la période 2023, Microsoft vante ses réalisations en matière de déploiement de produits d'IA en toute sécurité. Le rapport annuel sur la transparence de l'IA est l'un des engagements pris par l'entreprise après avoir signé un accord volontaire avec la Maison Blanche en juillet de l'année dernière. Microsoft et d'autres entreprises ont promis de mettre en place des systèmes d'IA responsables et de s'engager en faveur de la sécurité.
Dans son rapport, Microsoft indique qu'elle a créé 30 outils d'IA responsable au cours de l'année écoulée, qu'elle a renforcé son équipe d'IA responsable et qu'elle a demandé aux équipes qui créent des applications d'IA générative de mesurer et de cartographier les risques tout au long du cycle de développement. L'entreprise indique qu'elle a ajouté des certificats de contenu (Content Credential) à ses plateformes de génération d'images, ce qui permet d'apposer un filigrane sur une photo et de la marquer comme ayant été créée par un modèle d'IA.

Envoyé par
Microsoft
Outils pour cartographier et mesurer les risques
Nous nous sommes engagés à développer des outils et des ressources permettant à chaque organisation de cartographier, de mesurer et de gérer les risques liés à l'IA dans leurs propres applications. Nous avons également donné la priorité à l'accès libre aux outils d'IA responsable. Par exemple, en février 2024, nous avons lancé un accélérateur en équipe rouge, l'outil d'identification des risques Python pour l'IA générative (PyRIT).
PyRIT permet aux professionnels de la sécurité et aux ingénieurs en apprentissage automatique de détecter de manière proactive les risques dans leurs applications génératives. PyRIT accélère le travail des développeurs en développant leurs invites initiales de red teaming, en répondant dynamiquement aux sorties générées par l'IA pour continuer à sonder les risques de contenu, et en notant automatiquement les sorties à l'aide de filtres de contenu. Depuis sa publication sur GitHub, PyRIT a reçu 1 100 étoiles et a été copié plus de 200 fois par des développeurs pour être utilisé dans leurs propres dépôts où il peut être modifié pour s'adapter à leurs cas d'utilisation.
Après avoir identifié les risques avec un outil comme PyRIT, les clients peuvent utiliser les évaluations de sécurité dans Azure AI Studio pour effectuer des évaluations avant déploiement de la susceptibilité de leur application générative à générer un contenu de faible qualité ou dangereux, ainsi que pour surveiller les tendances après déploiement. Par exemple, en novembre 2023, nous avons publié un ensemble limité d'outils d'évaluation de l'IA générative dans Azure AI Studio pour permettre aux clients d'évaluer la qualité et la sécurité de leurs applications génératives

Des clients Azure AI mieux outillésL'entreprise explique qu'elle a donné aux clients d'Azure AI l'accès à des outils qui détectent les contenus problématiques tels que les discours haineux, les contenus sexuels et l'automutilation, ainsi qu'à des outils permettant d'évaluer les risques de sécurité. Il s'agit notamment de nouvelles méthodes de détection de jailbreak, qui ont été étendues en mars de cette année pour inclure les injections indirectes d'invite, où les instructions malveillantes font partie des données ingérées par le modèle d'IA.

Envoyé par
Microsoft
De nombreuses applications génératives sont construites à partir de grands modèles de langage, qui peuvent commettre des erreurs, générer des risques de contenu ou exposer les applications à d'autres types d'attaques. Bien que les approches de gestion des risques telles que les messages du système de sécurité et les filtres de contenu constituent un excellent début, il est également crucial d'évaluer les applications pour comprendre si les mesures d'atténuation fonctionnent comme prévu.
Avec les évaluations de sécurité d'Azure AI Studio, les clients peuvent évaluer les résultats des applications génératives pour les risques de contenu tels que les contenus haineux, sexuels, violents ou liés à l'automutilation. En outre, les développeurs peuvent évaluer leurs applications pour les risques de sécurité tels que les jailbreaks. Étant donné que les évaluations reposent sur un ensemble de données de test robuste, Azure AI Studio peut utiliser des modèles d'invite et un simulateur assisté par l'IA pour créer des ensembles de données générés par l'IA accusée afin d'évaluer les applications génératives. Cette capacité exploite l'apprentissage et l'innovation de Microsoft Research, développés et perfectionnés pour soutenir le lancement de nos propres Copilots, et est maintenant disponible pour les clients dans Azure dans le cadre de notre engagement pour une innovation responsable.
L'entreprise multiplie également ses efforts en matière de Red TeamingL'entreprise évoque également les équipes rouges internes qui tentent délibérément de contourner les dispositifs de sécurité de ses modèles d'IA, ainsi que les applications en équipe rouge pour permettre à des tiers de les tester avant de lancer de nouveaux modèles.
Pour mémoire, l'équipe rouge désigne un groupe prétendant être un ennemi. Ce groupe est missionné par une organisation pour effectuer une intrusion physique ou numérique contre celle-ci et produire un rapport afin que l'organisation puisse améliorer sa sécurité. Les équipes rouges sont embauchées par l'organisation. Leur travail est légal, mais peut surprendre les employés ignorants les activités de l'équipe rouge, ou trompés par celle-ci. Certaines définitions de l'équipe rouge sont plus larges et incluent tout groupe, au sein d'une organisation, chargé de sortir des sentiers battus et d'examiner des scénarios alternatifs considérés comme moins plausibles. L'objectif étant de protéger une entreprise des fausses hypothèses et de la pensée de groupe.
L'équipe rouge « technique » se concentre sur l'attaque des réseaux informatiques. Elle peut faire face à une équipe bleue, un terme désignant les employés de la cybersécurité chargés de défendre l'organisation contre les attaques informatiques.

Envoyé par
Microsoft
Le red teaming, défini à l'origine comme la simulation d'attaques réelles et l'exercice de techniques que les cybercriminels persistants pourraient utiliser, est depuis longtemps une pratique de sécurité fondamentale chez Microsoft. En 2018, nous avons mis en place notre AI Red Team. Ce groupe d'experts interdisciplinaires qui se consacre à penser comme des attaquants et à sonder les applications d'IA pour détecter les défaillances a été la première équipe rouge dédiée à l'IA dans l'industrie.
Récemment, nous avons élargi nos pratiques d'équipe rouge pour cartographier les risques en dehors des risques de sécurité traditionnels, y compris ceux associés aux utilisateurs non antagonistes et ceux associés à l'IA responsable, comme la génération de contenus stéréotypés. Aujourd'hui, l'AI Red Team cartographie les risques liés à l'IA responsable et à la sécurité au niveau du modèle et de l'application :
- Red teamin de modèles : elle permet d'identifier comment un modèle peut être utilisé à mauvais escient, d'évaluer ses capacités et de comprendre ses limites. Ces informations guident non seulement le développement d'évaluations et de mesures d'atténuation au niveau de la plateforme pour l'utilisation du modèle dans les applications, mais elles peuvent également être utilisées pour informer les futures versions du modèle.
- Red teaming d'applications : le red teaming d'applications de l'IA adopte une vue du système, dont le modèle de base est une partie. Cela permet d'identifier les défaillances au-delà du modèle, en incluant les mesures d'atténuation et le système de sécurité propres à l'application. Le red teaming tout au long du développement d'un produit d'IA permet de mettre en évidence des risques précédemment inconnus, de confirmer si les risques potentiels se matérialisent dans une application et d'informer sur la mesure et la gestion des risques. Cette pratique permet également de clarifier l'étendue des capacités et des limites d'une application d'IA, d'identifier les possibilités d'utilisation abusive et de mettre en évidence les domaines à approfondir.

Cependant, les unités de red-teaming ont du pain sur la plancheLes déploiements de l'entreprise en matière d'IA n'ont pas été épargnés par les controverses.
Lors du premier déploiement de l'IA de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en
prenant un abonnement pour que nous puissions continuer à vous proposer des publications.