
Le laboratoire Google DeepMind d'Alphabet Inc. a lancé la troisième version de son cadre de sécurité de pointe afin de renforcer la surveillance des systèmes d'intelligence artificielle puissants qui pourraient présenter des risques s'ils n'étaient pas contrôlés. La troisième version du cadre met l'accent sur les capacités de manipulation et élargit les contrôles de sécurité afin de couvrir les scénarios dans lesquels les modèles pourraient résister à un arrêt ou à un contrôle humain.
Beaucoup semblent avoir l'impression que l'intelligence artificielle (IA) peut nous aider à prendre de meilleures décisions. Après tout, qu'est-ce qui peut être plus objectif qu'une machine ? Eh bien, des études ont montré que l'IA peut être sujette à des préjugés, tout comme les êtres humains. Ce sont les humains qui entrent les données pour alimenter son algorithme d'apprentissage automatique en premier lieu, il est donc logique qu'elle commence à apprendre beaucoup des préjugés sous lesquels nous fonctionnons. En 2023, un rapport avait notamment révélé que 98 % des sondés estiment que l'IA a hérité des biais humains en raison des données qui l'alimentent et 45 % pensent que c'est le plus gros problème de l'IA.
Récemment, le laboratoire Google DeepMind d'Alphabet Inc. a lancé la troisième version de son cadre de sécurité de pointe afin de renforcer la surveillance des systèmes d'intelligence artificielle puissants qui pourraient présenter des risques s'ils n'étaient pas contrôlés. La troisième version du cadre met l'accent sur les capacités de manipulation et élargit les contrôles de sécurité afin de couvrir les scénarios dans lesquels les modèles pourraient résister à un arrêt ou à un contrôle humain.
DeepMind Technologies Limited, commercialisée sous le nom de Google DeepMind ou simplement DeepMind, est un laboratoire de recherche britannique-américain spécialisé dans l'IA, filiale d'Alphabet Inc. Google DeepMind est responsable du développement de Gemini (la famille de grands modèles de langage de Google) et d'autres outils d'IA générative, tels que le modèle de conversion de texte en image Imagen, le modèle de conversion de texte en vidéo Veo et le modèle de conversion de texte en musique Lyria.
La principale nouveauté de ce framework est l'ajout de ce que DeepMind appelle un « niveau de capacité critique » pour les manipulations nuisibles. Ce niveau répond à la possibilité que des modèles avancés puissent influencer ou modifier les croyances et les comportements humains à grande échelle dans des contextes à haut risque. Cette capacité s'appuie sur des années de recherche sur les mécanismes de persuasion et de manipulation dans l'IA générative et formalise la manière dont elle mesurera, surveillera et atténuera ces risques avant que les modèles n'atteignent des seuils critiques.
Le cadre mis à jour apporte également un examen plus approfondi des problèmes de désalignement et de contrôle, c'est-à-dire l'idée que des systèmes hautement performants pourraient, en théorie, résister à la modification ou à l'arrêt. DeepMind exige désormais des examens de sécurité non seulement avant le déploiement externe, mais aussi pour les déploiements internes à grande échelle dès qu'un modèle atteint certains seuils CCL. Ces examens sont conçus pour obliger les équipes à démontrer que les risques potentiels ont été correctement identifiés, atténués et jugés acceptables avant la mise en service.
Outre les nouvelles catégories de risques, le cadre mis à jour affine la manière dont DeepMind définit et applique les niveaux de capacité. Ces améliorations visent à séparer clairement les préoccupations opérationnelles courantes des menaces les plus graves, afin de garantir que les mécanismes de gouvernance se déclenchent au bon moment. Le cadre de sécurité Frontier Safety Framework souligne que les mesures d'atténuation doivent être appliquées de manière proactive avant que les systèmes ne franchissent des limites dangereuses, et non de manière réactive après l'apparition des problèmes.
« Cette dernière mise à jour de notre cadre de sécurité Frontier Safety Framework témoigne de notre engagement continu à adopter une approche scientifique et fondée sur des preuves pour suivre et anticiper les risques liés à l'IA à mesure que les capacités progressent vers l'intelligence artificielle générale », ont déclaré Four Flynn, Helen King et Anca Dragan de Google Deepmind. « En élargissant nos domaines de risque et en renforçant nos processus d'évaluation des risques, nous voulons nous assurer que l'IA transformatrice profite à l'humanité tout en minimisant les dommages potentiels. »
Les auteurs ont ajouté que DeepMind s'attend à ce que le FSF continue d'évoluer grâce à de nouvelles recherches, à l'expérience acquise en matière de déploiement et aux commentaires des parties prenantes.
Cette mise à jour intervient dans un contexte où les géants de la technologie s’empressent de déployer des chatbots d’intelligence artificielle capables de tenir des conversations de plus en plus naturelles. L’ambition affichée est simple : offrir un outil universel d’assistance, de créativité et de savoir. Mais derrière la promesse d’une révolution cognitive se cache une réalité plus inquiétante : ces systèmes ne se contentent pas de générer du texte, ils valident souvent des illusions grandioses. Là où l’utilisateur attend une correction, une mise en garde ou une analyse critique, le chatbot devient un miroir complaisant, prêt à renforcer des fantasmes d’invention ou de découverte scientifique qui n’existent pas.
Pour résumer, voici les principales améliorations de cette version :
- Lutter contre les risques liés à la manipulation nuisible
Avec cette mise à jour, Google DeepMind introduit un niveau de capacité critique (CCL) axé sur la manipulation nuisible, en particulier les modèles d'IA dotés de puissantes capacités de manipulation qui pourraient être utilisés à mauvais escient pour modifier de manière systématique et substantielle les croyances et les comportements dans des contextes à haut risque identifiés au cours des interactions avec le modèle, entraînant raisonnablement des dommages supplémentaires attendus à une échelle grave. Cet ajout s'appuie sur les recherches menées pour identifier et évaluer les mécanismes qui favorisent la manipulation par l'IA générative, et les met en œuvre.
- Adapter l'approche aux risques de désalignement
Cette nouvelle version élargit le cadre afin de prendre en compte les scénarios futurs potentiels dans lesquels des modèles d'IA désalignés pourraient interférer avec la capacité des opérateurs à diriger, modifier ou arrêter leurs opérations.
Alors que la version précédente du cadre comprenait une approche exploratoire centrée sur les CCL de raisonnement instrumental (c'est-à-dire les niveaux d'alerte spécifiques au moment où un modèle d'IA commence à penser de manière trompeuse), cette mise à jour permet de fournir des protocoles supplémentaires pour les CCL de recherche et développement en apprentissage automatique, axés sur les modèles susceptibles d'accélérer la recherche et le développement en IA à des niveaux potentiellement déstabilisants.
Outre les risques d'utilisation abusive découlant de ces capacités, il existe également des risques de désalignement liés au potentiel d'action non dirigée d'un modèle à ces niveaux de capacité et à l'intégration probable de ces modèles dans les processus de développement et de déploiement de l'IA.
Pour faire face aux risques posés par les CCL, cette version permet de procéder à des examens de sécurité avant les lancements externes lorsque les CCL pertinents sont atteints. Cela implique de réaliser des analyses détaillées démontrant comment les risques ont été réduits à des niveaux gérables. Pour les CCL de recherche et développement avancés en apprentissage automatique, les déploiements internes à grande échelle peuvent également présenter des risques.
- Affiner le processus d'évaluation des risques
Le cadre est conçu pour traiter les risques proportionnellement à leur gravité. Google DeepMind a affiné les définitions des CCL afin d'identifier les menaces critiques qui justifient les stratégies de gouvernance et d'atténuation les plus rigoureuses. Ils continuent à appliquer des mesures d'atténuation en matière de sûreté et de sécurité avant que des seuils CCL spécifiques ne soient atteints et dans le cadre d'une approche standard de développement de modèles.
Source : Annonce de Google DeepMind
Et vous ?


Voir aussi :



Vous avez lu gratuitement 383 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.