Microsoft est accusé d'avoir réduit au silence un employé qui avait exprimé des inquiétudes au sujet du générateur d'images DALL-E 3. L'employé en question, Shane Jones, affirme avoir découvert début décembre des failles dans DALL-E 3 permettant aux utilisateurs de contourner les garde-fous de sécurité pour créer des images violentes et explicites, mais l'entreprise a fait obstacle à sa tentative visant à attirer l'attention du public sur le problème. Dans une lettre adressée au procureur général de l'État de Washington et à des députés du Congrès, Jones a laissé entendre que ces failles pourraient être à l'origine des fausses images explicites de Taylor Swift.
Le monde a été stupéfait la semaine dernière après l'apparition de fausses images explicites de Taylor Swift sur la toile. Certaines de ces images ont été générées à l'aide de Microsoft Designer, un outil de génération d'images basé sur le modèle d'IA DALL-E 3 d'OpenAI. Elles ont provoqué une onde de choc sur la toile et le PDG de Microsoft, Satya Nadella, a ordonné à ses équipes d'agir rapidement pour renforcer les garde-fous des outils d'IA de l'entreprise. Microsoft semble avoir corrigé la faille dans son produit Designer, mais un ingénieur de l'entreprise estime que cet incident aurait probablement pu être évité.
Shane Jones, un ingénieur en IA de Microsoft, a déclaré récemment avoir découvert au début du mois dernier que le modèle DALL-E 3 présentait des failles de sécurité qui pourraient permettre aux utilisateurs de générer des images violentes ou explicites (semblables à celles qui ont visé Taylor Swift). Cependant, l'équipe juridique de Microsoft aurait bloqué les tentatives de Jones (responsable de l'ingénierie chez Microsoft) visant à alerter le public au sujet des problèmes de DALL-E. Jones, qui se décrit comme un lanceur d'alerte, a envoyé au début de la semaine dernière un message d'avertissement au Congrès.
« J'en suis arrivé à la conclusion que DALL-E 3 présentait un risque pour la sécurité publique et devait être retiré de l'utilisation publique jusqu'à ce qu'OpenAI puisse traiter les risques associés à ce modèle », a-t-il écrit aux sénateurs américains Patty Murray (D-WA) et Maria Cantwell (D-WA), au député Adam Smith (D-WA, 9e district) et au procureur général de l'État de Washington, Bob Ferguson (D). Dans sa lettre, Jones écrit qu'il a signalé la vulnérabilité à Microsoft et a reçu l'instruction de signaler le problème à OpenAI. Toutefois, il affirme ne pas avoir reçu de réponse après avoir signalé les vulnérabilités à OpenAI.
Selon la lettre, le 14 décembre, Jones a publié sur LinkedIn un message demandant au conseil d'administration de l'association OpenAI de retirer DALL-E 3 du marché. « L'apparition de fausses images explicites de Taylor Swift est un exemple du type d'abus qui me préoccupe et la raison pour laquelle j'ai demandé à OpenAI de retirer DALL-E 3 de l'utilisation publique et j'ai fait part de mes préoccupations à Microsoft », explique Jones. Dans la lettre, Jones a expliqué qu'après avoir publié son message sur LinkedIn, il a informé l'équipe dirigeante de Microsoft de ce message et a été rapidement contacté par son supérieur.
Ce dernier aurait dit à Jones que le service juridique de Microsoft exigeait qu'il supprime immédiatement le message et qu'il lui donnerait une explication ou une justification. Jones a déclaré aux législateurs qu'il a accepté de supprimer le message sur cette base, mais n'a jamais eu de nouvelles du service juridique de Microsoft. (Le site 404 Media a rapporté la semaine dernière que les fausses images explicites de Taylor Swift provenaient d'un groupe Telegram spécifique dédié à la publication d'images explicites de femmes, notant qu'au moins l'un des outils d'IA couramment utilisés par le groupe est Microsoft Designer.)
« Au cours du mois suivant, j'ai demandé à plusieurs reprises qu'on m'explique pourquoi on m'avait demandé de supprimer mon message. J'ai également proposé de partager des informations susceptibles d'aider à corriger la vulnérabilité spécifique que j'avais découverte et de fournir des idées pour rendre plus sûre la technologie d'IA de génération d'images. Le service juridique de Microsoft n'a toujours pas répondu et n'a pas communiqué directement avec moi », explique Jones dans sa lettre. Jones affirme également que les entreprises doivent répondre des problèmes de sécurité de leurs produits basés sur l'IA.
« L'IA progresse à un rythme sans précédent. Je comprends qu'il faudra du temps pour que la législation soit adoptée afin de garantir la sécurité publique de l'IA. Dans le même temps, nous devons tenir les entreprises responsables de la sécurité de leurs produits et de leur responsabilité de divulguer les risques connus au public. Les employés inquiets, comme moi, ne doivent pas être intimidés et rester silencieux », a-t-il déclaré. Jones a déclaré que Microsoft était conscient de ces vulnérabilités et des risques d'abus. Mais Microsoft a nié les allégations d'intimidation et a également rejeté les déclarations de Jones.
Microsoft a déclaré qu'il s'engageait à répondre aux préoccupations des employés et qu'il avait mis en place des canaux de signalement internes solides pour enquêter correctement et remédier à tout problème. Le géant de Redmond a déclaré avoir enquêté sur le rapport de Jones et estime que les techniques qu'il a partagées n'ont pas contourné les filtres de sécurité d'aucun des outils de génération d'images pilotées par l'IA. Il a ajouté : « les commentaires des employés sont une partie essentielle de notre culture, et nous sommes en contact avec ce collègue pour répondre à toutes les préoccupations qu'il pourrait avoir ».
Par la suite, Microsoft a mis à jour sa déclaration en ajoutant : « comme son rapport concernait un produit d'OpenAI, nous l'avons encouragé à le signaler par le biais des canaux de signalement standard d'OpenAI et l'un de nos principaux chefs de produit a partagé les commentaires de l'employé avec OpenAI, qui a immédiatement enquêté sur l'affaire ». De son côté, un porte-parole d'OpenAI a déclaré : « nous avons immédiatement enquêté sur le rapport de l'employé de Microsoft lorsque nous l'avons reçu et nous confirmons que la technique qu'il a partagée ne contourne pas nos systèmes de sécurité ».
Jones a déclaré avoir soumis les détails de la vulnérabilité via le site Web d'OpenAI le 9 décembre, en se basant sur les instructions qu'il avait reçues après avoir initialement signalé le problème en interne chez Microsoft. Il n'a pas reçu de réponse de la part d'OpenAI, ce qui l'a amené à publier la lettre ouverte au conseil d'administration d'OpenAI sur LinkedIn le 14 décembre. « Je suis déterminé à aider OpenAI et l'industrie à rendre les produits d'IA plus sûrs et je serais heureux d'avoir l'occasion d'aider OpenAI à corriger cette vulnérabilité », a-t-il déclaré. Toutefois, OpenAI n'a pas répondu à ces allégations.
Dans sa lettre, Jones demande aux législateurs et au gouvernement de créer un système de signalement et de suivi des risques et des problèmes liés à l'IA, en garantissant aux employés des entreprises qui développent l'IA qu'ils pourront utiliser le système sans craindre de représailles. Il conclut en demandant à Murray, Cantwell, Smith et Ferguson d'examiner les risques relatifs à DALL-E 3 et à d'autres technologies d'IA de génération d'images, ainsi que la gouvernance d'entreprise et les pratiques responsables en matière d'IA des entreprises qui construisent et commercialisent ces produits.
Source : lettre de Shane Jones aux législateurs américains (PDF)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des allégations de l'employé de Microsoft ?
Microsoft et OpenAI ont-ils minimisé les risques d'abus liés à leurs outils d'IA ?
Voir aussi
Le PDG de Microsoft appelle l'industrie technologique à « agir » après des photos pornos de Taylor Swift générées par IA, certaines d'entre elles ont été générées par un outil de Microsoft
Microsoft comble la lacune qui a causé l'incident "Taylor Swift", avec plus de protections pour Designer, le générateur d'images par IA était utilisé pour produire des images pornographiques
Microsoft annonce la disponibilité de DALL-E 3 pour tous les utilisateurs de Bing Chat et de Bing Image Creator, des filigranes permettent d'identifier les images comme étant générées par l'IA
Un ingénieur en IA de Microsoft accuse l'entreprise d'avoir déjoué ses tentatives visant à exposer les problèmes de sécurité de DALL-E 3,
Permettant de générer des contenus violents ou explicites
Un ingénieur en IA de Microsoft accuse l'entreprise d'avoir déjoué ses tentatives visant à exposer les problèmes de sécurité de DALL-E 3,
Permettant de générer des contenus violents ou explicites
Le , par Mathis Lucas
Une erreur dans cette actualité ? Signalez-nous-la !