OpenAI a annoncé Privacy Filter, un nouveau modèle d'IA conçu pour détecter et masquer les informations personnelles identifiables dans les textes. Privacy Filter peut détecter des données personnelles dans un large éventail de formats au sein de textes non structurés. Il traite des volumes importants de données en un seul passage, identifiant les segments d'informations sensibles et les marquant pour qu'ils soient masqués ou supprimés sans générer de texte de remplacement. Privacy Filter identifie les segments sensibles dans huit catégories, notamment les personnes physiques, les adresses, les adresses e-mail, les numéros de téléphone, les URL, les dates confidentielles, les numéros de compte et les secrets tels que les mots de passe ou les clés API.OpenAI est une entreprise américaine d'intelligence artificielle (IA) fondée en 2015 à San Francisco en Californie. L'entreprise est connue pour ses grands modèles de langage tels que GPT-4o, la série de modèles de génération d'images DALL-E et le modèle de génération de vidéos Sora. Son lancement de ChatGPT en novembre 2022 a déclenché un intérêt mondial pour les agents conversationnels et l'IA générative.
OpenAI a annoncé Privacy Filter, un nouveau modèle d'IA conçu pour détecter et masquer les informations personnelles identifiables dans les textes. Cette version open-weight présente un petit modèle axé sur les processus de protection de la vie privée, permettant aux développeurs d'identifier les données sensibles contenues dans des documents, des journaux et des ensembles de données avant que ces informations ne soient stockées ou partagées.
Ce modèle est destiné à fonctionner comme un élément d'un processus général de « privacy-by-design » (respect de la vie privée dès la conception) plutôt que de remplacer l'examen des politiques dans les environnements hautement sensibles. Privacy Filter peut détecter des données personnelles dans un large éventail de formats au sein de textes non structurés. Il traite des volumes importants de données en un seul passage, identifiant les segments d'informations sensibles et les marquant pour qu'ils soient masqués ou supprimés sans générer de texte de remplacement.
Les développeurs peuvent exécuter Privacy Filter directement sur leurs propres systèmes, ce qui permet de filtrer le texte sensible avant qu'il ne quitte la machine. L'exécution locale élimine la nécessité de transmettre des données non filtrées à des services externes, ce qui facilitera les workflows où des contrôles de confidentialité doivent être appliqués avant les opérations de stockage, d'indexation ou de journalisation.
Les outils traditionnels de détection des données personnelles s'appuient souvent sur des règles de correspondance de motifs. Si ces règles fonctionnent assez bien pour les formats fixes tels que les numéros de téléphone et les adresses e-mail, elles peuvent passer à côté de données sensibles qui dépendent du contexte. Privacy Filter applique une analyse linguistique contextuelle pour identifier les données personnelles au sein du texte environnant, ce qui permet au modèle de repérer les cas où les informations deviennent sensibles une fois interprétées dans une phrase ou un document complet.
Le modèle utilise une structure de classification des jetons qui étiquette chaque jetons d'une séquence d'entrée. Les jetons sont évalués ensemble au cours d'un seul passage avant et ne sont pas traités étape par étape. Cela permet une analyse plus rapide des documents volumineux. Des longueurs de contexte allant jusqu'à 128 000 jetons sont prises en charge, ce qui permet de traiter des fichiers volumineux sans avoir à les diviser en parties plus petites. Le modèle contient au total 1,5 milliard de paramètres, dont 50 millions de paramètres actifs, ce qui lui permet de conserver sa capacité de détection tout en restant suffisamment compact pour fonctionner en local.
Privacy Filter identifie les segments sensibles dans huit catégories, notamment les personnes physiques, les adresses, les adresses e-mail, les numéros de téléphone, les URL, les dates confidentielles, les numéros de compte et les secrets tels que les mots de passe ou les clés API. La détection des numéros de compte inclut les identifiants financiers tels que les numéros de carte de crédit et les numéros de compte bancaire, tandis que la catégorie des secrets couvre les identifiants qui pourraient exposer l'accès à des logiciels ou à des services s'ils restaient visibles.
OpenAI indique que Privacy Filter a été testé à l'aide de l'ensemble de données de référence PII-Masking-300k et a obtenu un score F1 de 96 %, avec une précision de 94,04 % et un rappel de 98,04 %. OpenAI a également testé le modèle sur une version corrigée de l'ensemble de données qui remédiait aux problèmes d'étiquetage découverts lors de la révision. Dans ce cas, Privacy Filter a obtenu un score F1 de 97,43 %, avec une précision de 96,79 % et un rappel de 98,08 %.
Des tests supplémentaires ont montré que le modèle s'adapte rapidement à des cas d'utilisation spécialisés. Lors d'une évaluation, le réglage fin a permis de faire passer le score F1 de 54 % à 96 % lors d'un entraînement sur des données spécifiques à un domaine. Les données d'entraînement comprenaient un mélange de documents accessibles au public et d'exemples synthétiques, ces derniers ayant été utilisés pour étendre la couverture à différents formats et cas limites qui apparaissent moins fréquemment dans les ensembles de données publics.
OpenAI affirme que Privacy Filter peut fonctionner sur du texte bruité ou de formats mixtes, et le modèle a été testé sur des documents longs, des secrets liés aux logiciels, du texte multilingue et des exemples dépendants du contexte. Privacy Filter est disponible sous licence Apache 2.0 et les développeurs peuvent télécharger le modèle depuis Github et Hugging Face, puis l'exécuter localement. La documentation disponible comprend des détails sur l'architecture, les catégories de labels, les méthodes de décodage, les workflows pris en charge et les limitations connues.
Cette outil semble utile pour prévenir les fuites de données. En tout cas, OpenAI en aurait eu besoin au début d'année lorsque ces documents internes ont fuité. En effet, des documents internes d'OpenAI prévoient que le spécialiste de l'IA devrait enregistrer des pertes totales de 14 milliards de dollars en 2026. Il est également affirmé qu'OpenAI continuera à enregistrer des pertes colossales, totalisant 44 milliards de dollars jusqu'en 2029, date à laquelle l'entreprise ne se contentera pas de réaliser des bénéfices, mais générera des revenus comparables à ceux de Nvidia. Une révélation qui a remis en cause le modèle économique d'OpenAI et questionne sur la viabilité de l'entreprise.
Voici la présentation de Privacy Filter :
Présentation de OpenAI Privacy Filter
Aujourd’hui, nous lançons OpenAI Privacy Filter, un modèle à poids ouverts permettant de détecter et de masquer les informations personnelles identifiables (PII) dans un texte. Cette version s’inscrit dans notre démarche plus large visant à soutenir un écosystème logiciel plus résilient, en fournissant aux développeurs une infrastructure concrète pour créer avec l’IA en toute sécurité, notamment grâce à des outils et des modèles qui facilitent la mise en place de solides protections en matière de confidentialité et de sécurité dès le départ.
Privacy Filter est un petit modèle doté d’une capacité de détection des données personnelles de pointe. Il est conçu pour des workflows de confidentialité à haut débit et permet une détection des informations personnelles identifiables en tenant compte du contexte dans des textes non structurés. Il peut s’exécuter localement, ce qui signifie que les informations personnelles identifiables peuvent être masquées ou supprimées sans pour autant quitter votre...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.