IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google Research a dévoilé VaultGemma, un LLM à confidentialité différentielle doté d'un milliard de paramètres
Une avancée dans le domaine de l'IA préservant la confidentialité des données

Le , par Jade Emy

305PARTAGES

5  0 
Google Research a récemment dévoilé VaultGemma, un LLM à 1 milliard de paramètres et à confidentialité différentielle basé sur Gemma, qui marque une avancée majeure dans le domaine de l'IA préservant la confidentialité. Il surpasse les modèles précédents en termes de performances tout en empêchant les fuites de données grâce à l'ajout de bruit et à un entraînement optimisé. Cette innovation open source contribue à sécuriser les applications dans des secteurs sensibles tels que la santé et la finance.

Gemma est une série de grand modèle de langage open source développés par Google DeepMind. Elle repose sur des technologies similaires à celles de Gemini. La première version a été lancée en février 2024, suivie de Gemma 2 en juin 2024 et de Gemma 3 en mars 2025. Des variantes de Gemma ont également été développées, telles que le modèle de langage visuel PaliGemma et le modèle DolphinGemma pour comprendre la communication des dauphins.

Dans le domaine en rapide évolution de l'intelligence artificielle, les questions de confidentialité sont devenues primordiales, en particulier depuis que les grands modèles de langage (LLM) collectent d'énormes quantités de données. Google Research a fait un pas en avant avec l'introduction de VaultGemma, présenté comme le LLM à confidentialité différentielle le plus performant au monde. Ce modèle à 1 milliard de paramètres, construit sur l'architecture Gemma, représente une avancée dans l'entraînement des systèmes d'IA qui privilégient la confidentialité des utilisateurs sans sacrifier les performances.

La confidentialité différentielle, un cadre mathématique qui ajoute du bruit aux données afin d'empêcher l'identification des contributions individuelles, est depuis longtemps un outil permettant de protéger les informations sensibles. Cependant, son application aux LLM a toujours entraîné des compromis en termes de stabilité des modèles et d'efficacité computationnelle. VaultGemma relève ces défis de front, issu de recherches qui redéfinissent les lois d'échelle pour l'IA préservant la confidentialité.

https://youtu.be/bs5kBQluW44

Libérer la confidentialité dans la formation à l'IA

Le développement de VaultGemma est le fruit d'une collaboration entre Google Research et Google DeepMind, axée sur les compromis entre calcul, confidentialité et utilité inhérents à la formation à la confidentialité différentielle. Les lois d'échelle traditionnelles, qui prédisent les performances des modèles en fonction de la taille des données et des ressources de calcul, échouent dans le cadre de la confidentialité différentielle en raison de l'augmentation du bruit et de la taille des lots. Les nouvelles lois d'échelle de l'équipe fournissent une feuille de route pour optimiser ces facteurs, permettant la création de modèles privés plus grands et plus efficaces.

L'une des innovations clés est l'adaptation des protocoles d'entraînement pour gérer l'instabilité introduite par le bruit de confidentialité. La recherche souligne comment la confidentialité différentielle modifie la dynamique d'apprentissage, nécessitant des lots massifs (jusqu'à des millions d'exemples) pour stabiliser l'entraînement. Cela augmente les besoins en calcul, mais les conclusions de l'équipe offrent des conseils pratiques pour atténuer ces coûts, ce qui pourrait réduire les obstacles à une adoption généralisée.

À la base, VaultGemma est formé à partir de zéro à l'aide de techniques de confidentialité différentielle, ce qui en fait le plus grand modèle à poids ouvert de ce type. Cette approche garantit que le modèle ne peut pas mémoriser ou divulguer des données d'entraînement sensibles, une caractéristique essentielle pour les applications dans les domaines de la santé, de la finance et d'autres secteurs réglementés. Les évaluations montrent que VaultGemma surpasse les modèles précédents à confidentialité différentielle sur des benchmarks tels que MMLU et Big-Bench, obtenant des résultats comparables à ceux de ses homologues non privés tout en conservant de solides garanties de confidentialité.

Les observateurs du secteur ont souligné l'opportunité de cette publication dans un contexte de surveillance réglementaire croissante des pratiques en matière de données d'IA. Les publications sur les réseaux sociaux des passionnés et des chercheurs en IA, y compris celles des développeurs IA de Google, soulignent le rôle de VaultGemma dans la mise en place d'une IA sécurisée pour les secteurs sensibles. Par exemple, l'annonce de Google Research a été vu plus de 300 000 fois, soulignant l'enthousiasme suscité par les progrès de l'IA axée sur la confidentialité.

Au-delà de ses mérites techniques, la nature open source de VaultGemma, avec ses poids et son code disponibles en téléchargement, démocratise l'accès à une IA préservant la confidentialité. Cela contraste avec les modèles propriétaires et pourrait accélérer l'innovation dans les domaines où la sensibilité des données constitue un obstacle. Un rapport décrit cela comme une initiative stratégique de Google pour prendre les devants en matière de confidentialité dans un contexte d'évolution de la réglementation, comme le RGPD et les nouvelles lois américaines sur les données.

Les comparaisons avec les efforts antérieurs révèlent la supériorité de VaultGemma. Les modèles de confidentialité différentielle antérieurs, garantissaient la confidentialité, mais au détriment de l'utilité. VaultGemma comble cette lacune, avec des résultats empiriques montrant qu'il rivalise avec les modèles Gemma non confidentiels sur des tâches telles que les questions-réponses et le raisonnement, tout en garantissant des valeurs epsilon qui offrent une confidentialité robuste.


Voici un extrait du rapport de Google Research :

[QUOTE]Comprendre les lois d'échelle

Grâce à une méthodologie expérimentale mûrement réfléchie, nous avons cherché à quantifier les avantages liés à l'augmentation de la taille des modèles, des lots et des itérations dans le contexte de la formation DP. Notre travail a nécessité de formuler certaines hypothèses simplificatrices afin de surmonter le nombre exponentiel de combinaisons que l'on pourrait envisager d'essayer. Nous avons supposé que la qualité de l'apprentissage du modèle dépendait principalement du « rapport bruit-lot », qui compare la quantité de bruit aléatoire que nous ajoutons pour la confidentialité à la taille des groupes de données (lots) que nous utilisons pour l'entraînement. Cette hypothèse fonctionne car le bruit de confidentialité que nous ajoutons est beaucoup plus important que tout hasard naturel provenant de l'échantillonnage des données.

Afin d'établir une loi d'échelle DP, nous avons mené une série d'expériences complètes pour évaluer les performances pour différentes tailles de modèles et différents ratios bruit-lot. Les données empiriques obtenues, associées aux relations déterministes connues entre d'autres variables, nous permettent de répondre à diverses questions intéressantes de type « loi d'échelle », telles que « Pour un budget de calcul, un budget de confidentialité et un budget de données donnés, quelle est la configuration d'entraînement optimale pour obtenir la perte d'entraînement la plus faible possible ? »


Principales conclusions : une synergie puissante

Avant de se plonger dans les lois d'échelle complètes, il est utile de comprendre la dynamique et les synergies entre le budget de calcul, le budget de confidentialité et le budget de données du point de vue de la comptabilité de la confidentialité, c'est-à-dire de comprendre comment ces facteurs influencent le rapport bruit/lot pour une taille de modèle et un nombre d'itérations fixes. Cette analyse est nettement moins coûteuse à réaliser, car elle ne nécessite aucun apprentissage du modèle, mais elle fournit néanmoins un certain nombre d'informations utiles. Par exemple, augmenter le budget de confidentialité de manière isolée entraîne une diminution des rendements, à moins qu'elle ne s'accompagne d'une augmentation correspondante du budget de calcul (FLOP) ou du budget de données...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !