
Google Research a récemment dévoilé VaultGemma, un LLM à 1 milliard de paramètres et à confidentialité différentielle basé sur Gemma, qui marque une avancée majeure dans le domaine de l'IA préservant la confidentialité. Il surpasse les modèles précédents en termes de performances tout en empêchant les fuites de données grâce à l'ajout de bruit et à un entraînement optimisé. Cette innovation open source contribue à sécuriser les applications dans des secteurs sensibles tels que la santé et la finance.
Gemma est une série de grand modèle de langage open source développés par Google DeepMind. Elle repose sur des technologies similaires à celles de Gemini. La première version a été lancée en février 2024, suivie de Gemma 2 en juin 2024 et de Gemma 3 en mars 2025. Des variantes de Gemma ont également été développées, telles que le modèle de langage visuel PaliGemma et le modèle DolphinGemma pour comprendre la communication des dauphins.
Dans le domaine en rapide évolution de l'intelligence artificielle, les questions de confidentialité sont devenues primordiales, en particulier depuis que les grands modèles de langage (LLM) collectent d'énormes quantités de données. Google Research a fait un pas en avant avec l'introduction de VaultGemma, présenté comme le LLM à confidentialité différentielle le plus performant au monde. Ce modèle à 1 milliard de paramètres, construit sur l'architecture Gemma, représente une avancée dans l'entraînement des systèmes d'IA qui privilégient la confidentialité des utilisateurs sans sacrifier les performances.
La confidentialité différentielle, un cadre mathématique qui ajoute du bruit aux données afin d'empêcher l'identification des contributions individuelles, est depuis longtemps un outil permettant de protéger les informations sensibles. Cependant, son application aux LLM a toujours entraîné des compromis en termes de stabilité des modèles et d'efficacité computationnelle. VaultGemma relève ces défis de front, issu de recherches qui redéfinissent les lois d'échelle pour l'IA préservant la confidentialité.
Libérer la confidentialité dans la formation à l'IA
Le développement de VaultGemma est le fruit d'une collaboration entre Google Research et Google DeepMind, axée sur les compromis entre calcul, confidentialité et utilité inhérents à la formation à la confidentialité différentielle. Les lois d'échelle traditionnelles, qui prédisent les performances des modèles en fonction de la taille des données et des ressources de calcul, échouent dans le cadre de la confidentialité différentielle en raison de l'augmentation du bruit et de la taille des lots. Les nouvelles lois d'échelle de l'équipe fournissent une feuille de route pour optimiser ces facteurs, permettant la création de modèles privés plus grands et plus efficaces.
L'une des innovations clés est l'adaptation des protocoles d'entraînement pour gérer l'instabilité introduite par le bruit de confidentialité. La recherche souligne comment la confidentialité différentielle modifie la dynamique d'apprentissage, nécessitant des lots massifs (jusqu'à des millions d'exemples) pour stabiliser l'entraînement. Cela augmente les besoins en calcul, mais les conclusions de l'équipe offrent des conseils pratiques pour atténuer ces coûts, ce qui pourrait réduire les obstacles à une adoption généralisée.
À la base, VaultGemma est formé à partir de zéro à l'aide de techniques de confidentialité différentielle, ce qui en fait le plus grand modèle à poids ouvert de ce type. Cette approche garantit que le modèle ne peut pas mémoriser ou divulguer des données d'entraînement sensibles, une caractéristique essentielle pour les applications dans les domaines de la santé, de la finance et d'autres secteurs réglementés. Les évaluations montrent que VaultGemma surpasse les modèles précédents à confidentialité différentielle sur des benchmarks tels que MMLU et Big-Bench, obtenant des résultats comparables à ceux de ses homologues non privés tout en conservant de solides garanties de confidentialité.
Les observateurs du secteur ont souligné l'opportunité de cette publication dans un contexte de surveillance réglementaire croissante des pratiques en matière de données d'IA. Les publications sur les réseaux sociaux des passionnés et des chercheurs en IA, y compris celles des développeurs IA de Google, soulignent le rôle de VaultGemma dans la mise en place d'une IA sécurisée pour les secteurs sensibles. Par exemple, l'annonce de Google Research a été vu plus de 300 000 fois, soulignant l'enthousiasme suscité par les progrès de l'IA axée sur la confidentialité.
Au-delà de ses mérites techniques, la nature open source de VaultGemma, avec ses poids et son code disponibles en téléchargement, démocratise l'accès à une IA préservant la confidentialité. Cela contraste avec les modèles propriétaires et pourrait accélérer l'innovation dans les domaines où la sensibilité des données constitue un obstacle. Un rapport décrit cela comme une initiative stratégique de Google pour prendre les devants en matière de confidentialité dans un contexte d'évolution de la réglementation, comme le RGPD et les nouvelles lois américaines sur les données.
Les comparaisons avec les efforts antérieurs révèlent la supériorité de VaultGemma. Les modèles de confidentialité différentielle antérieurs, garantissaient la confidentialité, mais au détriment de l'utilité. VaultGemma comble cette lacune, avec des résultats empiriques montrant qu'il rivalise avec les modèles Gemma non confidentiels sur des tâches telles que les questions-réponses et le raisonnement, tout en garantissant des valeurs epsilon qui offrent une confidentialité robuste.
Voici un extrait du rapport de Google Research :
Comprendre les lois d'échelle
Grâce à une méthodologie expérimentale mûrement réfléchie, nous avons cherché à quantifier les avantages liés à l'augmentation de la taille des modèles, des lots et des itérations dans le contexte de la formation DP. Notre travail a nécessité de formuler certaines hypothèses simplificatrices afin de surmonter le nombre exponentiel de combinaisons que l'on pourrait envisager d'essayer. Nous avons supposé que la qualité de l'apprentissage du modèle dépendait principalement du « rapport bruit-lot », qui compare la quantité de bruit aléatoire que nous ajoutons pour la confidentialité à la taille des groupes de données (lots) que nous utilisons pour l'entraînement. Cette hypothèse fonctionne car le bruit de confidentialité que nous ajoutons est beaucoup plus important que tout hasard naturel provenant de l'échantillonnage des données.
Afin d'établir une loi d'échelle DP, nous avons mené une série d'expériences complètes pour évaluer les performances pour différentes tailles de modèles et différents ratios bruit-lot. Les données empiriques obtenues, associées aux relations déterministes connues entre d'autres variables, nous permettent de répondre à diverses questions intéressantes de type « loi d'échelle », telles que « Pour un budget de calcul, un budget de confidentialité et un budget de données donnés, quelle est la configuration d'entraînement optimale pour obtenir la perte d'entraînement la plus faible possible ? »

Principales conclusions : une synergie puissante
Avant de se plonger dans les lois d'échelle complètes, il est utile de comprendre la dynamique et les synergies entre le budget de calcul, le budget de confidentialité et le budget de données du point de vue de la comptabilité de la confidentialité, c'est-à-dire de comprendre comment ces facteurs influencent le rapport bruit/lot pour une taille de modèle et un nombre d'itérations fixes. Cette analyse est nettement moins coûteuse à réaliser, car elle ne nécessite aucun apprentissage du modèle, mais elle fournit néanmoins un certain nombre d'informations utiles. Par exemple, augmenter le budget de confidentialité de manière isolée entraîne une diminution des rendements, à moins qu'elle ne s'accompagne d'une augmentation correspondante du budget de calcul (FLOP) ou du budget de données (jetons).

Pour explorer davantage cette synergie, la visualisation ci-dessous montre comment la configuration d'entraînement optimale change en fonction de différentes contraintes. À mesure que les budgets de confidentialité et de calcul changent, remarquez comment la recommandation oscille entre investir dans un modèle plus grand et s'entraîner avec des tailles de lots plus importantes ou davantage d'itérations.


Ces données fournissent une mine d'informations utiles aux praticiens. Bien que toutes ces informations soient présentées dans l'article, l'une des conclusions clés est qu'il convient de former un modèle beaucoup plus petit avec une taille de lot beaucoup plus grande que celle qui serait utilisée sans DP. Cette observation générale ne devrait pas surprendre les experts en DP, compte tenu de l'importance des grandes tailles de lots. Bien que cette observation générale s'applique à de nombreux paramètres, les configurations d'entraînement optimales varient en fonction des budgets de confidentialité et de données. Il est essentiel de comprendre le compromis exact afin de garantir que les budgets de calcul et de confidentialité sont utilisés à bon escient dans des scénarios d'entraînement réels. Les visualisations ci-dessus révèlent également qu'il existe souvent une marge de manœuvre dans les configurations d'entraînement, c'est-à-dire qu'une gamme de tailles de modèles peut offrir une utilité très similaire si elle est associée au nombre correct d'itérations et/ou à la taille de lot appropriée.
Application des lois d'échelle pour créer VaultGemma
Les modèles Gemma sont conçus dans un souci de responsabilité et de sécurité. Ils constituent donc une base naturelle pour développer un modèle de qualité production, entraîné par DP, tel que VaultGemma.
Les lois d'échelle que nous avons dérivées ci-dessus représentent une première étape importante vers la formation d'un modèle Gemma utile avec DP. Nous avons utilisé les lois d'échelle pour déterminer à la fois la puissance de calcul nécessaire pour former un modèle basé sur Gemma 2 avec 1 milliard de paramètres et une puissance de calcul optimale avec DP, et comment répartir cette puissance de calcul entre la taille des lots, les itérations et la longueur des séquences afin d'obtenir la meilleure utilité possible.
Une différence notable entre la recherche à la base des lois d'échelle et la formation réelle de VaultGemma était notre traitement de l'échantillonnage de Poisson, qui est un élément central du DP-SGD. Nous avons d'abord utilisé une méthode simple consistant à charger les données par lots uniformes, mais nous sommes ensuite passés à l'échantillonnage de Poisson afin d'obtenir les meilleures garanties de confidentialité avec le moins de bruit possible. Cette méthode posait deux défis principaux : elle créait des lots de tailles différentes et nécessitait un ordre aléatoire spécifique pour le traitement des données. Nous avons résolu ce problème en utilisant nos travaux récents sur le DP-SGD évolutif, qui nous permettent de traiter les données par lots de taille fixe, soit en ajoutant un remplissage supplémentaire, soit en les réduisant, tout en conservant une protection élevée de la confidentialité.
Résultats
Grâce à nos nouvelles lois d'échelle et à nos algorithmes d'entraînement avancés, nous avons créé VaultGemma, à ce jour le plus grand modèle ouvert (1 milliard de paramètres) entièrement pré-entraîné avec la confidentialité différentielle, avec une approche qui permet d'obtenir des modèles très utiles.
L'entraînement de VaultGemma nous a permis de constater que nos lois d'échelle étaient très précises. La perte d'entraînement finale de VaultGemma était remarquablement proche de ce que nos équations avaient prédit, validant ainsi nos recherches et fournissant à la communauté une feuille de route fiable pour le développement futur de modèles privés.

Nous comparons également les performances en aval de notre modèle à celles de son homologue non privé à l'aide d'une série de benchmarks académiques standard (HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C, ARC-E). Afin de mettre ces performances en perspective et de quantifier l'investissement actuel en ressources nécessaire pour garantir la confidentialité, nous incluons également une comparaison avec un ancien modèle GPT-2 de taille similaire, qui affiche des performances similaires sur ces benchmarks. Cette comparaison montre que les méthodes d'entraînement confidentielles actuelles produisent des modèles dont l'utilité est comparable à celle des modèles non confidentiels d'il y a environ 5 ans, soulignant ainsi l'écart important que nos travaux aideront la communauté à combler de manière systématique.
Enfin, le modèle est doté de solides protections théoriques et empiriques en matière de confidentialité.
Garantie formelle de confidentialité
En général, les paramètres de confidentialité (ε, δ
et l'unité de confidentialité sont des éléments importants à prendre en compte lors de la formation DP, car ils déterminent ensemble ce que le modèle formé peut apprendre. VaultGemma a été formé avec une garantie DP au niveau de la séquence de (ε ≤ 2,0, δ ≤ 1,1e-10), où une séquence se compose de 1024 tokens consécutifs extraits de sources de données hétérogènes. Plus précisément, nous avons utilisé le même mélange d'entraînement que celui utilisé pour entraîner le modèle Gemma 2, composé d'un certain nombre de documents de longueurs variables. Lors du prétraitement, les documents longs sont divisés et tokenisés en plusieurs séquences, tandis que les documents plus courts sont regroupés en une seule séquence. Si l'unité de confidentialité au niveau de la séquence était un choix naturel pour notre mélange d'entraînement, dans les situations où il existe un mappage clair entre les données et les utilisateurs, la confidentialité différentielle au niveau de l'utilisateur serait un meilleur choix.
Qu'est-ce que cela signifie concrètement ? En termes simples, comme nous assurons une protection au niveau de la séquence, si des informations relatives à un fait ou à une inférence (potentiellement privé) apparaissent dans une seule séquence, VaultGemma n'a alors essentiellement pas connaissance de ce fait : la réponse à toute requête sera statistiquement similaire au résultat d'un modèle qui n'a jamais été formé sur la séquence en question. Toutefois, si de nombreuses séquences d'entraînement contiennent des informations pertinentes pour un fait particulier, VaultGemma sera généralement en mesure de fournir ces informations.
Mémorisation empirique
La DP au niveau de la séquence limite de manière vérifiable l'influence de toute séquence d'entraînement unique (exemple) sur le modèle final. Nous avons soumis au modèle un préfixe de 50 tokens provenant d'un document d'entraînement afin de voir s'il générerait le suffixe correspondant de 50 jetons. VaultGemma 1B ne montre aucune mémorisation détectable de ses données d'entraînement et démontre avec succès l'efficacité de l'entraînement DP.
Grâce à une méthodologie expérimentale mûrement réfléchie, nous avons cherché à quantifier les avantages liés à l'augmentation de la taille des modèles, des lots et des itérations dans le contexte de la formation DP. Notre travail a nécessité de formuler certaines hypothèses simplificatrices afin de surmonter le nombre exponentiel de combinaisons que l'on pourrait envisager d'essayer. Nous avons supposé que la qualité de l'apprentissage du modèle dépendait principalement du « rapport bruit-lot », qui compare la quantité de bruit aléatoire que nous ajoutons pour la confidentialité à la taille des groupes de données (lots) que nous utilisons pour l'entraînement. Cette hypothèse fonctionne car le bruit de confidentialité que nous ajoutons est beaucoup plus important que tout hasard naturel provenant de l'échantillonnage des données.
Afin d'établir une loi d'échelle DP, nous avons mené une série d'expériences complètes pour évaluer les performances pour différentes tailles de modèles et différents ratios bruit-lot. Les données empiriques obtenues, associées aux relations déterministes connues entre d'autres variables, nous permettent de répondre à diverses questions intéressantes de type « loi d'échelle », telles que « Pour un budget de calcul, un budget de confidentialité et un budget de données donnés, quelle est la configuration d'entraînement optimale pour obtenir la perte d'entraînement la plus faible possible ? »
Principales conclusions : une synergie puissante
Avant de se plonger dans les lois d'échelle complètes, il est utile de comprendre la dynamique et les synergies entre le budget de calcul, le budget de confidentialité et le budget de données du point de vue de la comptabilité de la confidentialité, c'est-à-dire de comprendre comment ces facteurs influencent le rapport bruit/lot pour une taille de modèle et un nombre d'itérations fixes. Cette analyse est nettement moins coûteuse à réaliser, car elle ne nécessite aucun apprentissage du modèle, mais elle fournit néanmoins un certain nombre d'informations utiles. Par exemple, augmenter le budget de confidentialité de manière isolée entraîne une diminution des rendements, à moins qu'elle ne s'accompagne d'une augmentation correspondante du budget de calcul (FLOP) ou du budget de données (jetons).
Pour explorer davantage cette synergie, la visualisation ci-dessous montre comment la configuration d'entraînement optimale change en fonction de différentes contraintes. À mesure que les budgets de confidentialité et de calcul changent, remarquez comment la recommandation oscille entre investir dans un modèle plus grand et s'entraîner avec des tailles de lots plus importantes ou davantage d'itérations.
Ces données fournissent une mine d'informations utiles aux praticiens. Bien que toutes ces informations soient présentées dans l'article, l'une des conclusions clés est qu'il convient de former un modèle beaucoup plus petit avec une taille de lot beaucoup plus grande que celle qui serait utilisée sans DP. Cette observation générale ne devrait pas surprendre les experts en DP, compte tenu de l'importance des grandes tailles de lots. Bien que cette observation générale s'applique à de nombreux paramètres, les configurations d'entraînement optimales varient en fonction des budgets de confidentialité et de données. Il est essentiel de comprendre le compromis exact afin de garantir que les budgets de calcul et de confidentialité sont utilisés à bon escient dans des scénarios d'entraînement réels. Les visualisations ci-dessus révèlent également qu'il existe souvent une marge de manœuvre dans les configurations d'entraînement, c'est-à-dire qu'une gamme de tailles de modèles peut offrir une utilité très similaire si elle est associée au nombre correct d'itérations et/ou à la taille de lot appropriée.
Application des lois d'échelle pour créer VaultGemma
Les modèles Gemma sont conçus dans un souci de responsabilité et de sécurité. Ils constituent donc une base naturelle pour développer un modèle de qualité production, entraîné par DP, tel que VaultGemma.
Les lois d'échelle que nous avons dérivées ci-dessus représentent une première étape importante vers la formation d'un modèle Gemma utile avec DP. Nous avons utilisé les lois d'échelle pour déterminer à la fois la puissance de calcul nécessaire pour former un modèle basé sur Gemma 2 avec 1 milliard de paramètres et une puissance de calcul optimale avec DP, et comment répartir cette puissance de calcul entre la taille des lots, les itérations et la longueur des séquences afin d'obtenir la meilleure utilité possible.
Une différence notable entre la recherche à la base des lois d'échelle et la formation réelle de VaultGemma était notre traitement de l'échantillonnage de Poisson, qui est un élément central du DP-SGD. Nous avons d'abord utilisé une méthode simple consistant à charger les données par lots uniformes, mais nous sommes ensuite passés à l'échantillonnage de Poisson afin d'obtenir les meilleures garanties de confidentialité avec le moins de bruit possible. Cette méthode posait deux défis principaux : elle créait des lots de tailles différentes et nécessitait un ordre aléatoire spécifique pour le traitement des données. Nous avons résolu ce problème en utilisant nos travaux récents sur le DP-SGD évolutif, qui nous permettent de traiter les données par lots de taille fixe, soit en ajoutant un remplissage supplémentaire, soit en les réduisant, tout en conservant une protection élevée de la confidentialité.
Résultats
Grâce à nos nouvelles lois d'échelle et à nos algorithmes d'entraînement avancés, nous avons créé VaultGemma, à ce jour le plus grand modèle ouvert (1 milliard de paramètres) entièrement pré-entraîné avec la confidentialité différentielle, avec une approche qui permet d'obtenir des modèles très utiles.
L'entraînement de VaultGemma nous a permis de constater que nos lois d'échelle étaient très précises. La perte d'entraînement finale de VaultGemma était remarquablement proche de ce que nos équations avaient prédit, validant ainsi nos recherches et fournissant à la communauté une feuille de route fiable pour le développement futur de modèles privés.
Nous comparons également les performances en aval de notre modèle à celles de son homologue non privé à l'aide d'une série de benchmarks académiques standard (HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C, ARC-E). Afin de mettre ces performances en perspective et de quantifier l'investissement actuel en ressources nécessaire pour garantir la confidentialité, nous incluons également une comparaison avec un ancien modèle GPT-2 de taille similaire, qui affiche des performances similaires sur ces benchmarks. Cette comparaison montre que les méthodes d'entraînement confidentielles actuelles produisent des modèles dont l'utilité est comparable à celle des modèles non confidentiels d'il y a environ 5 ans, soulignant ainsi l'écart important que nos travaux aideront la communauté à combler de manière systématique.
Enfin, le modèle est doté de solides protections théoriques et empiriques en matière de confidentialité.
Garantie formelle de confidentialité
En général, les paramètres de confidentialité (ε, δ

Qu'est-ce que cela signifie concrètement ? En termes simples, comme nous assurons une protection au niveau de la séquence, si des informations relatives à un fait ou à une inférence (potentiellement privé) apparaissent dans une seule séquence, VaultGemma n'a alors essentiellement pas connaissance de ce fait : la réponse à toute requête sera statistiquement similaire au résultat d'un modèle qui n'a jamais été formé sur la séquence en question. Toutefois, si de nombreuses séquences d'entraînement contiennent des informations pertinentes pour un fait particulier, VaultGemma sera généralement en mesure de fournir ces informations.
Mémorisation empirique
La DP au niveau de la séquence limite de manière vérifiable l'influence de toute séquence d'entraînement unique (exemple) sur le modèle final. Nous avons soumis au modèle un préfixe de 50 tokens provenant d'un document d'entraînement afin de voir s'il générerait le suffixe correspondant de 50 jetons. VaultGemma 1B ne montre aucune mémorisation détectable de ses données d'entraînement et démontre avec succès l'efficacité de l'entraînement DP.
À l'avenir, les lois d'échelle établies dans le cadre de ces travaux pourraient servir de base à la formation de modèles de langage privés encore plus grands, pouvant potentiellement atteindre des milliers de milliards de paramètres. Des collaborations avec des secteurs tels que la santé sont déjà en discussion, où VaultGemma pourrait analyser les données des patients sans risque de violation. Un rapport souligne son potentiel pour des applications biomédicales axées sur la confidentialité.
Les détracteurs soulignent toutefois que la charge informatique élevée reste un obstacle pour les petites organisations. Mais les optimisations apportées à la recherche pourraient ouvrir la voie à des implémentations plus efficaces. L'engagement de Google Research à ouvrir le code source de VaultGemma s'inscrit dans la tendance générale de l'industrie vers un développement transparent de l'IA.
L'annonce de VaultGemma intervient alors que Google a annoncé ses résultats financiers, notamment les résultats de l'intégration de l'IA dans ses services cloud et ses produits grand public. L'entreprise ayant déclaré un chiffre d'affaires de 10,3 milliards de dollars pour le deuxième trimestre 2025, soit une augmentation de 29 % par rapport à l'année précédente. Cette croissance est tirée par des outils basés sur l'IA tels que Vertex AI, AI Overviews dans Search et des agents IA qui automatisent les tâches des entreprises. La stratégie axée sur l'IA de Google passe ainsi des subventions à des profits durables, positionnant l'entreprise pour une expansion continue dans les sources de revenus générées par l'IA.
Cette publication suscite également des discussions sur l'éthique de l'IA. En empêchant les modèles de recycler données d'entraînement, VaultGemma atténue les risques de désinformation et d'amplification des biais. Les progrès de Google AI suggèrent que cela pourrait établir une nouvelle norme pour un déploiement responsable de l'IA. En fin de compte, VaultGemma illustre comment une recherche rigoureuse peut harmoniser l'IA de pointe avec les impératifs de confidentialité. Alors que les entreprises sont confrontées à la gouvernance des données, ce modèle offre un plan directeur pour une innovation sécurisée, susceptible de remodeler la manière dont l'IA est intégrée dans les opérations quotidiennes de tous les secteurs.
Cependant, elle ravive les craintes sur l'impact de l'IA sur les emplois. Au cours d'une interview qui fait l'effet d'une bombe, Mo Gawdat, l'ancien directeur commercial de Google X, a notamment dressé un tableau sombre de l'avenir de l'IA. Selon lui, l'IA ne se contentera pas de prendre des emplois, mais provoquera une période de « 15 ans d'enfer » qui débutera plus tôt que nous le pensons. Gawdat a mis en garde contre le déplacement massif d'emplois, touchant même des professions que l'on croyait à l'abri... même des fonctions comme PDG. Il a expliqué que les systèmes d'IA de plus en plus sophistiqués seront en mesure de reproduire les compétences humaines de manière plus efficace et à moindre coût, rendant de nombreux postes superflus.
Source : Google Research
Et vous ?


Voir aussi :



Vous avez lu gratuitement 6 164 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.