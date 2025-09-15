



Grâce à une méthodologie expérimentale mûrement réfléchie, nous avons cherché à quantifier les avantages liés à l'augmentation de la taille des modèles, des lots et des itérations dans le contexte de la formation DP. Notre travail a nécessité de formuler certaines hypothèses simplificatrices afin de surmonter le nombre exponentiel de combinaisons que l'on pourrait envisager d'essayer. Nous avons supposé que la qualité de l'apprentissage du modèle dépendait principalement du « rapport bruit-lot », qui compare la quantité de bruit aléatoire que nous ajoutons pour la confidentialité à la taille des groupes de données (lots) que nous utilisons pour l'entraînement. Cette hypothèse fonctionne car le bruit de confidentialité que nous ajoutons est beaucoup plus important que tout hasard naturel provenant de l'échantillonnage des données.Afin d'établir une loi d'échelle DP, nous avons mené une série d'expériences complètes pour évaluer les performances pour différentes tailles de modèles et différents ratios bruit-lot. Les données empiriques obtenues, associées aux relations déterministes connues entre d'autres variables, nous permettent de répondre à diverses questions intéressantes de type « loi d'échelle », telles que « Pour un budget de calcul, un budget de confidentialité et un budget de données donnés, quelle est la configuration d'entraînement optimale pour obtenir la perte d'entraînement la plus faible possible ? »Avant de se plonger dans les lois d'échelle complètes, il est utile de comprendre la dynamique et les synergies entre le budget de calcul, le budget de confidentialité et le budget de données du point de vue de la comptabilité de la confidentialité, c'est-à-dire de comprendre comment ces facteurs influencent le rapport bruit/lot pour une taille de modèle et un nombre d'itérations fixes. Cette analyse est nettement moins coûteuse à réaliser, car elle ne nécessite aucun apprentissage du modèle, mais elle fournit néanmoins un certain nombre d'informations utiles. Par exemple, augmenter le budget de confidentialité de manière isolée entraîne une diminution des rendements, à moins qu'elle ne s'accompagne d'une augmentation correspondante du budget de calcul (FLOP) ou du budget de données (jetons).Pour explorer davantage cette synergie, la visualisation ci-dessous montre comment la configuration d'entraînement optimale change en fonction de différentes contraintes. À mesure que les budgets de confidentialité et de calcul changent, remarquez comment la recommandation oscille entre investir dans un modèle plus grand et s'entraîner avec des tailles de lots plus importantes ou davantage d'itérations.Ces données fournissent une mine d'informations utiles aux praticiens. Bien que toutes ces informations soient présentées dans l'article, l'une des conclusions clés est qu'il convient de former un modèle beaucoup plus petit avec une taille de lot beaucoup plus grande que celle qui serait utilisée sans DP. Cette observation générale ne devrait pas surprendre les experts en DP, compte tenu de l'importance des grandes tailles de lots. Bien que cette observation générale s'applique à de nombreux paramètres, les configurations d'entraînement optimales varient en fonction des budgets de confidentialité et de données. Il est essentiel de comprendre le compromis exact afin de garantir que les budgets de calcul et de confidentialité sont utilisés à bon escient dans des scénarios d'entraînement réels. Les visualisations ci-dessus révèlent également qu'il existe souvent une marge de manuvre dans les configurations d'entraînement, c'est-à-dire qu'une gamme de tailles de modèles peut offrir une utilité très similaire si elle est associée au nombre correct d'itérations et/ou à la taille de lot appropriée.Les modèles Gemma sont conçus dans un souci de responsabilité et de sécurité. Ils constituent donc une base naturelle pour développer un modèle de qualité production, entraîné par DP, tel que VaultGemma.Les lois d'échelle que nous avons dérivées ci-dessus représentent une première étape importante vers la formation d'un modèle Gemma utile avec DP. Nous avons utilisé les lois d'échelle pour déterminer à la fois la puissance de calcul nécessaire pour former un modèle basé sur Gemma 2 avec 1 milliard de paramètres et une puissance de calcul optimale avec DP, et comment répartir cette puissance de calcul entre la taille des lots, les itérations et la longueur des séquences afin d'obtenir la meilleure utilité possible.Une différence notable entre la recherche à la base des lois d'échelle et la formation réelle de VaultGemma était notre traitement de l'échantillonnage de Poisson, qui est un élément central du DP-SGD. Nous avons d'abord utilisé une méthode simple consistant à charger les données par lots uniformes, mais nous sommes ensuite passés à l'échantillonnage de Poisson afin d'obtenir les meilleures garanties de confidentialité avec le moins de bruit possible. Cette méthode posait deux défis principaux : elle créait des lots de tailles différentes et nécessitait un ordre aléatoire spécifique pour le traitement des données. Nous avons résolu ce problème en utilisant nos travaux récents sur le DP-SGD évolutif, qui nous permettent de traiter les données par lots de taille fixe, soit en ajoutant un remplissage supplémentaire, soit en les réduisant, tout en conservant une protection élevée de la confidentialité.Grâce à nos nouvelles lois d'échelle et à nos algorithmes d'entraînement avancés, nous avons créé VaultGemma, à ce jour le plus grand modèle ouvert (1 milliard de paramètres) entièrement pré-entraîné avec la confidentialité différentielle, avec une approche qui permet d'obtenir des modèles très utiles.L'entraînement de VaultGemma nous a permis de constater que nos lois d'échelle étaient très précises. La perte d'entraînement finale de VaultGemma était remarquablement proche de ce que nos équations avaient prédit, validant ainsi nos recherches et fournissant à la communauté une feuille de route fiable pour le développement futur de modèles privés.Nous comparons également les performances en aval de notre modèle à celles de son homologue non privé à l'aide d'une série de benchmarks académiques standard (HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C, ARC-E). Afin de mettre ces performances en perspective et de quantifier l'investissement actuel en ressources nécessaire pour garantir la confidentialité, nous incluons également une comparaison avec un ancien modèle GPT-2 de taille similaire, qui affiche des performances similaires sur ces benchmarks. Cette comparaison montre que les méthodes d'entraînement confidentielles actuelles produisent des modèles dont l'utilité est comparable à celle des modèles non confidentiels d'il y a environ 5 ans, soulignant ainsi l'écart important que nos travaux aideront la communauté à combler de manière systématique.Enfin, le modèle est doté de solides protections théoriques et empiriques en matière de confidentialité.En général, les paramètres de confidentialité (ε, δet l'unité de confidentialité sont des éléments importants à prendre en compte lors de la formation DP, car ils déterminent ensemble ce que le modèle formé peut apprendre. VaultGemma a été formé avec une garantie DP au niveau de la séquence de (ε ≤ 2,0, δ ≤ 1,1e-10), où une séquence se compose de 1024 tokens consécutifs extraits de sources de données hétérogènes. Plus précisément, nous avons utilisé le même mélange d'entraînement que celui utilisé pour entraîner le modèle Gemma 2, composé d'un certain nombre de documents de longueurs variables. Lors du prétraitement, les documents longs sont divisés et tokenisés en plusieurs séquences, tandis que les documents plus courts sont regroupés en une seule séquence. Si l'unité de confidentialité au niveau de la séquence était un choix naturel pour notre mélange d'entraînement, dans les situations où il existe un mappage clair entre les données et les utilisateurs, la confidentialité différentielle au niveau de l'utilisateur serait un meilleur choix.Qu'est-ce que cela signifie concrètement ? En termes simples, comme nous assurons une protection au niveau de la séquence, si des informations relatives à un fait ou à une inférence (potentiellement privé) apparaissent dans une seule séquence, VaultGemma n'a alors essentiellement pas connaissance de ce fait : la réponse à toute requête sera statistiquement similaire au résultat d'un modèle qui n'a jamais été formé sur la séquence en question. Toutefois, si de nombreuses séquences d'entraînement contiennent des informations pertinentes pour un fait particulier, VaultGemma sera généralement en mesure de fournir ces informations.La DP au niveau de la séquence limite de manière vérifiable l'influence de toute séquence d'entraînement unique (exemple) sur le modèle final. Nous avons soumis au modèle un préfixe de 50 tokens provenant d'un document d'entraînement afin de voir s'il générerait le suffixe correspondant de 50 jetons. VaultGemma 1B ne montre aucune mémorisation détectable de ses données d'entraînement et démontre avec succès l'efficacité de l'entraînement DP.