Pourquoi ChatGPT est-il si vulnérable ?

Conclusions

ChatGPT est nettement plus vulnérable aux attaques par extraction de données que les résultats antérieurs sur les modèles linguistiques de base. Pourquoi en est-il ainsi ? Nous spéculons ici sur quelques raisons potentielles et invitons les travaux futurs à approfondir la question.ChatGPT exécute l'inférence à grande vitesse et est servi à une échelle extrême. Pour soutenir ce cas d'utilisation, une tendance émergente consiste à "sur-entraîner" les modèles sur beaucoup plus de données que ce qui serait "optimal pour le calcul de l'entraînement". Cela permet de maximiser l'utilité à un coût d'inférence fixe. Par exemple, le modèle LLaMA-2 à 7 milliards de paramètres entraîné pour 2 milliards de jetons est plus performant que le modèle à 13 milliards de paramètres entraîné pour seulement 1 milliard de jetons. Étant donné que la quantité de données de haute qualité sur le web est limitée, l'entraînement sur une telle quantité de jetons nécessite d'effectuer de nombreux epochs sur les mêmes données. Par conséquent, nous supposons que ChatGPT peut avoir été pré-entraîné pour de nombreux epochs. Des travaux antérieurs ont montré que cela pouvait augmenter considérablement la mémorisation. Nous évaluons notre attaque sur des modèles entraînés pour plusieurs epochs dans la Figure 11, en utilisant des modèles entraînés sur des sous-ensembles de C4, et nous constatons à nouveau que l'entraînement à plusieurs epochs entraîne une plus grande extractibilité. Si nous avons raison de dire que ChatGPT est entraîné sur plusieurs epochs, cela met en évidence un inconvénient majeur du sur-entraînement : il induit un compromis entre la confidentialité et l'efficacité de l'inférence.Notre attaque ne fait diverger le modèle que lorsqu'il est sollicité avec des mots à un seul jeton. Bien que nous n'ayons pas d'explication à ce sujet, l'effet est significatif et facilement reproductible. La figure 12 montre la probabilité que le modèle gpt-3.5-turboinstruct8 continue à répéter le jeton souhaité après l'avoir émis un nombre variable de fois. Après avoir répété un jeton 250 fois, la probabilité de répéter le jeton à nouveau chute rapidement de 90 % à moins de 0,1 %. En revanche, si l'on demande à un individu de répéter des mots de deux ou trois voyelles, la probabilité qu'il les répète reste supérieure à 99 %, même après plusieurs milliers de répétitions.Au cours du pré-entraînement, les modèles linguistiques modernes sont entraînés par "empaquetage" : plusieurs documents sont concaténés ensemble pour former un seul exemple d'entraînement, avec un jeton spécial tel que <| endoftext |> utilisé pour délimiter la frontière du document. Le LM apprend ainsi à se "réinitialiser" lorsqu'il voit l'élément <| endoftext |> et à ignorer tous les éléments antérieurs lorsqu'il calcule l'élément suivant prédit. Par ailleurs, si nous pouvions insérer ce jeton directement dans le modèle, ce dernier pourrait ignorer son invite et commencer à générer comme s'il s'agissait du début d'un nouveau document. Heureusement, OpenAI empêche l'insertion de ce jeton dans l'API.Nous pensons que notre attaque fonctionne parce qu'elle crée un effet similaire au jeton <| endoftext |>. Pour démontrer le potentiel de cet effet, nous étudions LLaMA 7B, un modèle qui diverge également après avoir répété un seul jeton plusieurs fois. (Nous demandons à LLaMA 7B de répéter un seul mot plusieurs fois et mesurons la similarité en cosinus entre la "requête d'attention" de la dernière couche de chaque mot de la demande et le mot de début de séquence (BOS), l'analogue de LLaMA du mot <| endoftext |> de l'OpenAI. La figure 13 montre ce résultat. Nous voyons que lors de la répétition d'un seul jeton plusieurs fois, la requête d'attention de la dernière couche pour ces jetons se rapproche rapidement du vecteur de requête d'attention du jeton BOS. Comme les représentations cachées sont projetées linéairement dans le vocabulaire, cela signifie que les positions de ces jetons prédisent une distribution des jetons suivants similaire à celle du jeton BOS initial, ce qui peut entraîner le comportement de "réinitialisation" que nous observons. En guise de référence, nous montrons également que l'échantillonnage naturel du modèle avec une invite aléatoire ne provoque pas cet effet.En résumé, notre article suggère que des données d'entraînement peuvent être facilement extraites des meilleurs modèles linguistiques de ces dernières années grâce à des techniques simples. Nous terminons par trois leçons :Il est nécessaire de poursuivre les recherches sur la déduplication des données de formation. Bien que la série de modèles Pythia ait été entraînée avec des techniques de déduplication des données, la quantité totale de mémorisation extractible ne diminue que légèrement. Nous pensons que cela est dû au fait que la déduplication à gros grain n'a pas suffi à atténuer suffisamment la mémorisation. Et même si la déduplication des données diminue (légèrement) le taux total de mémorisation, il semble que la déduplication des données ait en fait augmenté le taux d'émission des données d'entraînement. Comprendre les causes de ces observations est une piste de travail intéressante pour l'avenir.Nos résultats peuvent également présenter un intérêt indépendant pour les chercheurs qui ne sont pas motivés par la protection de la vie privée. Pour que GPT-Neo 6B puisse émettre près d'un gigaoctet de données d'entraînement, ces informations doivent être stockées quelque part dans les poids du modèle. Et comme ce modèle peut être compressé en quelques Go sur le disque sans perte d'utilité, cela signifie qu'environ 10 % de la capacité totale du modèle est "gaspillée" dans des données d'apprentissage mémorisées mot pour mot. Les modèles seraient-ils plus ou moins performants si ces données n'étaient pas mémorisées ?Nos résultats suggèrent que si tous les exemples mémorisés ne peuvent pas être extraits, une fraction étonnamment élevée d'entre eux peut l'être moyennant un effort suffisant. Cela renforce l'argument en faveur de l'étude de la mémorisation indépendamment de toute attaque pratique - étant donné qu'il est beaucoup plus facile de mesurer la mémorisation découvrable que la mémorisation extractible, nous pensons qu'il s'agira d'une approche précieuse pour tester la mémorisation.Bien que nous ne puissions pas être certains des tests que gpt-3.5-turbo a subis avant son lancement (il n'existe aucune publication décrivant sa création), la description publique de GPT 4 et Copilot d'OpenAI contient des sections consacrées à l'analyse de la vie privée - et nous soupçonnons donc que gpt-3.5-turbo a également fait l'objet d'une analyse de la vie privée.Mais tout comme les vulnérabilités peuvent rester dormantes dans le code - parfois pendant des décennies - notre attaque démontre le potentiel des vulnérabilités ML latentes, difficiles à découvrir, qui restent dormantes dans les modèles alignés. Comme nous l'avons montré, les tests de mémorisation standard ne révèlent pas le fait que ChatGPT n'est pas privé, mais il s'agit en fait du modèle le moins privé que nous ayons étudié. Et, bien que nous ayons pris des mesures pour explorer l'espace des attaques possibles, il se peut qu'il existe des stratégies d'incitation encore plus puissantes qui n'ont pas encore été découvertes et qui permettent, par exemple, la reconstruction ciblée d'exemples d'entraînement.Ce n'est pas la première fois que nous constatons que des modèles alignés ne parviennent pas à assurer la sécurité ou la confidentialité lorsqu'ils sont soumis à des sollicitations adverses. Des travaux récents ont démontré que l'incitation adverse de modèles alignés peut rompre leur alignement afin d'émettre des résultats nuisibles. L'utilisation de l'alignement pour atténuer les vulnérabilités est clairement une voie prometteuse dans le cas général, mais il devient clair qu'elle est insuffisante pour résoudre entièrement les risques de sécurité, de confidentialité et d'utilisation abusive dans le pire des cas. Nous espérons que nos résultats serviront de mise en garde pour ceux qui forment et déploient de futurs modèles sur n'importe quel ensemble de données - qu'elles soient privées, propriétaires ou publiques - et nous espérons que les travaux futurs permettront d'améliorer la frontière du déploiement de modèles responsables.