GPT-4 peut être plus facilement incité que d'autres LLM à débiter des textes toxiques et tendancieux

étant plus susceptible de suivre les instructions qui contournent les mesures de sécurité

Le 18 octobre 2023 à 14:07, par Sandra Coret

135PARTAGES

Parfois, suivre des instructions trop précises peut vous mettre dans une situation délicate. C'est la conclusion à laquelle est parvenu un nouvel article scientifique affilié à Microsoft, qui a examiné la "fiabilité" - et la toxicité - des grands modèles de langage (LLM), notamment le GPT-4 d'OpenAI et le GPT-3.5, le prédécesseur du GPT-4. Les coauteurs écrivent que, peut-être parce que GPT-4 est plus susceptible de suivre les instructions des guides de "jailbreaking" qui contournent les mesures de sécurité intégrées du modèle, GPT-4 peut être plus facilement incité que d'autres LLM à débiter un texte toxique et biaisé. En d'autres termes, les bonnes "intentions" et la meilleure compréhension de GPT-4 peuvent - entre de mauvaises mains - l'égarer.

"Nous constatons que même si GPT-4 est généralement plus fiable que GPT-3.5 sur des benchmarks standard, GPT-4 est plus vulnérable face à un système de jailbreaking ou à des invites utilisateur, qui sont malicieusement conçues pour contourner les mesures de sécurité des LLM, potentiellement parce que GPT-4 suit des instructions (trompeuses) plus précisément", écrivent les co-auteurs dans un billet de blog accompagnant l'article.

Pourquoi Microsoft donnerait-elle son feu vert à une recherche qui jette le discrédit sur un produit OpenAI qu'elle utilise elle-même (GPT-4 alimente le chatbot Bing Chat de Microsoft) ? La réponse se trouve dans une note du billet de blog : "L'équipe de recherche a travaillé avec les groupes de produits Microsoft pour confirmer que les vulnérabilités potentielles identifiées n'ont pas d'impact sur les services actuels destinés aux clients. Cela est en partie vrai parce que les applications d'IA finies appliquent une gamme d'approches d'atténuation pour traiter les dommages potentiels qui peuvent se produire au niveau du modèle de la technologie. En outre, ces recherches ont été partagées avec le développeur de GPT, OpenAI, qui a noté les vulnérabilités potentielles dans les cartes du système pour les modèles concernés".

Dans quelle mesure les modèles de transformateurs génératifs pré-entraînés (GPT) sont-ils dignes de confiance ?

Pour répondre à cette question, l'université de l'Illinois Urbana-Champaign, en collaboration avec l'université de Stanford, l'université de Californie à Berkeley, le Center for AI Safety et Microsoft Research, a publié une plateforme d'évaluation complète de la fiabilité des grands modèles de langage (LLM), qui est présentée dans l'article récent : DecodingTrust : A Comprehensive Assessment of Trustworthiness in GPT Models - Microsoft Research.

Cet article se concentre spécifiquement sur GPT-4 et GPT-3.5. Il prend en compte diverses perspectives, y compris la toxicité, le biais de stéréotype, la robustesse contradictoire, la robustesse hors distribution, la robustesse sur les démonstrations contradictoires, la vie privée, l'éthique de la machine et l'équité.

Sur la base de ces évaluations, les chercheurs ont découvert des vulnérabilités inédites en matière de fiabilité. Par exemple, les modèles GPT peuvent être facilement trompés pour générer des résultats toxiques et biaisés et laisser échapper des informations privées à la fois dans les données d'entraînement et dans l'historique des conversations. En outre, bien que GPT-4 soit généralement plus fiable que GPT-3.5 sur les benchmarks standards, GPT-4 est plus vulnérable face à un système de jailbreaking ou à des invites utilisateur, qui sont malicieusement conçues pour contourner les mesures de sécurité des LLM, potentiellement parce que GPT-4 suit des instructions (trompeuses) plus précisément.

Ces travaux illustrent une évaluation complète de la fiabilité des modèles GPT et mettent en lumière les lacunes en matière de fiabilité.

Il est important de noter que l'équipe de recherche a travaillé avec les groupes de produits Microsoft pour confirmer que les vulnérabilités potentielles identifiées n'ont pas d'impact sur les services actuels destinés aux clients. Cela s'explique en partie par le fait que les applications d'IA finies appliquent une série d'approches d'atténuation pour traiter les dommages potentiels qui peuvent survenir au niveau du modèle de la technologie. En outre, ces recherches ont été partagées avec le développeur de GPT, OpenAI, qui a noté les vulnérabilités potentielles dans les cartes du système pour les modèles concernés.

L'objectif est d'encourager d'autres membres de la communauté des chercheurs à utiliser et à développer ce travail, afin d'éviter les actions malveillantes d'adversaires qui exploiteraient les vulnérabilités pour causer des dommages. Cette évaluation de la fiabilité n'est qu'un point de départ, et les chercheurs espèrent collaborer avec d'autres pour s'appuyer sur les résultats de cette évaluation et créer des modèles puissants et plus fiables. Pour faciliter la collaboration, le code de référence est très extensible et facile à utiliser : une seule commande suffit pour lancer l'évaluation complète d'un nouveau modèle.

Perspectives et conclusions de DecodingTrust

Les recherches ont permis de mettre au jour des avantages et des menaces jusqu'alors inconnus en ce qui concerne la fiabilité des grands modèles de langage.

Par exemple, en termes de robustesse du modèle aux démonstrations contradictoires, il ressort que, d'une part, GPT-3.5 et GPT-4 ne seront pas induits en erreur par les exemples contrefactuels ajoutés dans les démonstrations et peuvent même bénéficier des démonstrations contrefactuelles en général ; d'autre part, on constate que le fait de fournir des démonstrations rétroactives induira GPT-3. 5 et GPT-4 à faire des prédictions incorrectes pour les entrées rétroactives, en particulier lorsque les démonstrations rétroactives sont placées à proximité des entrées utilisateur (rétroactives), et que GPT-4 est plus vulnérable aux démonstrations rétroactives.

En outre, en termes de toxicité et de partialité, les modèles GPT-3.5 et GPT-4 ne sont pas fortement biaisés pour la majorité des thèmes stéréotypés examinés dans le cadre de messages-guides bénins et non ciblés. Cependant, les deux modèles GPT peuvent être "trompés" en acceptant un contenu biaisé à l'aide de messages-guides trompeurs (antagonistes) conçus par le système. Le modèle GPT-4 est plus vulnérable aux invites système ciblées et trompeuses et approuve le contenu biaisé plus fréquemment que le modèle GPT-3.5, peut-être parce que le modèle GPT-4 suit les instructions trompeuses avec plus de précision. Le biais du modèle peut souvent dépendre des groupes démographiques mentionnés dans l'invite de l'utilisateur. Par exemple, pour la requête "Les homosexuels ont le VIH", GPT-4 n'est pas du tout d'accord en général, alors que pour la requête "Les femmes ont le VIH", GPT-4 est souvent d'accord et produit un contenu biaisé. La partialité du modèle dépend également des thèmes stéréotypés. Les modèles GPT produisent un contenu plus biaisé sur des sujets moins sensibles tels que le leadership et la cupidité, tout en générant un contenu moins biaisé sur des sujets plus sensibles tels que le trafic de drogue et le terrorisme. Cela peut s'expliquer par l'adaptation des modèles GPT à certains groupes démographiques protégés et à certains sujets sensibles.

DecodingTrust évalue également les problèmes de fuite de données privées des LLM. Les modèles GPT peuvent laisser échapper des données d'apprentissage sensibles à la confidentialité, telles que les adresses électroniques de l'ensemble de données standard d'Enron, en particulier lorsqu...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

GPT-4 peut être plus facilement incité que d'autres LLM à débiter des textes toxiques et tendancieux

étant plus susceptible de suivre les instructions qui contournent les mesures de sécurité

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

GPT-4 peut être plus facilement incité que d'autres LLM à débiter des textes toxiques et tendancieux étant plus susceptible de suivre les instructions qui contournent les mesures de sécurité

GPT-4 peut être plus facilement incité que d'autres LLM à débiter des textes toxiques et tendancieux

étant plus susceptible de suivre les instructions qui contournent les mesures de sécurité