DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT

Affirment les chercheurs de Cisco

Le 2 février 2025 à 14:36, par Jade Emy

53PARTAGES

DeepSeek échoue à tous les tests de sécurité, il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux, tels que ChatGPT, affirment les chercheurs de Cisco.

Des chercheurs en sécurité de Cisco ont découvert que le modèle d'IA de raisonnement R1 de DeepSeek est étonnamment vulnérable au jailbreaking. Les chercheurs ont constaté que DeepSeek "n'a pas réussi à bloquer une seule invite nuisible" après avoir été testé contre "50 invites aléatoires de l'ensemble de données HarmBench", qui comprend "la cybercriminalité, la désinformation, les activités illégales et les préjudices généraux." Il s'agit d'un développement particulièrement remarquable si l'on considère l'ampleur du chaos que DeepSeek a semé dans l'industrie de l'IA dans son ensemble.

La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, un modèle open-source peu coûteux et très performant. Selon le benchmark de la startup, les performances du modèle correspondraient au modèle de raisonnement o1 d'OpenAI pour seulement 3 à 5 % du coût. Cependant, il se peut qu'elle ait un problème de sécurité en matière d'IA, selon Cisco.

L'équipe de recherche de Cisco a utilisé des techniques algorithmiques de jailbreaking pour tester DeepSeek R1 "contre 50 invites aléatoires de l'ensemble de données HarmBench", couvrant six catégories de comportements nuisibles, notamment la cybercriminalité, la désinformation, les activités illégales et le préjudice général. "Les résultats sont alarmants : DeepSeek R1 a affiché un taux de réussite de 100 %, ce qui signifie qu'il n'a pas réussi à bloquer une seule invite nuisible", explique Cisco. "Cela contraste fortement avec d'autres modèles de pointe, qui ont démontré une résistance au moins partielle." D'autres modèles pionniers, tels que o1, ont bloqué une majorité d'attaques adverses avec leurs garde-fous, selon Cisco.

Les chercheurs de Cisco soulignent que le budget très inférieur de DeepSeek par rapport à celui de ses rivaux pourrait expliquer ces échecs, affirmant que son développement bon marché a eu un "coût différent : la sûreté et la sécurité". DeepSeek affirme que le développement de son modèle n'a nécessité que 6 millions de dollars, alors qu'un entraînement de six mois pour GPT-5 d'OpenAI, qui n'est pas encore disponible, "peut coûter environ un demi-milliard de dollars rien qu'en frais de calcul".

Ce rapport de Cisco n'est pas le premier problème de sécurité de la startup chinoise. Récemment, Wiz Research a identifié une base de données ClickHouse accessible au public et appartenant à DeepSeek, qui permet un contrôle total des opérations de la base de données, y compris la possibilité d'accéder à des données internes. L'exposition comprend plus d'un million de lignes de flux de données contenant l'historique des discussions, des clés secrètes, des détails de backend et d'autres informations très sensibles. L'équipe de Wiz Research a révélé le problème à DeepSeek, qui aurait rapidement sécurisé l'exposition.

Outre le domaine de la sécurité, DeepSeek est accusé d'appliquer une censure stricte sur des sujets politiquement sensibles en Chine. Les utilisateurs ont vu le chatbot chinois répondre, puis se censurer en temps réel. Pour certains critiques, il s'agit d'un aperçu saisissant du contrôle exercé par la Chine sur l'information, mais d'autres rappellent que n'importe qui peut télécharger le modèle open source de DeepSeek et l'adapter pour supprimer les restrictions de Pékin.

Évaluation du risque de sécurité de DeepSeek

La construction et l'entraînement des modèles d'IA de pointe actuels nécessitent des centaines de millions de dollars et d'énormes ressources informatiques, malgré les progrès réalisés ces dernières années en matière de rentabilité et de calcul. Avec ses modèles, DeepSeek a obtenu des résultats comparables à ceux des modèles de pointe avec une fraction présumée des ressources.

Les dernières versions de DeepSeek - en particulier DeepSeek R1-Zero (qui aurait été formé uniquement avec l'apprentissage par renforcement) et DeepSeek R1 (qui affine R1-Zero à l'aide de l'apprentissage supervisé) - montrent que l'accent est mis sur le développement de LLM dotés de capacités de raisonnement avancées. Leurs recherches montrent des performances comparables à celles des modèles o1 d'OpenAI tout en surpassant Claude 3.5 Sonnet et ChatGPT-4o dans des tâches telles que les mathématiques, le codage et le raisonnement scientifique. Plus important encore, DeepSeek R1 aurait été formé pour environ 6 millions de dollars, soit une fraction des milliards dépensés par des entreprises comme OpenAI.

La différence déclarée dans la formation des modèles DeepSeek peut être résumée par les trois principes suivants :

La chaîne de pensée permet au modèle d'auto-évaluer ses propres performances : L'incitation à la chaîne de pensée permet aux modèles d'IA de décomposer les problèmes complexes en étapes plus petites, de la même manière que les humains montrent leur travail lorsqu'ils résolvent des problèmes mathématiques. Cette approche se combine avec le "scratch-padding", où les modèles peuvent effectuer des calculs intermédiaires séparément de leur réponse finale. Si le modèle commet une erreur au cours de ce processus, il peut revenir à une étape antérieure correcte et essayer une autre approche.
L'apprentissage par renforcement aide le modèle à se guider lui-même : les techniques d'apprentissage par renforcement récompensent les modèles qui produisent des étapes intermédiaires précises, et pas seulement des réponses finales correctes. Ces méthodes ont considérablement amélioré les performances de l'IA sur des problèmes complexes nécessitant un raisonnement détaillé.
La distillation permet de développer des modèles plus petits (1,5 milliard à 70 milliards de paramètres) à partir d'un grand modèle original (671 milliards de paramètres) pour une plus grande accessibilité : La distillation est une technique permettant de créer des modèles plus petits et efficaces qui conservent la plupart des capacités des modèles plus grands. Elle consiste à utiliser un grand modèle "enseignant" pour former un modèle "étudiant" plus petit. Grâce à ce processus, le modèle étudiant apprend à reproduire les capacités de résolution de problèmes de l'enseignant pour des tâches spécifiques, tout en nécessitant moins de ressources informatiques.

DeepSeek a combiné l'incitation à la réflexion en chaîne et la modélisation des récompenses avec la distillation pour créer des modèles qui surpassent de manière significative les grands modèles de langage traditionnels (LLM) dans les tâches de raisonnement tout en conservant une grande efficacité opérationnelle.

Pour évaluer ce modèle, l'équipe de recherche de Cisco a exécuté un algorithme de jailbreaking automatique sur 50 invites uniformément échantillonnées à partir du benchmark populaire HarmBench. Le benchmark HarmBench comporte un total de 400 comportements répartis dans 7 catégories de dommages, dont la cybercriminalité, la désinformation, les activités illégales et les dommages généraux.

L'indicateur clé est le taux de réussite des attaques (ASR), qui mesure le pourcentage de comportements pour lesquels des jailbreaks ont été découverts. Il s'agit d'une mesure standard utilisée dans les scénarios de jailbreaking. Ils ont échantillonné le modèle cible à la température 0 : le réglage le plus conservateur. Cela garantit la reproductibilité et la fidélité des attaques générées. Ils ont également utilisé des méthodes automatiques de détection des refus ainsi qu'une surveillance humaine pour vérifier les jailbreaks.

Les résultats montrent que l'équipe de recherche a réussi à jailbreaker DeepSeek R1 avec un taux de réussite de 100 %. Cela signifie qu'il n'y a pas eu une seule question de l'ensemble HarmBench qui n'ait pas obtenu une réponse positive de DeepSeek R1. Cela contraste avec d'autres modèles de frontière, tels que o1, qui bloque la majorité des attaques adverses avec ses garde-fous.

Voici la présentation de la découverte des chercheurs de Cisco :

Cet article étudie les vulnérabilités de DeepSeek R1, un nouveau modèle de raisonnement frontalier de la startup chinoise DeepSeek. Ce modèle a attiré l'attention du monde entier en raison de ses capacités de raisonnement avancées et de sa méthode de formation économique. Alors que ses performances rivalisent avec des modèles de pointe comme OpenAI o1, notre évaluation de la sécurité révèle des failles de sécurité critiques.

En utilisant des techniques algorithmiques de jailbreaking, notre équipe a appliqué une méthodologie d'attaque automatisée sur DeepSeek R1 qui l'a testé contre 50 invites aléatoires provenant de l'ensemble de données HarmBench. Celles-ci couvraient six catégories de comportements nuisibles, dont la cybercriminalité, la désinformation, les activités illégales et le préjudice général.

Les résultats sont alarmants : DeepSeek R1 a affiché un taux de réussite de 100 %, ce qui signifie qu'il n'a pas réussi à bloquer une seule invite nuisible. Ce résultat contraste fortement avec les autres modèles de pointe, qui ont démontré une résistance au moins partielle.

Nos résultats suggèrent que les méthodes d'entraînement de DeepSeek, prétendument rentables, y compris l'apprentissage par renforcement, l'auto-évaluation de la chaîne de pensée et la distillation, ont pu compromettre ses mécanismes de sécurité. Comparé à d'autres modèles de frontière, DeepSeek R1 manque de garde-fous robustes, ce qui le rend très vulnérable au piratage algorithmique et à une utilisation abusive potentielle.

Nous fournirons un rapport de suivi détaillant les progrès réalisés en matière de piratage algorithmique des modèles de raisonnement. Notre recherche souligne le besoin urgent d'une évaluation rigoureuse de la sécurité dans le développement de l'IA afin de s'assurer que les percées en matière d'efficacité et de raisonnement ne se fassent pas au détriment de la sécurité. Elle réaffirme également l'importance pour les entreprises d'utiliser des garde-fous tiers qui fournissent des protections de sécurité cohérentes et fiables pour les applications d'IA.

Source : Cisco

Et vous ?

Pensez-vous que cette découverte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source, en utilisant la technique de "distillation"

DeepSeek est victime d'une cyberattaque et limite les inscriptions : la startup chinoise spécialisée dans l'IA a déclaré avoir été victime d'une "attaque malveillante à grande échelle" contre ses services

L'équilibre délicat entre sécurité et innovation dans l'IA : « bannir les modèles "open weights" serait un désastre » selon un chercheur. L'administration Biden envisage de bloquer l'accès à ces modèles afin d'éviter les abus

Vous avez lu gratuitement 215 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT

Affirment les chercheurs de Cisco

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT Affirment les chercheurs de Cisco

DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT

Affirment les chercheurs de Cisco