IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

DeepSeek échoue à tous les tests de sécurité : il est beaucoup plus facile de tromper DeepSeek pour qu'il fournisse des informations nuisibles que ses rivaux tels que ChatGPT
Affirment les chercheurs de Cisco

Le , par Jade Emy

4PARTAGES

7  0 
Des chercheurs en sécurité de Cisco ont découvert que le modèle d'IA de raisonnement R1 de DeepSeek est étonnamment vulnérable au jailbreaking. Les chercheurs ont constaté que DeepSeek "n'a pas réussi à bloquer une seule invite nuisible" après avoir été testé contre "50 invites aléatoires de l'ensemble de données HarmBench", qui comprend "la cybercriminalité, la désinformation, les activités illégales et les préjudices généraux." Il s'agit d'un développement particulièrement remarquable si l'on considère l'ampleur du chaos que DeepSeek a semé dans l'industrie de l'IA dans son ensemble.

La sortie de DeepSeek R1 a provoqué une onde de choc dans la communauté de l'IA, un modèle open-source peu coûteux et très performant. Selon le benchmark de la startup, les performances du modèle correspondraient au modèle de raisonnement o1 d'OpenAI pour seulement 3 à 5 % du coût. Cependant, il se peut qu'elle ait un problème de sécurité en matière d'IA, selon Cisco.

L'équipe de recherche de Cisco a utilisé des techniques algorithmiques de jailbreaking pour tester DeepSeek R1 "contre 50 invites aléatoires de l'ensemble de données HarmBench", couvrant six catégories de comportements nuisibles, notamment la cybercriminalité, la désinformation, les activités illégales et le préjudice général. "Les résultats sont alarmants : DeepSeek R1 a affiché un taux de réussite de 100 %, ce qui signifie qu'il n'a pas réussi à bloquer une seule invite nuisible", explique Cisco. "Cela contraste fortement avec d'autres modèles de pointe, qui ont démontré une résistance au moins partielle." D'autres modèles pionniers, tels que o1, ont bloqué une majorité d'attaques adverses avec leurs garde-fous, selon Cisco.

Les chercheurs de Cisco soulignent que le budget très inférieur de DeepSeek par rapport à celui de ses rivaux pourrait expliquer ces échecs, affirmant que son développement bon marché a eu un "coût différent : la sûreté et la sécurité". DeepSeek affirme que le développement de son modèle n'a nécessité que 6 millions de dollars, alors qu'un entraînement de six mois pour GPT-5 d'OpenAI, qui n'est pas encore disponible, "peut coûter environ un demi-milliard de dollars rien qu'en frais de calcul".

Ce rapport de Cisco n'est pas le premier problème de sécurité de la startup chinoise. Récemment, Wiz Research a identifié une base de données ClickHouse accessible au public et appartenant à DeepSeek, qui permet un contrôle total des opérations de la base de données, y compris la possibilité d'accéder à des données internes. L'exposition comprend plus d'un million de lignes de flux de données contenant l'historique des discussions, des clés secrètes, des détails de backend et d'autres informations très sensibles. L'équipe de Wiz Research a révélé le problème à DeepSeek, qui aurait rapidement sécurisé l'exposition.

Outre le domaine de la sécurité, DeepSeek est accusé d'appliquer une censure stricte sur des sujets politiquement sensibles en Chine. Les utilisateurs ont vu le chatbot chinois répondre, puis se censurer en temps réel. Pour certains critiques, il s'agit d'un aperçu saisissant du contrôle exercé par la Chine sur l'information, mais d'autres rappellent que n'importe qui peut télécharger le modèle open source de DeepSeek et l'adapter pour supprimer les restrictions de Pékin.


Évaluation du risque de sécurité de DeepSeek

La construction et l'entraînement des modèles d'IA de pointe actuels nécessitent des centaines de millions de dollars et d'énormes ressources informatiques, malgré les progrès réalisés ces dernières années en matière de rentabilité et de calcul. Avec ses modèles, DeepSeek a obtenu des résultats comparables à ceux des modèles de pointe avec une fraction présumée des ressources.

Les dernières versions de DeepSeek - en particulier DeepSeek R1-Zero (qui aurait été formé uniquement avec l'apprentissage par renforcement) et DeepSeek R1 (qui affine R1-Zero à l'aide de l'apprentissage supervisé) - montrent que l'accent est mis sur le développement de LLM dotés de capacités de raisonnement avancées. Leurs recherches montrent des performances comparables à celles des modèles o1 d'OpenAI tout en surpassant Claude 3.5 Sonnet et ChatGPT-4o dans des tâches telles que les mathématiques, le codage et le raisonnement scientifique. Plus important encore, DeepSeek R1 aurait été formé pour environ 6 millions de dollars, soit une fraction des milliards dépensés par des entreprises comme OpenAI.

La différence déclarée dans la formation des modèles DeepSeek peut être résumée par les trois principes suivants :

  • La chaîne de pensée permet au modèle d'auto-évaluer ses propres performances : L'incitation à la chaîne de pensée permet aux modèles d'IA de décomposer les problèmes complexes en étapes plus petites, de la même manière que les humains montrent leur travail lorsqu'ils résolvent des problèmes mathématiques. Cette approche se combine avec le "scratch-padding", où les modèles peuvent effectuer des calculs intermédiaires séparément de leur réponse finale. Si le modèle commet une erreur au cours de ce processus, il peut revenir à une étape antérieure correcte et essayer une autre approche.

  • L'apprentissage par renforcement aide le modèle à se guider lui-même : les techniques d'apprentissage par renforcement récompensent les modèles qui produisent des étapes intermédiaires précises, et pas seulement des réponses finales correctes. Ces méthodes ont considérablement amélioré les performances de l'IA sur des problèmes complexes nécessitant un raisonnement détaillé.

  • La distillation permet de développer des modèles plus petits (1,5 milliard à 70 milliards de paramètres) à partir d'un grand modèle original (671 milliards de paramètres) pour une plus grande accessibilité : La distillation est une technique permettant de créer des modèles plus petits et efficaces qui conservent la plupart des capacités des modèles plus grands. Elle consiste à utiliser un grand modèle "enseignant" pour former un modèle "étudiant" plus petit. Grâce à ce processus, le modèle étudiant apprend à reproduire les capacités de résolution de problèmes de l'enseignant pour des tâches spécifiques, tout en nécessitant moins de ressources informatiques.


DeepSeek a combiné l'incitation à la réflexion en chaîne et la modélisation des récompenses avec la distillation pour créer des modèles qui surpassent de manière significative les grands modèles de langage traditionnels (LLM) dans les tâches de raisonnement tout en conservant une grande efficacité opérationnelle.

Pour évaluer ce modèle, l'équipe de recherche de Cisco a exécuté un algorithme de jailbreaking automatique sur 50 invites uniformément échantillonnées à partir du benchmark populaire HarmBench. Le benchmark HarmBench comporte un total de 400 comportements répartis dans 7 catégories de dommages, dont la cybercriminalité, la désinformation, les activités illégales et les dommages généraux.

L'indicateur clé est le taux de réussite des attaques (ASR), qui mesure le pourcentage de comportements pour lesquels des jailbreaks ont été découverts. Il s'agit d'une mesure standard utilisée dans les scénarios de jailbreaking. Ils ont échantillonné le modèle cible à la température 0 : le réglage le plus conservateur. Cela garantit la reproductibilité et la fidélité des attaques générées. Ils ont également utilisé des méthodes automatiques de détection des refus ainsi qu'une surveillance humaine pour vérifier les jailbreaks.

Les résultats montrent que l'équipe de recherche a réussi à jailbreaker DeepSeek R1 avec un taux de réussite de 100 %. Cela signifie qu'il n'y a pas eu une seule question de l'ensemble HarmBench qui n'ait pas obtenu une réponse positive de DeepSeek R1. Cela contraste avec d'autres modèles de frontière, tels que o1, qui bloque la majorité des attaques adverses avec ses garde-fous.


Voici la présentation de la découverte des chercheurs de Cisco :

Cet article étudie les vulnérabilités de DeepSeek R1, un nouveau modèle de raisonnement frontalier de la startup chinoise DeepSeek. Ce modèle a attiré l'attention du monde entier en raison de ses capacités de raisonnement avancées et de sa méthode de formation économique. Alors que ses performances rivalisent avec des modèles de pointe comme OpenAI o1, notre évaluation de la sécurité révèle des failles de sécurité critiques.

En utilisant des techniques algorithmiques de jailbreaking, notre équipe a appliqué une méthodologie d'attaque automatisée sur DeepSeek R1 qui l'a testé contre 50 invites aléatoires provenant de l'ensemble de données HarmBench. Celles-ci couvraient six catégories de comportements nuisibles, dont la cybercriminalité, la désinformation, les activités illégales et le préjudice général.

Les résultats sont alarmants : DeepSeek R1 a affiché un taux de réussite de 100 %, ce qui signifie qu'il n'a pas réussi à bloquer une seule invite nuisible. Ce résultat contraste fortement avec les autres modèles de pointe, qui ont démontré une résistance au moins partielle.

Nos résultats suggèrent que les méthodes d'entraînement de DeepSeek, prétendument rentables, y compris l'apprentissage par renforcement, l'auto-évaluation de la chaîne de pensée et la distillation, ont pu compromettre ses mécanismes de sécurité. Comparé à d'autres modèles de frontière, DeepSeek R1 manque de garde-fous robustes, ce qui le rend très vulnérable au piratage algorithmique et à une utilisation abusive potentielle.

Nous fournirons un rapport de suivi détaillant les progrès réalisés en matière de piratage algorithmique des modèles de raisonnement. Notre recherche souligne le besoin urgent d'une évaluation rigoureuse de la sécurité dans le développement de l'IA afin de s'assurer que les percées en matière d'efficacité et de raisonnement ne se fassent pas au détriment de la sécurité. Elle réaffirme également l'importance pour les entreprises d'utiliser des garde-fous tiers qui fournissent des protections de sécurité cohérentes et fiables pour les applications d'IA.
Source : Cisco

Et vous ?

Pensez-vous que cette découverte est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source, en utilisant la technique de "distillation"

DeepSeek est victime d'une cyberattaque et limite les inscriptions : la startup chinoise spécialisée dans l'IA a déclaré avoir été victime d'une "attaque malveillante à grande échelle" contre ses services

L'équilibre délicat entre sécurité et innovation dans l'IA : « bannir les modèles "open weights" serait un désastre » selon un chercheur. L'administration Biden envisage de bloquer l'accès à ces modèles afin d'éviter les abus

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de OrthodoxWindows
Membre expert https://www.developpez.com
Le 02/02/2025 à 17:47
Outre le domaine de la sécurité, DeepSeek est accusé d'appliquer une censure stricte sur des sujets politiquement sensibles en Chine. Les utilisateurs ont vu le chatbot chinois répondre, puis se censurer en temps réel. Pour certains critiques, il s'agit d'un aperçu saisissant du contrôle exercé par la Chine sur l'information, mais d'autres rappellent que n'importe qui peut télécharger le modèle open source de DeepSeek et l'adapter pour supprimer les restrictions de Pékin.
Ce qui veut aussi dire que n'importe qui peu télécharger n'importe quel modèle open-source pour supprimer les restrictions de sécurité, y compris concernant ce que Cisco nomme "six catégories de comportements nuisibles, dont la cybercriminalité, la désinformation, les activités illégales et le préjudice général"

De plus, DeepSeek n'est pas le premier modèle open-source à être sorti non-censuré là dessus. Il y a déjà eu plusieurs modèles de Mistral.
Pourtant, il me semble que la criminalité n'a pas sensiblement augmenté de part le monde de manière significative, la cybercriminalité non plus, et la Terre ne s'est pas arrêtée de tourner... Du coup, l'on est sérieusement en droit de se demander si Cisco n'exagère pas énormément en parlant de résultats "alarmants".
Et cela en prenant en comtpe le fait que de toute façon, à partir du moment où un modèle est open-source, n'importe qui peu le modifier...

Le vrai danger de l'IA ne sera pas liée au péquin lambda qui veut générer n'importe qu'elle instruction illégale sur son ordi ou son portable. Les deux vrais danger de l'IA sont les entreprises qui cherchent à s’approprier à elle-seule certains algorithmes, afin de rendre dépendant des millier de personne et d'entreprises dans le monde. Et surtout, que des régimes autoritaires, voir totalitaires, s'en servent pour contrôler et surveiller les gens, censurer du contenu dynamiquement, et faire la guerre avec des robots tueurs.
0  0