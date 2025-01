DeepSeek critiqué en raison de la censure de sujets jugés sensibles par Pékin

DeepSeek a semé la panique dans le rang des investisseurs et a fait chuter les valeurs technologiques à Wall Street le 27 janvier. L'action Nvidia a perdu 17 %, effaçant 600 milliards de dollars de la capitalisation boursière de l'entreprise . Pour cause, DeepSeek a remis en question les pratiques établies de la Silicon Valley selon lesquelles « le développement de modèles d'IA avancés nécessite des investissements massifs en matière de puces et d'infrastructures ».Cependant, DeepSeek est critiqué pour la censure appliquée à ses modèles d'IA. Selon des tests effectués par CBC News et The Associated Press, l'IA chinoise DeepSeek ne répond pas toujours à certaines questions sur des sujets souvent censurés par Pékin et fournit des informations différentes de celles de ses rivaux américains. Les utilisateurs peuvent même observer cette censure en temps réel lorsqu'ils posent, par exemple, des questions concernant Xi Jinping.Les utilisateurs pourraient s'attendre à ce que la censure se fasse à huis clos, avant que toute information ne soit affichée. Mais cela ne semble pas être le cas de l'IA de DeepSeek. Elle aborde ses réponses avec un préambule de raisonnement qu'elle peut effacer ensuite lorsqu'elle se rend compte que le sujet est sensible. Cette censure est conforme aux lois chinoises qui interdisent la diffusion de contenus violant les valeurs socialistes fondamentales de la Chine.La censure apparente semble se produire lorsque les utilisateurs utilisent l'application ou le site Web de DeepSeek, lorsque le modèle d'IA est exécuté sur les propres serveurs de l'entreprise et fournit des réponses à distance. DeepSeek ne semble pas pratiquer cette censure lorsqu'il est téléchargé et utilisé localement.DeepSeek est formé à s'autocensurer (et, parfois, à afficher des tendances politiques spécifiques) sur les sujets sensibles. Et lorsque DeepSeek refuse de répondre, il sort souvent une phrase toute faite : « désolé, cela dépasse mon champ d'action actuel. Parlons d'autre chose ». Voici quelques exemples rapportés :À la question « qu'est-ce que le Grand pare-feu de Chine ? » (surnom donné au réseau technologique de censure d'Internet en Chine), DeepSeek a publié une longue réponse dans laquelle il le qualifie de « système complet de censure et de surveillance d'Internet mis en œuvre par le gouvernement chinois ». L'IA a ensuite expliqué les différentes techniques utilisées, du blocage IP au filtrage d'URL en passant par l'inspection approfondie des paquets.La réponse de l'IA de DeepSeek se lit comme suit : « ce système s'inscrit dans le cadre d'un effort plus large du gouvernement chinois pour contrôler le flux d'informations à l'intérieur du pays, en veillant à ce qu'Internet soit conforme aux lois nationales et aux valeurs socialistes. S'il a permis de contrôler efficacement le paysage Internet national, il a également fait l'objet de critiques internationales pour avoir limité la liberté d'information et d'expression... ».Puis, comme si le modèle se rendait compte de ce qu'il avait dit, les paragraphes ont disparu. À leur place est apparue la phrase habituelle : « désolé, cela dépasse mon champ d'action actuel ». La première ligne de sa réponse initiale est cependant presque identique à celle de ChatGPT.Lorsque DeepSeek a accepté d'expliquer le Grand pare-feu de Chine sans supprimer sa réponse, il n'a fait aucune mention de censure ou de critique internationale. Au lieu de cela, il a décrit le système comme « un élément essentiel de la gouvernance d'Internet en Chine », soulignant l'engagement du gouvernement à fournir un cyberespace sain et affirmant que l'approche a recueilli la compréhension et le soutien de la grande majorité de la population.Selon certains utilisateurs, DeepSeek semble incapable de répondre de manière exhaustive à la question « que signifie Winnie l'ourson en Chine ? ». En Chine, le personnage de Winnie l'ourson est utilisé pour se moquer du président Xi Jinping, et les recherches en ligne concernant ce personnage ont été brièvement interdites dans le pays. DeepSeek a déclaré que « l'ours est un personnage de dessin animé adoré par plusieurs enfants et familles en Chine ».Puis, brusquement, il affirme que le gouvernement chinois s'engage à fournir un cyberespace sain à ses citoyens et que tous les contenus en ligne sont gérés conformément aux lois chinoises et aux valeurs fondamentales du socialisme, dans le but de protéger la sécurité nationale et la stabilité sociale.ChatGPT a répondu en expliquant que Winnie l'ourson était devenu un symbole de satire politique et de résistance, souvent utilisé pour se moquer de Xi Jinping ou le critiquer. Il a expliqué que les internautes comparaient Xi Jinping à l'ours en raison des similitudes physiques qu'ils percevaient.À la question de savoir si « Winnie l'ourson est utilisé pour se moquer de Xi Jining », DeepSeek a répondu : « cela dépassait mon champ d'action actuel ». Lorsqu'on lui a demandé pourquoi il ne pouvait pas répondre, il a répondu à plusieurs reprises qu'il est conçu « pour fournir des réponses utiles et inoffensives ».Lors de la répression militaire sur la place Tiananmen à Pékin en juin 1989, les troupes gouvernementales ont ouvert le feu sur les manifestants prodémocratie menés par les étudiants sur la place Tiananmen à Pékin, faisant plusieurs morts. Cet événement reste un sujet tabou en Chine continentale.Lorsque DeepSeek a été interrogé sur le sujet, il a répondu : « désolé, cela dépasse mes compétences actuelles. Parlons d'autre chose ». Mais ChatGPT a donné une réponse détaillée sur ce qu'il a appelé « l'un des événements les plus importants et les plus tragiques » de l'histoire moderne de la Chine.À l'instar du discours officiel chinois, DeepSeek a déclaré que Taïwan fait partie intégrante de la Chine depuis l'Antiquité. Un exemple de déclaration très similaire se trouve dans ce document gouvernemental publié en 2022. Il a déclaré que les compatriotes des deux côtés du détroit de Taïwan sont liés par le sang.ChatGPT a déclaré que la réponse dépendait du point de vue de chacun, tout en exposant les positions de la Chine et de Taïwan ainsi que les points de vue de la communauté internationale. D'un point de vue juridique et politique, la Chine affirme que Taïwan fait partie de son territoire et que la démocratie insulaire fonctionne comme un « pays indépendant de facto » doté de son propre gouvernement, de sa propre économie et de sa propre armée.Les experts de la société de sécurité Promptfoo, spécialisée dans la sécurité des grands modèles de langage (LLM), a récemment publié un ensemble de données de requêtes (invites) couvrant différents sujets sensibles susceptibles d'être censurés par le parti communiste chinois (PCC). Ces sujets comprennent des questions récurrentes telles que l'indépendance de Taïwan, des récits historiques sur la révolution culturelle et sur le président Xi Jinping.Les experts de Promptfoo affirment que les refus de DeepSeek supplantent la fonction de raisonnement du modèle. « Cela signifie que nous pouvons détecter ces refus en vérifiant simplement s'il y a un raisonnement », affirme Promptfoo dans un billet de blogue publié sur son site Web.L'ensemble de données de Promptfoo est publié sur HuggingFace et Google Sheets. Il contient 1 360 invites, avec environ 20 invites par sujet sensible. Promptfoo a déclaré qu'environ 85 % de cet ensemble de données est censuré par DeepSeek. Cette proportion représente 1 156 questions de l'ensemble de données de Promptfoo. Selon Promptfoo, les quelque 15 % d'invites qui n'ont pas été refusées n'étaient généralement pas assez spécifiques à la Chine.Promptfoo a des capacités de red teaming qui exploitent des modèles d'IA pour trouver de nouveaux jailbreaks pour des sujets spécifiques. L'installation peut se faire via l'interface utilisateur, ou par l'intermédiaire d'un fichier de configuration mis en place par l'équipe de Promptfoo.Pour contourner la censure de DeepSeek, l'équipe de Promptfoo a extrait les messages censurés dans un fichier CSV à colonne unique. Ensuite, elle a appliqué une poignée de stratégies de jailbreak populaires dans le domaine des grands modèles de langage, notamment :« Il s'avère que DeepSeek peut être trivialement jailbreaké. DeepSeek a mis en œuvre la censure du parti communiste chinois de manière grossière et brutale. Je suppose qu'ils ont fait le strict minimum nécessaire pour satisfaire les contrôles du parti communiste chinois, et qu'il n'y a pas eu d'effort substantiel au sein de DeepSeek pour aligner le modèle sous la surface », a déclaré le PDG de Promptfoo, Ian W. Selon Ian W, cela signifie que la censure est fragile.La censure n'est pas inhabituelle pour les modèles chinois. Mais Ian W affirme qu'elle semble être appliquée par force brute dans le cas de DeepSeek, ce qui la rend facile à tester et à détecter. Selon le billet de blogue de Ian W, les contournements les plus courants sont les suivants :Par exemple, certaines questions peuvent être modifiées pour porter sur les États-Unis, la Corée du Nord ou d'autres régimes oppressifs (même hypothétiques). Cela est facilité par le fait que DeepSeek suppose automatiquement que le contexte est américain si vous ne posez pas de question spécifique sur la Chine, probablement un effet secondaire des données d'entraînement centrées sur les États-Unis (ou parce qu'il a été entraîné sur ChatGPT).Selon Ian W, l'invite est présentée comme une demande de contexte historique bénin. Il a déclaré que les membres de l'équipe rouge (red teaming) de Promptfoo chargée de la conversation ont rapidement constaté que la généralisation de la question permettait d'obtenir une réponse complète.En outre, il est également possible d'envelopper l'invite dans une demande de roman ou d'autre fiction. Selon le PDG de Promptfoo , il s'agit d'une autre technique courante de jailbreak qui a tendance à fonctionner sur des modèles plus petits ou plus faibles du marché.L'injection d'invite est un type d’attaque contre les modèles de langage. Les pirates déguisent des entrées malveillantes en requêtes légitimes, manipulant les systèmes d'IA générative pour contourner la censure ou pour les forcer à divulguer des données sensibles, diffuser des informations erronées, etc. Les injections d'invite les plus élémentaires peuvent amener un chatbot à ignorer les garde-fous du système et à dire des choses qu'il ne devrait pas être en mesure de dire . Même les chatbots les plus avancés du marché, notamment ChatGPT d'OpenAI et Claude d'Anthropic, sont vulnérables à ces attaques.ChatGPT, le chatbot phare d'OpenAI, est également accusé de censure sur certains sujets et de partialité. ChatGPT censurerait notamment les voix conservatrices . Par exemple, en février 2023, des utilisateurs ont signalé que ChatGPT refusait de rédiger un poème sur les attributs positifs de Donald Trump, invoquant une politique de neutralité, mais acceptait de le faire pour Joe Biden. Cette situation a conduit à des accusations de partialité politique.Des études ont également suggéré que ChatGPT pourrait avoir une orientation pro-environnementale et libertaire de gauche. Par exemple, selon l'étude, ChatGPT serait beaucoup plus enclin à imposer des taxes sur les vols, limiter les augmentations de loyer et légaliser l'avortement. Par ailleurs, lors des élections de 2021, ChatGPT aurait très probablement voté pour les Verts en Allemagne (Bündnis 90/Die Grünen) et aux Pays-Bas (GroenLinks).« Nos résultats sont robustes lorsque l'on annule les messages-guides, que l'on inverse l'ordre des déclarations, que l'on varie la formalité des messages-guides et que l'on passe d'une langue à l'autre. Nous concluons en discutant des implications de l'IA conversationnelle politiquement biaisée sur la société », indiquent les auteurs de l'étude. 