DeepSeek, une startup chinoise spécialisée dans l'IA, a récemment attiré l'attention des médias en raison de ses modèles d'IA révolutionnaires, en particulier le modèle de raisonnement DeepSeek-R1. Ce modèle rivalise avec les principaux systèmes d'IA tels que o1 d'OpenAI en termes de performances et se distingue par sa rentabilité et son efficacité.
Alors que DeepSeek faisait des vagues dans le domaine de l'IA, l'équipe de Wiz Research a entrepris d'évaluer son dispositif de sécurité externe et d'identifier toute vulnérabilité potentielle. L'équipe aurait trouvé une base de données ClickHouse accessible au public, liée à DeepSeek, complètement ouverte et non authentifiée, exposant des données sensibles. Elle était hébergée sur oauth2callback.deepseek.com:9000 et dev.deepseek.com:9000.
Cette base de données contenait un volume important d'historiques de chat, de données de backend et d'informations sensibles, y compris des flux de logs, des secrets d'API et des détails opérationnels. Plus grave encore, l'exposition a permis un contrôle total de la base de données et une escalade potentielle des privilèges au sein de l'environnement DeepSeek, sans aucun mécanisme d'authentification ou de défense vers le monde extérieur.
Cette découverte confirme que l'adoption rapide de services d'IA sans sécurité correspondante est intrinsèquement risquée. Cette exposition souligne le fait que les risques de sécurité immédiats pour les applications d'IA proviennent de l'infrastructure et des outils qui les soutiennent. Alors que l'attention portée à la sécurité de l'IA se concentre sur les menaces futuristes, les véritables dangers proviennent souvent des risques de base, tels que l'exposition externe accidentelle des bases de données. Ces risques, qui sont fondamentaux pour la sécurité, devraient rester une priorité absolue pour les équipes de sécurité.
Alors que les organisations s'empressent d'adopter les outils et services d'IA d'un nombre croissant de startups et de fournisseurs, il est essentiel de se rappeler qu'en faisant cela, nous confions à ces entreprises des données sensibles. Le rythme rapide de l'adoption conduit souvent à négliger la sécurité, mais la protection des données des clients doit rester la priorité absolue. Il est essentiel que les équipes de sécurité travaillent en étroite collaboration avec les ingénieurs en IA pour garantir la visibilité de l'architecture, des outils et des modèles utilisés, afin de protéger les données et d'éviter toute exposition.
Cette révélation de Wiz Research vient s'ajouter à la récente révélation concernant DeepSeek. En effeet, DeepSeek a provoqué une hécatombe à Wall Street le 27 janvier à la suite des informations selon lesquelles les performances de son modèle d'IA R1 égalent celles du modèle o1 d'OpenAI pour une fraction du prix, soit 5,6 millions de dollars. Et la startup chinoise n'aurait eu besoin que de 2 048 puces Nvidia H800 pour atteindre ce résultat.
Cependant, la société d'analyse SemiAnalysis indique que DeepSeek, qui a été créée en 2023, a dépensé plus de 500 millions de dollars en GPU au cours de son histoire. Cette information a suscité des interrogations sur la transparence de DeepSeek. Elle ne semble pas toutefois remettre en cause ses efforts.
Voici les détails de cette découverte par Wiz Research :
Description de l'exposition
Notre reconnaissance a commencé par l'évaluation des domaines de DeepSeek accessibles au public. En cartographiant la surface d'attaque externe avec des techniques de reconnaissance simples (découverte passive et active des sous-domaines), nous avons identifié environ 30 sous-domaines orientés vers l'Internet. La plupart semblaient bénins, hébergeant des éléments tels que l'interface du chatbot, la page d'état et la documentation de l'API - aucun d'entre eux n'ayant initialement suggéré une exposition à haut risque.
Cependant, en élargissant notre recherche au-delà des ports HTTP standard (80/443), nous avons détecté deux ports ouverts inhabituels (8123 & 9000) associés aux hôtes suivants :
Une enquête plus poussée a révélé que ces ports menaient à une base de données ClickHouse publiquement exposée, accessible sans aucune authentification, ce qui a immédiatement mis la puce à l'oreille.
ClickHouse est un système de gestion de base de données en colonnes open-source conçu pour des requêtes analytiques rapides sur de grands ensembles de données. Il a été développé par Yandex et est largement utilisé pour le traitement des données en temps réel, le stockage des journaux et l'analyse des données volumineuses, ce qui indique que cette exposition est une découverte très précieuse et sensible.
En tirant parti de l'interface HTTP de ClickHouse, nous avons accédé au chemin d'accès /play, qui permet l'exécution directe de requêtes SQL arbitraires via le navigateur. L'exécution d'une simple requête SHOW TABLES ; a permis d'obtenir une liste complète des ensembles de données accessibles.
Parmi ceux-ci, une table se démarque : log_stream, qui contient des journaux détaillés avec des données très sensibles.
La table log_stream contenait plus d'un million d'entrées de journaux, avec des colonnes particulièrement révélatrices :
Ce niveau d'accès représentait un risque critique pour la sécurité de DeepSeek et pour ses utilisateurs finaux. Non seulement un attaquant pouvait récupérer des journaux sensibles et des messages de chat en texte clair, mais il pouvait aussi potentiellement exfiltrer des mots de passe en texte clair et des fichiers locaux contenant des informations de propriété directement à partir du serveur à l'aide de requêtes telles que : SELECT * FROM file('filename') en fonction de leur configuration ClickHouse.
Conclusion
Le monde n'a jamais vu un élément de technologie adopté au rythme de l'IA. De nombreuses entreprises spécialisées dans l'IA se sont rapidement transformées en fournisseurs d'infrastructures critiques sans les cadres de sécurité qui accompagnent généralement une adoption aussi généralisée. À mesure que l'IA s'intègre profondément dans les entreprises du monde entier, l'industrie doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité équivalentes à celles requises pour les fournisseurs de cloud public et les grands fournisseurs d'infrastructure.
Notre reconnaissance a commencé par l'évaluation des domaines de DeepSeek accessibles au public. En cartographiant la surface d'attaque externe avec des techniques de reconnaissance simples (découverte passive et active des sous-domaines), nous avons identifié environ 30 sous-domaines orientés vers l'Internet. La plupart semblaient bénins, hébergeant des éléments tels que l'interface du chatbot, la page d'état et la documentation de l'API - aucun d'entre eux n'ayant initialement suggéré une exposition à haut risque.
Cependant, en élargissant notre recherche au-delà des ports HTTP standard (80/443), nous avons détecté deux ports ouverts inhabituels (8123 & 9000) associés aux hôtes suivants :
- http://oauth2callback.deepseek.com:8123
- http://dev.deepseek.com:8123
- http://oauth2callback.deepseek.com:9000
- http://dev.deepseek.com:9000
Une enquête plus poussée a révélé que ces ports menaient à une base de données ClickHouse publiquement exposée, accessible sans aucune authentification, ce qui a immédiatement mis la puce à l'oreille.
ClickHouse est un système de gestion de base de données en colonnes open-source conçu pour des requêtes analytiques rapides sur de grands ensembles de données. Il a été développé par Yandex et est largement utilisé pour le traitement des données en temps réel, le stockage des journaux et l'analyse des données volumineuses, ce qui indique que cette exposition est une découverte très précieuse et sensible.
En tirant parti de l'interface HTTP de ClickHouse, nous avons accédé au chemin d'accès /play, qui permet l'exécution directe de requêtes SQL arbitraires via le navigateur. L'exécution d'une simple requête SHOW TABLES ; a permis d'obtenir une liste complète des ensembles de données accessibles.
Parmi ceux-ci, une table se démarque : log_stream, qui contient des journaux détaillés avec des données très sensibles.
La table log_stream contenait plus d'un million d'entrées de journaux, avec des colonnes particulièrement révélatrices :
- timestamp - Journaux datant du 6 janvier 2025
- span_name - Références à divers points d'extrémité de l'API interne de DeepSeek
- string.values - Journaux en texte clair, y compris l'historique des conversations, les clés API, les détails du backend et les métadonnées opérationnelles.
- service - Indique le service DeepSeek qui a généré les logs
- source - Indique l'origine des demandes de journaux, contenant l'historique des conversations, les clés API, les structures de répertoire et les journaux de métadonnées du chatbot.
Ce niveau d'accès représentait un risque critique pour la sécurité de DeepSeek et pour ses utilisateurs finaux. Non seulement un attaquant pouvait récupérer des journaux sensibles et des messages de chat en texte clair, mais il pouvait aussi potentiellement exfiltrer des mots de passe en texte clair et des fichiers locaux contenant des informations de propriété directement à partir du serveur à l'aide de requêtes telles que : SELECT * FROM file('filename') en fonction de leur configuration ClickHouse.
Conclusion
Le monde n'a jamais vu un élément de technologie adopté au rythme de l'IA. De nombreuses entreprises spécialisées dans l'IA se sont rapidement transformées en fournisseurs d'infrastructures critiques sans les cadres de sécurité qui accompagnent généralement une adoption aussi généralisée. À mesure que l'IA s'intègre profondément dans les entreprises du monde entier, l'industrie doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité équivalentes à celles requises pour les fournisseurs de cloud public et les grands fournisseurs d'infrastructure.
Et vous ?
Pensez-vous que cette découverte est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
DeepSeek est victime d'une cyberattaque et limite les inscriptions : la startup chinoise spécialisée dans l'IA a déclaré avoir été victime d'une "attaque malveillante à grande échelle" contre ses services
La Maison Blanche s'intéresse à DeepSeek pour des raisons de sécurité nationale, Donald Trump considère DeepSeek comme un "signal d'alarme" et affirme : "nous rétablirons la domination américaine"
OpenAI a trouvé des preuves que la start-up chinoise DeepSeek a utilisé les modèles propriétaires d'OpenAI pour former son propre modèle open-source, en utilisant la technique de "distillation"