Deux semaines après avoir annoncé en grande pompe Mythos, son modèle d'intelligence artificielle conçu pour la cybersécurité défensive, Anthropic se retrouve face à un scénario embarrassant : un groupe de particuliers non autorisés aurait réussi à accéder à l'outil, contournant la stratégie de diffusion contrôlée que la société présentait comme une réponse responsable à la dangerosité de sa propre technologie. L'incident pose des questions qui dépassent largement le cas Anthropic et touchent aux fondements même de la gouvernance des modèles d'IA dits à haut risque.Pour comprendre la portée de cet accès non autorisé, il faut d'abord saisir ce qu'est Claude Mythos Preview et pourquoi Anthropic a fait un tel effort de communication lors de son annonce le 7 avril 2026. Il s'agit d'un modèle de langage à usage général qui présente des capacités remarquables dans les tâches de sécurité informatique Anthropic, au point qu'Anthropic a elle-même choisi de ne pas le rendre disponible au grand public.
Les démonstrations techniques publiées par l'équipe rouge d'Anthropic ont de quoi saisir même les professionnels aguerris. Mythos Preview a identifié et exploité de façon entièrement autonome une vulnérabilité d'exécution de code à distance vieille de 17 ans dans FreeBSD, permettant à n'importe qui d'obtenir les droits root sur une machine exécutant NFS. Dans un autre cas, le modèle a produit un exploit pour navigateur web enchaînant quatre vulnérabilités distinctes, avec une technique d'échappement des bacs à sable du moteur de rendu et du système d'exploitation.
L'Institut britannique de sécurité de l'IA (UK AI Security Institute) a qualifié Mythos de premier modèle d'IA capable de compléter son test simulant une attaque prenant le contrôle d'un réseau entier Foreign Policy, avec toutefois la réserve que les environnements de test utilisés ne reproduisaient pas fidèlement les défenses de systèmes réels. Mythos Preview a déjà identifié des milliers de vulnérabilités de haute gravité, y compris dans chaque système d'exploitation majeur et chaque navigateur web.
Face à ces capacités jugées trop dangereuses pour une diffusion publique, Anthropic a opté pour une stratégie de déploiement restreint. Le modèle est accessible dans le cadre d'une initiative baptisée Project Glasswing, impliquant 12 organisations partenaires pour des travaux de sécurité défensive sur des logiciels critiques, avec 40 organisations ayant accès à la préversion au total. Parmi elles figurent Microsoft, Apple, Google, CrowdStrike et JPMorgan Chase. Anthropic engage jusqu'à 100 millions de dollars en crédits d'utilisation pour ces acteurs, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source comme OpenSSF et la Fondation Apache. Le principe : donner aux défenseurs une longueur d'avance avant que des modèles aux capacités équivalentes ne tombent entre les mains d'acteurs malveillants.
La société précise qu'elle n'a pas explicitement entraîné Mythos Preview pour ces capacités offensives : elles sont apparues comme une conséquence indirecte des améliorations générales en matière de code, de raisonnement et d'autonomie. Les mêmes progrès qui rendent le modèle plus efficace pour corriger des vulnérabilités le rendent également plus efficace pour les exploiter.
Logan Graham, qui dirige l'équipe rouge offensive d'Anthropic, résume le problème avec une clarté désarmante : même si Mythos ne devait jamais être rendu public, il s'attend à ce que les concurrents d'Anthropic, y compris ceux basés en Chine, publient des modèles aux capacités de piratage comparables dans les mois ou années à venir.
Le verrou s'ouvre le jour même de l'annonce
C'est précisément cette stratégie de maîtrise que vient contredire le rapport de Bloomberg publié le 21 avril. Un petit groupe d'utilisateurs non autorisés a accédé à Mythos le jour même où Anthropic annonçait son plan de diffusion restreinte. Selon les informations recueillies par l'agence, ces individus font partie d'un forum privé en ligne, et leur accès aurait été obtenu via l'environnement d'un prestataire tiers travaillant pour Anthropic.
Le groupe a employé plusieurs stratégies pour accéder au modèle, notamment en utilisant les accréditations d'une personne actuellement employée chez un sous-traitant travaillant pour Anthropic, personne qui a elle-même fourni des informations à Bloomberg dans le cadre de son enquête. Les membres du groupe appartiennent à un canal Discord consacré à la recherche d'informations sur les modèles d'IA non publiés.
La méthode d'accès initiale révèle une forme de déduction technique plutôt qu'une attaque sophistiquée : le groupe a formulé une hypothèse éclairée sur l'emplacement en ligne du modèle, en s'appuyant sur leur connaissance du format qu'Anthropic utilise habituellement pour ses autres modèles. En d'autres termes, la surface d'attaque n'était pas un système ultra-sécurisé mais une convention de nommage prévisible; une faille de sécurité par l'obscurité que des observateurs attentifs pouvaient déduire.
Le groupe a fourni des preuves à Bloomberg sous la forme de captures d'écran et d'une démonstration en direct du logiciel. Leur motivation déclarée : être « intéressés par l'exploration de nouveaux modèles, pas par le chaos ». Aucune activité malveillante n'a été documentée jusqu'à présent.
La réponse d'Anthropic : investigation en cours, systèmes intacts
La porte-parole d'Anthropic a communiqué une réaction mesurée, dans les termes habituels de ce type d'incident. « Nous enquêtons sur un rapport faisant état d'un accès non autorisé à Claude Mythos Preview via l'un de nos...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
Pierre Louis Chevalier,