IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les LLM peuvent démasquer les utilisateurs pseudonymes à grande échelle avec une précision surprenante pour seulement 1,41 dollar par cible,
Exposant les internautes au doxxing et à un ciblage plus intrusif

Le , par Mathis Lucas

41PARTAGES

9  0 
Des scientifiques ont mis au point une méthode qui permet aux grands modèles de langage (LLM) de supprimer l'anonymat des comptes en ligne pseudonymes à grande échelle pour seulement 1,41 dollar par cible, en utilisant des API disponibles dans le commerce pour les systèmes d'IA. Ce faisant, les chercheurs ont démontré que l'hypothèse selon laquelle les identités en ligne sont protégées par le pseudonymat n'est plus particulièrement solide, car les outils d'IA peuvent identifier rapidement et à moindre coût les utilisateurs grâce à leurs publications. Cette étude peut servir de socle pour les pays qui cherchent désespérément à éliminer l'anonymat en ligne.

Des chercheurs de l'École polytechnique fédérale de Zurich (ETH Zurich), du programme MATS et d'Anthropic ont publié une nouvelle étude intitulée « Large-Scale Online Deanonymization with LLMs ». Elle établit que les grands modèles de langage (LLM) sont capables de réidentifier des individus opérant sous pseudonyme en ligne, à une échelle et avec une précision significativement supérieures à celles des techniques mises au point précédemment.

Ces résultats pourraient remettre en cause le pseudonymat, une mesure de confidentialité imparfaite, mais souvent suffisante utilisée par de nombreuses personnes pour poster des questions et participer à des discussions publiques parfois sensibles, tout en rendant difficile l'identification formelle des intervenants.

Les chercheurs tirent la sonnette d'alarme sur le sujet : « nos conclusions ont des implications importantes pour la confidentialité en ligne. L'utilisateur moyen d'Internet a longtemps fonctionné selon un modèle de menace implicite dans lequel il supposait que l'utilisation d'un pseudonyme offrait une protection adéquate, car la désanonymisation ciblée nécessiterait de gros efforts. Les grands modèles de langage invalident désormais cette hypothèse ».

Comment fonctionne ce nouveau système de désanonymisation

Les employés qui comptent sur l'anonymat pour se protéger pourraient également être démasqués à l'aide de la technique mise au point par les chercheurs. En substance, les grands modèles de langage sont capables de repérer des informations spécifiques, telles que les lieux, les conférences auxquelles une personne a assisté, ses loisirs particuliers, son titre professionnel, etc. afin de réduire le nombre de personnes susceptibles d'être concernées.


Pour cette étude, les chercheurs ont mis au point un cadre d'attaque en quatre étapes qu'ils ont baptisé ESRC : Extract, Search, Reason, and Calibrate (Extraire, Rechercher, Raisonnement et Calibrer). Ce cadre fonctionne en extrayant d'abord les signaux pertinents pour l'identité à partir de publications non structurées, tels que les données démographiques, le style d'écriture, les divulgations fortuites, les centres d'intérêt et les schémas linguistiques.

Les intégrations sémantiques recherchent ensuite les correspondances possibles dans un pool de candidats. Un second modèle, plus performant, procède ensuite à un raisonnement approfondi sur les profils identifiés pour déterminer la correspondance la plus probable. Une dernière étape d'étalonnage contrôle le taux de faux positifs, permettant à l'attaquant de trouver un compromis entre la précision et le nombre d'utilisateurs qu'il parvient à identifier.

L'approche repose entièrement sur du texte non structuré, ne nécessitant aucune donnée structurée, aucune fonctionnalité prédéfinie, ni aucun effort manuel de la part d'enquêteurs qualifiés. Lors des tests effectués par les chercheurs, le pipeline de modèles de langage a atteint un taux de rappel de 45,1 % avec un seuil de précision de 99 %, en faisant correspondre les comptes Hacker News aux profils LinkedIn d'un groupe de 89 000 utilisateurs.

Les méthodes automatisées précédentes n'atteignaient qu'un taux de rappel de 0,1 % avec la même précision. Lors d'un test distinct visant à relier des comptes Reddit pseudonymes au fil du temps, le pipeline LLM complet a identifié plus d'un tiers de tous les utilisateurs avec une précision de 99 %.

Précision de la méthode sur les données fournies par Anthropic

Contrairement aux anciennes méthodes de suppression des pseudonymes, les agents IA sont dotés de capacités avancées de navigation sur le Web. « Nous avons découvert que ces agents IA peuvent faire quelque chose qui était auparavant très difficile : à partir d'un texte libre (comme la transcription anonymisée d'une interview), ils peuvent remonter jusqu'à l'identité complète d'une personne », a déclaré Simon Lermen, coauteur de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 04/03/2026 à 12:37
Citation Envoyé par Mathis Lucas Voir le message
Les comptes jetables sur les réseaux sociaux peuvent de plus en plus être analysés pour identifier les utilisateurs pseudonymes qui y publient des messages à l'aide de l'IA. Les découvertes de cette nouvelle étude ont des conséquences considérables pour la vie privée sur Internet. Les chercheurs estiment que leur pipeline d'agent IA coûte entre 1,41 et 5,64 dollars (1 à 4 dollars américains) par cible, en utilisant des API d'IA commerciales standard.
Il faut voir le bon côté des choses, ceux qui vont démasquer les utilisateurs anonymes vont rapporter de l'argent à des entreprises
1  0 
Avatar de Artaeus
Nouveau Candidat au Club https://www.developpez.com
Le 04/03/2026 à 13:03
Il est plutôt évident qu'en utilisant la même formulation, phrasée et expression entre plusieurs sites, un utilisateurs puissent être démasqué : La meilleure technique reste de jouer un rôle différent ou un personnage.

PS : C'était déjà fait à petite échelle en cas de suspicion par certains États.
0  0