Le gouvernement US développe une technologie d'IA pour démasquer les écrivains anonymes

évoquant entre autres « le suivi des campagnes de désinformation et d'autres activités malveillantes en ligne »

Le 29 septembre 2022 à 11:22, par Stéphane le calme

42PARTAGES

Le gouvernement américain développe une technologie d'IA pour démasquer les écrivains anonymes,
évoquant entre autres « le suivi des campagnes de désinformation et d'autres activités malveillantes en ligne »

La branche de recherche de la communauté du renseignement se prépare à développer de nouveaux systèmes d'intelligence artificielle capables d'identifier qui ou quoi est l'auteur d'un texte spécifique et, d'un autre côté, des systèmes avancés ciblant des fonctionnalités pour protéger la vie privée des auteurs.

« Cet effort, de ce que nous en pensons, est potentiellement révolutionnaire pour le suivi des campagnes de désinformation, et des choses comme la lutte contre la traite des êtres humains et d'autres activités malveillantes qui se déroulent dans les forums de texte en ligne, et ailleurs en utilisant du texte », a déclaré le Dr Timothy McKinnon dans un récent interview.

McKinnon est le responsable du programme Intelligence Advanced Research Projects Activity qui dirige ce travail, qui est baptisé HIATUS (pour human interpretable attribution of text using underlying structure, littéralement attribution interprétable par l'homme de texte utilisant une structure sous-jacente.

Écrire de manière anonyme ne cachera peut-être pas votre identité plus longtemps si le dernier projet d'intelligence artificielle du gouvernement américain s'avère un succès.

Le bureau du directeur du renseignement national a annoncé un nouveau projet d'IA géré par l'Intelligence Advanced Research Projects Activity (IARPA), qui se concentre sur la technologie des empreintes numériques de langages. L'IARPA se décrit comme investissant dans « des programmes de recherche à haut risque et à haut rendement pour relever certains des défis les plus difficiles des agences et des disciplines de la communauté du renseignement », et cela en représente certainement un.

Il s'agit du programme HIATUS (Human Interpretable Attribution of Text Using Underlying Structure) qui vise à faire progresser la technologie du langage humain au point où les auteurs peuvent être identifiés simplement par leur style d'écriture. L'objectif est que HIATUS soit multilingue et capable de différencier les auteurs en fonction de caractéristiques stylistiques telles que le choix des mots, la formulation des phrases et l'organisation de l'information.

Bien que cela puisse sonner l'alarme pour quiconque souhaite écrire de manière anonyme, l'IARPA souligne que HIATUS peut également protéger une identité. En modifiant automatiquement le modèle de langage d'un auteur connu, il ne devrait pas être possible pour une IA de déterminer qui est un auteur. HIATUS a également pour objectif de pouvoir expliquer aux « utilisateurs novices » comment il peut attribuer un écrit à un auteur spécifique.

Envoyé par Office of the Director of National Intelligence

L'Intelligence Advanced Research Projects Activity (IARPA), la branche de recherche et développement du Bureau du directeur du renseignement national, a annoncé aujourd'hui le lancement d'un programme visant à concevoir de nouvelles technologies d'intelligence artificielle capables d'attribuer la paternité des écrits et de protéger la vie privée des auteurs.

Le programme Human Interpretable Attribution of Text Using Underlying Structure (HIATUS) représente le dernier effort de recherche de la communauté du renseignement pour faire progresser la technologie du langage humain. Les innovations qui en résultent pourraient avoir des impacts considérables, avec le potentiel de contrer les activités étrangères d'influence maligne; identifier les risques de contre-espionnage; et aider à protéger les auteurs qui pourraient être mis en danger si leurs écrits sont liés à eux.

Les objectifs du programme sont de créer des technologies qui :

Effectue une attribution d'auteur multilingue en identifiant les caractéristiques stylistiques, telles que le choix des mots, la formulation des phrases, l'organisation des informations, qui aident à déterminer l'auteur d'un texte donné.
Protéger la vie privée de l'auteur en modifiant les modèles linguistiques qui indiquent l'identité de l'auteur.
Mettre en œuvre des techniques d'IA explicables qui permettent aux utilisateurs novices de comprendre, de faire confiance et de vérifier pourquoi un texte particulier est attribuable à un auteur spécifique ou pourquoi une révision particulière préservera la vie privée d'un auteur.

« Chacun des artistes sélectionnés apporte une approche unique, nouvelle et convaincante au défi HIATUS », a déclaré le directeur du programme, le Dr Tim McKinnon. « Nous avons de fortes chances d'atteindre nos objectifs, de fournir des capacités indispensables à la communauté du renseignement et d'élargir considérablement notre compréhension de la variation du langage humain en utilisant les dernières avancées en linguistique informatique et en apprentissage en profondeur ».

Avec le bon modèle, l'IARPA pense pouvoir identifier les cohérences dans le style d'un écrivain à travers différents échantillons, modifier ces modèles linguistiques pour anonymiser l'écriture et tout faire d'une manière explicable aux utilisateurs novices, a déclaré ODNI. Les IA HIATUS devraient également être indépendantes de la langue.

« Nous avons de fortes chances d'atteindre nos objectifs, de fournir des capacités indispensables à la communauté du renseignement et d'élargir considérablement notre compréhension de la variation du langage humain en utilisant les dernières avancées en linguistique informatique et en apprentissage en profondeur », a déclaré le directeur du programme HIATUS, le Dr Timothy McKinnon.

Afin de développer des modèles solides, HIATUS prévoit d'aborder ses objectifs comme une question d'IA contradictoire : l'attribution de la paternité et l'anonymisation du texte sont les deux faces d'un même problème, et les groupes d'expérimentation HIATUS seront donc opposés les uns aux autres.

Envoyé par IARPA

Les humains et les machines produisent chaque jour de grandes quantités de contenu textuel. Le texte contient des caractéristiques linguistiques qui peuvent révéler l'identité de l'auteur. Pour soutenir et protéger la mission IC, l'objectif du programme HIATUS est de développer des outils multilingues pour attribuer
la paternité et protéger la vie privée des auteurs. Ces outils doivent mettre en œuvre de nouvelles techniques d'intelligence artificielle explicables pour fournir des résultats fiables et vérifiables aux utilisateurs humains, quels que soient les antécédents de l'auteur ou le genre, le sujet et la longueur du document.

Le programme HIATUS considère l'attribution de la paternité et la confidentialité comme différents aspects du même défi sous-jacent : comprendre la variation linguistique au niveau de l'auteur en élucidant les identifiants stables des auteurs individuels à travers divers types de textes. Le programme met en concurrence les systèmes d'attribution de la paternité et de confidentialité des artistes interprètes ou exécutants. Les équipes d'interprètes s'affrontent pour générer des représentations plus fidèles entre les empreintes linguistiques uniques des auteurs individuels.

Les systèmes performants sont soumis aux équipes de test et d'évaluation (T&E) de HIATUS pour une évaluation à l'aveugle par rapport aux systèmes de l'équipe adverse sur un ensemble de données séquestré comprenant des documents multilingues représentant diverses caractéristiques de texte et d'auteur. Les systèmes d'attribution sont évalués en fonction de leur capacité à faire correspondre des éléments du même auteur dans de grandes collections, tandis que les systèmes de confidentialité sont évalués en fonction de leur capacité à contrecarrer les systèmes d'attribution. L'explicabilité du système sera évaluée à l'aide d'un protocole développé par les interprètes, les équipes T&E et les partenaires gouvernementaux au début du programme. Le programme HIATUS débute fin 2022 et a une durée de 42 mois.

McKinnon a déclaré qu'une partie de ce que fait HIATUS essaie de démystifier certaines des inconnues autour des modèles de langage neuronal (au centre des efforts de HIATUS), qui, selon lui, fonctionnent bien, mais sont essentiellement des boîtes noires qui fonctionnent sans que leurs développeurs sachent pourquoi ils prennent une décision particulière.

Idéalement, a déclaré McKinnon, "lorsque nous procédons à l'attribution ou à la confidentialité des droits d'auteur, nous sommes en mesure de vraiment comprendre pourquoi le système se comporte comme il le fait, et de pouvoir vérifier qu'il ne détecte pas de choses fallacieuses et qu'il fonctionne la bonne chose."

En cas de succès, HIATUS pourrait avoir des impacts considérables, allant de la lutte contre les activités d'influence étrangère à l'identification des risques de contre-espionnage et à la protection des auteurs dont le travail pourrait les mettre en danger, a déclaré l'ODNI. McKinnon ajoute que les IA HIATUS peuvent également être en mesure d'identifier si le texte est généré par une machine plutôt que par un auteur humain.

Environ 70% des recherches achevées de l'IARPA sont acheminées vers d'autres partenaires gouvernementaux pour la mise en œuvre, dans lesquelles l'IARPA ne sera pas impliquée – tout ce qu'il fait est de développer la technologie, pas de la transformer en quelque chose d'utilisable. Cela dit, les chances sont en faveur de HIATUS, selon l'agence de renseignement.

Ne vous attendez pas à ce que cette technologie apparaisse bientôt sous une forme complète : maintenant que HIATUS a démarré, il faudra 42 mois (trois ans et demi) jusqu'à ce que l'expérience se termine, et ce n'est qu'alors que d'autres agences gouvernementales pourront probablement prendre HIATUS pour un tour, si McKinnon et son équipe réussissent.

Une approche technique qui rappelle celle des GAN

Si vous regardez les images présentées sur le site Web ThisPersonDoesnotExist.com (cette personne n’existe pas), vous pouvez penser être tombé sur des portraits aléatoires de lycée ou des photos issues d’une autre source. Pourtant, chaque photo sur le site a été créée en utilisant un type spécial d'algorithme d'intelligence artificielle appelé generative adversarial network (GAN, ou, en français, réseau antagoniste génératif).

Chaque fois que le site est rafraîchi, une image débordant de réalisme présente le visage d’une personne. Phillip Wang, ingénieur en logiciel chez Uber, a créé la page pour démontrer les capacités du GAN, puis l'a publiée sur le groupe public "Intelligence artificielle et apprentissage en profondeur".

Le code sous-jacent qui a rendu cela possible, intitulé StyleGAN, a été écrit par Nvidia et fait l'objet d'un article qui n'avait pas encore été approuvé par des pairs à cette époque. Ce type de réseau de neurones a le potentiel de révolutionner la technologie du jeu vidéo et de la modélisation 3D, mais, comme presque tout type de technologie, il pourrait également être utilisé à des fins plus sinistres. Rappelons par exemple que les deepfakes, ou des images générées par ordinateur superposées à des images ou des vidéos existantes, peuvent être utilisées pour diffuser de faux récits d’actualité ou d’autres canulars. C’est donc dans un but de sensibilisation que Wang a choisi de faire cette page Web.

Comment fonctionnent les GAN ?

S’il fallait simplifier, nous pourrions dire que le GAN implique que deux réseaux travaillent l’un contre l’autre. Le premier va être nourri en données brutes qu’il va décomposer. À partir de ces données, il va tenter de créer une image. Il va ensuite soumettre cette image à un autre réseau qui, lui, n’a que des photos ou images réelles dans sa base de données. Ce deuxième réseau va alors juger de l’image et va informer le premier de son jugement. Si l’image ne ressemble pas au résultat attendu, le premier algorithme va recommencer le processus. Si le résultat correspond, il va être informé qu’il est sur la bonne voie et finir par comprendre ce qu’est une bonne image. Une fois qu’il est suffisamment entraîné, il peut en produire à la chaîne.

Sources : DNI, IARPA

Et vous ?

Que pensez-vous d'un tel projet ?

Les objectifs annoncés comme « tracer les campagnes de désinformation et d'autres activités malveillantes en ligne » justifient-ils, selon vous, le déploiement d'un tel arsenal ? Pourquoi ?

Êtes-vous rassuré lorsqu'il est indiqué que la vie privée des auteurs sera protégée ?

Voyez-vous des dérives potentielles ?

Côté technique, que pensez-vous de cette approche qui rappelle celle des GAN ?

Voir aussi :

Microsoft a mis au point une intelligence artificielle capable de trouver des bogues dans le code afin d'aider les développeurs à déboguer leurs applications avec plus de précision et d'efficacité

Une artiste reçoit le premier enregistrement américain connu de droits d'auteur pour une œuvre d'art générée par l'IA, pendant que se tient un vif débat en ligne sur l'éthique de l'art de l'IA

Vous avez lu gratuitement 665 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le gouvernement US développe une technologie d'IA pour démasquer les écrivains anonymes

évoquant entre autres « le suivi des campagnes de désinformation et d'autres activités malveillantes en ligne »

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le gouvernement US développe une technologie d'IA pour démasquer les écrivains anonymes évoquant entre autres « le suivi des campagnes de désinformation et d'autres activités malveillantes en ligne »

Le gouvernement US développe une technologie d'IA pour démasquer les écrivains anonymes

évoquant entre autres « le suivi des campagnes de désinformation et d'autres activités malveillantes en ligne »