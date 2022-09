Envoyé par Office of the Director of National Intelligence Envoyé par



Le programme Human Interpretable Attribution of Text Using Underlying Structure (HIATUS) représente le dernier effort de recherche de la communauté du renseignement pour faire progresser la technologie du langage humain. Les innovations qui en résultent pourraient avoir des impacts considérables, avec le potentiel de contrer les activités étrangères d'influence maligne*; identifier les risques de contre-espionnage*; et aider à protéger les auteurs qui pourraient être mis en danger si leurs écrits sont liés à eux.



Les objectifs du programme sont de créer des technologies qui :

Effectue une attribution d'auteur multilingue en identifiant les caractéristiques stylistiques, telles que le choix des mots, la formulation des phrases, l'organisation des informations, qui aident à déterminer l'auteur d'un texte donné.

Protéger la vie privée de l'auteur en modifiant les modèles linguistiques qui indiquent l'identité de l'auteur.

Mettre en œuvre des techniques d'IA explicables qui permettent aux utilisateurs novices de comprendre, de faire confiance et de vérifier pourquoi un texte particulier est attribuable à un auteur spécifique ou pourquoi une révision particulière préservera la vie privée d'un auteur.

Les humains et les machines produisent chaque jour de grandes quantités de contenu textuel. Le texte contient des caractéristiques linguistiques qui peuvent révéler l'identité de l'auteur. Pour soutenir et protéger la mission IC, l'objectif du programme HIATUS est de développer des outils multilingues pour attribuer

la paternité et protéger la vie privée des auteurs. Ces outils doivent mettre en œuvre de nouvelles techniques d'intelligence artificielle explicables pour fournir des résultats fiables et vérifiables aux utilisateurs humains, quels que soient les antécédents de l'auteur ou le genre, le sujet et la longueur du document.



Le programme HIATUS considère l'attribution de la paternité et la confidentialité comme différents aspects du même défi sous-jacent*: comprendre la variation linguistique au niveau de l'auteur en élucidant les identifiants stables des auteurs individuels à travers divers types de textes. Le programme met en concurrence les systèmes d'attribution de la paternité et de confidentialité des artistes interprètes ou exécutants. Les équipes d'interprètes s'affrontent pour générer des représentations plus fidèles entre les empreintes linguistiques uniques des auteurs individuels.



Les systèmes performants sont soumis aux équipes de test et d'évaluation (T&E) de HIATUS pour une évaluation à l'aveugle par rapport aux systèmes de l'équipe adverse sur un ensemble de données séquestré comprenant des documents multilingues représentant diverses caractéristiques de texte et d'auteur. Les systèmes d'attribution sont évalués en fonction de leur capacité à faire correspondre des éléments du même auteur dans de grandes collections, tandis que les systèmes de confidentialité sont évalués en fonction de leur capacité à contrecarrer les systèmes d'attribution. L'explicabilité du système sera évaluée à l'aide d'un protocole développé par les interprètes, les équipes T&E et les partenaires gouvernementaux au début du programme. Le programme HIATUS débute fin 2022 et a une durée de 42 mois.

Une approche technique qui rappelle celle des GAN

Écrire de manière anonyme ne cachera peut-être pas votre identité plus longtemps si le dernier projet d'intelligence artificielle du gouvernement américain s'avère un succès.Le bureau du directeur du renseignement national a annoncé un nouveau projet d'IA géré par l'Intelligence Advanced Research Projects Activity (IARPA), qui se concentre sur la technologie des empreintes numériques de langages. L'IARPA se décrit comme investissant dans « des programmes de recherche à haut risque et à haut rendement pour relever certains des défis les plus difficiles des agences et des disciplines de la communauté du renseignement », et cela compte certainement pour un.Il s'agit du programme HIATUS (Human Interpretable Attribution of Text Using Underlying Structure) qui vise à faire progresser la technologie du langage humain au point où les auteurs peuvent être identifiés simplement par leur style d'écriture. L'objectif est que HIATUS soit multilingue et capable de différencier les auteurs en fonction de caractéristiques stylistiques telles que le choix des mots, la formulation des phrases et l'organisation de l'information.Bien que cela puisse sonner l'alarme pour quiconque souhaite écrire de manière anonyme, l'IARPA souligne que HIATUS peut également protéger une identité. En modifiant automatiquement le modèle de langage d'un auteur connu, il ne devrait pas être possible pour une IA de déterminer qui est un auteur. HIATUS a également pour objectif de pouvoir expliquer aux « utilisateurs novices » comment il peut attribuer un écrit à un auteur spécifique.Avec le bon modèle, l'IARPA pense pouvoir identifier les cohérences dans le style d'un écrivain à travers différents échantillons, modifier ces modèles linguistiques pour anonymiser l'écriture et tout faire d'une manière explicable aux utilisateurs novices, a déclaré ODNI. Les IA HIATUS devraient également être indépendantes de la langue.« Nous avons de fortes chances d'atteindre nos objectifs, de fournir des capacités indispensables à la communauté du renseignement et d'élargir considérablement notre compréhension de la variation du langage humain en utilisant les dernières avancées en linguistique informatique et en apprentissage en profondeur », a déclaré le directeur du programme HIATUS, le Dr Timothy McKinnon.Afin de développer des modèles solides, HIATUS prévoit d'aborder ses objectifs comme une question d'IA contradictoire*: l'attribution de la paternité et l'anonymisation du texte sont les deux faces d'un même problème, et les groupes d'expérimentation HIATUS seront donc opposés les uns aux autres.McKinnon a déclaré qu'une partie de ce que fait HIATUS essaie de démystifier certaines des inconnues autour des modèles de langage neuronal (au centre des efforts de HIATUS), qui, selon lui, fonctionnent bien, mais sont essentiellement des boîtes noires qui fonctionnent sans que leurs développeurs sachent pourquoi ils prennent une décision particulière.Idéalement, a déclaré McKinnon, "lorsque nous procédons à l'attribution ou à la confidentialité des droits d'auteur, nous sommes en mesure de vraiment comprendre pourquoi le système se comporte comme il le fait, et de pouvoir vérifier qu'il ne détecte pas de choses fallacieuses et qu'il fonctionne la bonne chose."En cas de succès, HIATUS pourrait avoir des impacts considérables, allant de la lutte contre les activités d'influence étrangère à l'identification des risques de contre-espionnage et à la protection des auteurs dont le travail pourrait les mettre en danger, a déclaré l'ODNI. McKinnon ajoute que les IA HIATUS peuvent également être en mesure d'identifier si le texte est généré par une machine plutôt que par un auteur humain.Environ 70% des recherches achevées de l'IARPA sont acheminées vers d'autres partenaires gouvernementaux pour la mise en œuvre, dans lesquelles l'IARPA ne sera pas impliquée – tout ce qu'il fait est de développer la technologie, pas de la transformer en quelque chose d'utilisable. Cela dit, les chances sont en faveur de HIATUS, selon l'agence de renseignement.Ne vous attendez pas à ce que cette technologie apparaisse bientôt sous une forme complète : maintenant que HIATUS a démarré, il faudra 42 mois (trois ans et demi) jusqu'à ce que l'expérience se termine, et ce n'est qu'alors que d'autres agences gouvernementales pourront probablement prendre HIATUS pour un tour, si McKinnon et son équipe réussissent.Si vous regardez les images présentées sur le site Web ThisPersonDoesnotExist.com (cette personne n’existe pas), vous pouvez penser être tombé sur des portraits aléatoires de lycée ou des photos issues d’une autre source. Pourtant, chaque photo sur le site a été créée en utilisant un type spécial d'algorithme d'intelligence artificielle appelé(GAN, ou, en français, réseau antagoniste génératif).Chaque fois que le site est rafraîchi, une image débordant de réalisme présente le visage d’une personne. Phillip Wang, ingénieur en logiciel chez Uber, a créé la page pour démontrer les capacités du GAN, puis l'a publiée sur le groupe public "Intelligence artificielle et apprentissage en profondeur".Le code sous-jacent qui a rendu cela possible, intitulé StyleGAN, a été écrit par Nvidia et fait l'objet d'un article qui n'avait pas encore été approuvé par des pairs à cette époque. Ce type de réseau de neurones a le potentiel de révolutionner la technologie du jeu vidéo et de la modélisation 3D, mais, comme presque tout type de technologie, il pourrait également être utilisé à des fins plus sinistres. Rappelons par exemple que les deepfakes, ou des images générées par ordinateur superposées à des images ou des vidéos existantes, peuvent être utilisées pour diffuser de faux récits d’actualité ou d’autres canulars. C’est donc dans un but de sensibilisation que Wang a choisi de faire cette page Web.S’il fallait simplifier, nous pourrions dire que le GAN implique que deux réseaux travaillent l’un contre l’autre. Le premier va être nourri en données brutes qu’il va décomposer. À partir de ces données, il va tenter de créer une image. Il va ensuite soumettre cette image à un autre réseau qui, lui, n’a que des photos ou images réelles dans sa base de données. Ce deuxième réseau va alors juger de l’image et va informer le premier de son jugement. Si l’image ne ressemble pas au résultat attendu, le premier algorithme va recommencer le processus. Si le résultat correspond, il va être informé qu’il est sur la bonne voie et finir par comprendre ce qu’est une bonne image. 