« Cet effort, de ce que nous en pensons, est potentiellement révolutionnaire pour le suivi des campagnes de désinformation, et des choses comme la lutte contre la traite des êtres humains et d'autres activités malveillantes qui se déroulent dans les forums de texte en ligne, et ailleurs en utilisant du texte », a déclaré le Dr Timothy McKinnon dans un récent interview.
McKinnon est le responsable du programme Intelligence Advanced Research Projects Activity qui dirige ce travail, qui est baptisé HIATUS (pour human interpretable attribution of text using underlying structure, littéralement attribution interprétable par l'homme de texte utilisant une structure sous-jacente.
Écrire de manière anonyme ne cachera peut-être pas votre identité plus longtemps si le dernier projet d'intelligence artificielle du gouvernement américain s'avère un succès.
Le bureau du directeur du renseignement national a annoncé un nouveau projet d'IA géré par l'Intelligence Advanced Research Projects Activity (IARPA), qui se concentre sur la technologie des empreintes numériques de langages. L'IARPA se décrit comme investissant dans « des programmes de recherche à haut risque et à haut rendement pour relever certains des défis les plus difficiles des agences et des disciplines de la communauté du renseignement », et cela en représente certainement un.
Il s'agit du programme HIATUS (Human Interpretable Attribution of Text Using Underlying Structure) qui vise à faire progresser la technologie du langage humain au point où les auteurs peuvent être identifiés simplement par leur style d'écriture. L'objectif est que HIATUS soit multilingue et capable de différencier les auteurs en fonction de caractéristiques stylistiques telles que le choix des mots, la formulation des phrases et l'organisation de l'information.
Bien que cela puisse sonner l'alarme pour quiconque souhaite écrire de manière anonyme, l'IARPA souligne que HIATUS peut également protéger une identité. En modifiant automatiquement le modèle de langage d'un auteur connu, il ne devrait pas être possible pour une IA de déterminer qui est un auteur. HIATUS a également pour objectif de pouvoir expliquer aux « utilisateurs novices » comment il peut attribuer un écrit à un auteur spécifique.
Envoyé par Office of the Director of National Intelligence
« Nous avons de fortes chances d'atteindre nos objectifs, de fournir des capacités indispensables à la communauté du renseignement et d'élargir considérablement notre compréhension de la variation du langage humain en utilisant les dernières avancées en linguistique informatique et en apprentissage en profondeur », a déclaré le directeur du programme HIATUS, le Dr Timothy McKinnon.
Afin de développer des modèles solides, HIATUS prévoit d'aborder ses objectifs comme une question d'IA contradictoire : l'attribution de la paternité et l'anonymisation du texte sont les deux faces d'un même problème, et les groupes d'expérimentation HIATUS seront donc opposés les uns aux autres.
Envoyé par IARPA
Idéalement, a déclaré McKinnon, "lorsque nous procédons à l'attribution ou à la confidentialité des droits d'auteur, nous sommes en mesure de vraiment comprendre pourquoi le système se comporte comme il le fait, et de pouvoir vérifier qu'il ne détecte pas de choses fallacieuses et qu'il fonctionne la bonne chose."
En cas de succès, HIATUS pourrait avoir des impacts considérables, allant de la lutte contre les activités d'influence étrangère à l'identification des risques de contre-espionnage et à la protection des auteurs dont le travail pourrait les mettre en danger, a déclaré l'ODNI. McKinnon ajoute que les IA HIATUS peuvent également être en mesure d'identifier si le texte est généré par une machine plutôt que par un auteur humain.
Environ 70% des recherches achevées de l'IARPA sont acheminées vers d'autres partenaires gouvernementaux pour la mise en œuvre, dans lesquelles l'IARPA ne sera pas impliquée – tout ce qu'il fait est de développer la technologie, pas de la transformer en quelque chose d'utilisable. Cela dit, les chances sont en faveur de HIATUS, selon l'agence de renseignement.
Ne vous attendez pas à ce que cette technologie apparaisse bientôt sous une forme complète : maintenant que HIATUS a démarré, il faudra 42 mois (trois ans et demi) jusqu'à ce que l'expérience se termine, et ce n'est qu'alors que d'autres agences gouvernementales pourront probablement prendre HIATUS pour un tour, si McKinnon et son équipe réussissent.
Une approche technique qui rappelle celle des GAN
Si vous regardez les images présentées sur le site Web ThisPersonDoesnotExist.com (cette personne n’existe pas), vous pouvez penser être tombé sur des portraits aléatoires de lycée ou des photos issues d’une autre source. Pourtant, chaque photo sur le site a été créée en utilisant un type spécial d'algorithme d'intelligence artificielle appelé generative adversarial network (GAN, ou, en français, réseau antagoniste génératif).
Chaque fois que le site est rafraîchi, une image débordant de réalisme présente le visage d’une personne. Phillip Wang, ingénieur en logiciel chez Uber, a créé la page pour démontrer les capacités du GAN, puis l'a publiée sur le groupe public "Intelligence artificielle et apprentissage en profondeur".
Le code sous-jacent qui a rendu cela possible, intitulé StyleGAN, a été écrit par Nvidia et fait l'objet d'un article qui n'avait pas encore été approuvé par des pairs à cette époque. Ce type de réseau de neurones a le potentiel de révolutionner la technologie du jeu vidéo et de la modélisation 3D, mais, comme presque tout type de technologie, il pourrait également être utilisé à des fins plus sinistres. Rappelons par exemple que les deepfakes, ou des images générées par ordinateur superposées à des images ou des vidéos existantes, peuvent être utilisées pour diffuser de faux récits d’actualité ou d’autres canulars. C’est donc dans un but de sensibilisation que Wang a choisi de faire cette page Web.
Comment fonctionnent les GAN ?
S’il fallait simplifier, nous pourrions dire que le GAN implique que deux réseaux travaillent l’un contre l’autre. Le premier va être nourri en données brutes qu’il va décomposer. À partir de ces données, il va tenter de créer une image. Il va ensuite soumettre cette image à un autre réseau qui, lui, n’a que des photos ou images réelles dans sa base de données. Ce deuxième réseau va alors juger de l’image et va informer le premier de son jugement. Si l’image ne ressemble pas au résultat attendu, le premier algorithme va recommencer le processus. Si le résultat correspond, il va être informé qu’il est sur la bonne voie et finir par comprendre ce qu’est une bonne image. Une fois qu’il est suffisamment entraîné, il peut en produire à la chaîne.
Sources : DNI, IARPA
Et vous ?
Que pensez-vous d'un tel projet ?
Les objectifs annoncés comme « tracer les campagnes de désinformation et d'autres activités malveillantes en ligne » justifient-ils, selon vous, le déploiement d'un tel arsenal ? Pourquoi ?
Êtes-vous rassuré lorsqu'il est indiqué que la vie privée des auteurs sera protégée ?
Voyez-vous des dérives potentielles ?
Côté technique, que pensez-vous de cette approche qui rappelle celle des GAN ?
Voir aussi :
Microsoft a mis au point une intelligence artificielle capable de trouver des bogues dans le code afin d'aider les développeurs à déboguer leurs applications avec plus de précision et d'efficacité
Une artiste reçoit le premier enregistrement américain connu de droits d'auteur pour une œuvre d'art générée par l'IA, pendant que se tient un vif débat en ligne sur l'éthique de l'art de l'IA