Le Chief Digital and Artificial Intelligence Office (CDAO) du Pentagone a demandé à Scale AI de produire un moyen fiable de tester et d'évaluer les grands modèles de langage qui peuvent soutenir - et potentiellement perturber - la planification et la prise de décision militaires.
Selon une déclaration que la société basée à San Francisco a communiquée, les résultats de ce nouveau contrat d'un an fourniront au CDAO "un cadre permettant de déployer l'IA en toute sécurité en mesurant les performances des modèles, en offrant un retour d'information en temps réel aux combattants et en créant des ensembles d'évaluation spécialisés pour le secteur public afin de tester les modèles d'IA pour des applications de soutien militaire, telles que l'organisation des conclusions des rapports d'action après coup".
Les grands modèles de langage et le domaine général de l'IA générative comprennent des technologies émergentes qui peuvent générer (de manière convaincante mais pas toujours précise) du texte, du code logiciel, des images et d'autres médias, sur la base d'instructions données par l'homme. Ce domaine en évolution rapide est très prometteur pour le ministère de la défense, mais il pose également des défis potentiels inconnus et sérieux. L'année dernière, les dirigeants du Pentagone ont lancé la Task Force Lima au sein de la direction de la guerre algorithmique du CDAO afin d'accélérer la compréhension, l'évaluation et le déploiement de l'intelligence artificielle générative par ses composantes.
Le ministère s'appuie depuis longtemps sur des processus de test et d'évaluation (T&E) pour évaluer et garantir que ses systèmes, plateformes et technologies fonctionnent de manière sûre et fiable avant d'être entièrement mis en service. Mais les normes et les politiques de sécurité de l'IA n'ont pas encore été fixées de manière universelle, et les complexités et incertitudes associées aux grands modèles de langage rendent les essais et évaluations encore plus compliqués lorsqu'il s'agit de l'IA générative.
D'une manière générale, le T&E permet aux experts de déterminer les performances de base d'un modèle spécifique. Par exemple, pour tester et évaluer un algorithme de vision artificielle qui différencie les images de chiens et de chats de celles d'objets qui ne sont ni des chiens ni des chats, un fonctionnaire peut d'abord l'entraîner avec des millions d'images différentes de ce type d'animaux ainsi que d'objets qui ne sont ni des chiens ni des chats. Ce faisant, l'expert retiendra également un sous-ensemble diversifié de données qui pourra ensuite être présenté à l'algorithme. Il peut ensuite évaluer cet ensemble de données d'évaluation par rapport à l'ensemble de test, ou "vérité de base", et finalement déterminer les taux d'échec lorsque le modèle n'est pas en mesure de déterminer si un objet est ou n'est pas l'un des classificateurs qu'il tente d'identifier.
Les experts de Scale AI adopteront une approche similaire pour le contrôle et l'évaluation des grands modèles de langage, mais comme ils sont génératifs par nature et que la langue anglaise peut être difficile à évaluer, il n'y a pas le même niveau de "vérité de terrain" pour ces systèmes complexes. Par exemple, si l'on demande à un LLM de fournir cinq réponses différentes, il se peut que les faits soient généralement exacts dans les cinq cas, mais que des structures de phrases différentes modifient le sens de chaque réponse.
Ainsi, une partie des efforts de l'entreprise pour développer le cadre, les méthodes et la technologie que le CDAO peut utiliser pour tester et évaluer de grands modèles de langage consistera à créer des "ensembles de données d'attente" - où ils incluent des initiés de la DOD pour demander des paires de réponses et les évaluer par couches d'examen, et s'assurer que chaque réponse est aussi bonne que celle que l'on attendrait d'un humain dans l'armée. L'ensemble du processus sera itératif par nature. Une fois que les ensembles de données relatifs à la connaissance du monde, à la véracité et à d'autres sujets auront été constitués et affinés, les experts pourront évaluer les grands modèles de langage existants par rapport à ces ensembles.
À terme, lorsqu'ils disposeront de ces ensembles de données, les experts seront en mesure de procéder à des évaluations et d'établir des fiches de modèle - ou de courts documents fournissant des détails sur le contexte d'utilisation optimale de divers modèles d'apprentissage automatique et des informations permettant de mesurer leurs performances. Les responsables prévoient d'automatiser autant que possible ce développement, de sorte qu'au fur et à mesure que de nouveaux modèles arriveront, il sera possible d'avoir une compréhension de base de leurs performances, des domaines dans lesquels ils seront les plus performants et de ceux dans lesquels ils commenceront probablement à échouer.
Plus loin dans le processus, l'objectif ultime est que les modèles envoient essentiellement des signaux aux responsables des CDAO qui les utilisent, s'ils commencent à s'écarter des domaines pour lesquels ils ont été testés.
"Ce travail permettra au ministère de la défense de faire évoluer ses politiques d'essais et d'évaluation pour prendre en compte l'IA générative en mesurant et en évaluant les données quantitatives par le biais de l'analyse comparative et en évaluant le retour d'information qualitatif de la part des utilisateurs. Les paramètres d'évaluation aideront à identifier les modèles d'IA générative qui sont prêts à soutenir les applications militaires avec des résultats précis et pertinents en utilisant la terminologie et les bases de connaissances du ministère de la défense. Le processus rigoureux de T&E vise à améliorer la robustesse et la résilience des systèmes d'IA dans des environnements classifiés, permettant l'adoption de la technologie LLM dans des environnements sécurisés", indique la déclaration de Scale AI.
Outre le CDAO, l'entreprise a également établi des partenariats avec Meta, Microsoft, l'armée américaine, la Defense Innovation Unit, OpenAI, General Motors, Toyota Research Institute, Nvidia et d'autres. "Tester et évaluer l'IA générative aidera le DoD à comprendre les forces et les limites de la technologie, afin qu'elle puisse être déployée de manière responsable. Scale est honoré de s'associer au DoD sur ce cadre", a déclaré Alexandr Wang, fondateur et PDG de Scale AI, dans le communiqué.
Source : Scale AI
Et vous ?
Pensez-vous que cet accord est crédible ou pertinent ?
Quel est votre avis sur le sujet ?
Voir aussi :
Le Pentagone accélère l'intégration de l'IA pour maintenir sa compétitivité face à la Chine, avec des indications selon lesquelles les États-Unis développeront des armes autonomes létales
Intelligence artificielle et armement : les présidents Joe Biden et Xi Jinping s'engagent à interdire l'IA dans les armes autonomes, telles que les drones et le contrôle des ogives nucléaires
Les États-Unis lancent une initiative sur l'utilisation de l'IA à des fins militaire, dans un contexte où la Chine ambitionne de devenir la super puissance du monde en matière d'IA