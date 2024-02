Le Chief Digital and Artificial Intelligence Office (CDAO) du Pentagone a demandé à Scale AI de produire un moyen fiable de tester et d'évaluer les grands modèles de langage qui peuvent soutenir - et potentiellement perturber - la planification et la prise de décision militaires.Selon une déclaration que la société basée à San Francisco a communiquée, les résultats de ce nouveau contrat d'un an fourniront au CDAO "".Les grands modèles de langage et le domaine général de l'IA générative comprennent des technologies émergentes qui peuvent générer (de manière convaincante mais pas toujours précise) du texte, du code logiciel, des images et d'autres médias, sur la base d'instructions données par l'homme. Ce domaine en évolution rapide est très prometteur pour le ministère de la défense, mais il pose également des défis potentiels inconnus et sérieux. L'année dernière, les dirigeants du Pentagone ont lancé la Task Force Lima au sein de la direction de la guerre algorithmique du CDAO afin d'accélérer la compréhension, l'évaluation et le déploiement de l'intelligence artificielle générative par ses composantes.Le ministère s'appuie depuis longtemps sur des processus de test et d'évaluation (T&E) pour évaluer et garantir que ses systèmes, plateformes et technologies fonctionnent de manière sûre et fiable avant d'être entièrement mis en service. Mais les normes et les politiques de sécurité de l'IA n'ont pas encore été fixées de manière universelle, et les complexités et incertitudes associées aux grands modèles de langage rendent les essais et évaluations encore plus compliqués lorsqu'il s'agit de l'IA générative.D'une manière générale, le T&E permet aux experts de déterminer les performances de base d'un modèle spécifique. Par exemple, pour tester et évaluer un algorithme de vision artificielle qui différencie les images de chiens et de chats de celles d'objets qui ne sont ni des chiens ni des chats, un fonctionnaire peut d'abord l'entraîner avec des millions d'images différentes de ce type d'animaux ainsi que d'objets qui ne sont ni des chiens ni des chats. Ce faisant, l'expert retiendra également un sous-ensemble diversifié de données qui pourra ensuite être présenté à l'algorithme. Il peut ensuite évaluer cet ensemble de données d'évaluation par rapport à l'ensemble de test, ou "", et finalement déterminer les taux d'échec lorsque le modèle n'est pas en mesure de déterminer si un objet est ou n'est pas l'un des classificateurs qu'il tente d'identifier.Les experts de Scale AI adopteront une approche similaire pour le contrôle et l'évaluation des grands modèles de langage, mais comme ils sont génératifs par nature et que la langue anglaise peut être difficile à évaluer, il n'y a pas le même niveau de "" pour ces systèmes complexes. Par exemple, si l'on demande à un LLM de fournir cinq réponses différentes, il se peut que les faits soient généralement exacts dans les cinq cas, mais que des structures de phrases différentes modifient le sens de chaque réponse.Ainsi, une partie des efforts de l'entreprise pour développer le cadre, les méthodes et la technologie que le CDAO peut utiliser pour tester et évaluer de grands modèles de langage consistera à créer des "" - où ils incluent des initiés de la DOD pour demander des paires de réponses et les évaluer par couches d'examen, et s'assurer que chaque réponse est aussi bonne que celle que l'on attendrait d'un humain dans l'armée. L'ensemble du processus sera itératif par nature. Une fois que les ensembles de données relatifs à la connaissance du monde, à la véracité et à d'autres sujets auront été constitués et affinés, les experts pourront évaluer les grands modèles de langage existants par rapport à ces ensembles.À terme, lorsqu'ils disposeront de ces ensembles de données, les experts seront en mesure de procéder à des évaluations et d'établir des fiches de modèle - ou de courts documents fournissant des détails sur le contexte d'utilisation optimale de divers modèles d'apprentissage automatique et des informations permettant de mesurer leurs performances. Les responsables prévoient d'automatiser autant que possible ce développement, de sorte qu'au fur et à mesure que de nouveaux modèles arriveront, il sera possible d'avoir une compréhension de base de leurs performances, des domaines dans lesquels ils seront les plus performants et de ceux dans lesquels ils commenceront probablement à échouer.Plus loin dans le processus, l'objectif ultime est que les modèles envoient essentiellement des signaux aux responsables des CDAO qui les utilisent, s'ils commencent à s'écarter des domaines pour lesquels ils ont été testés.", indique la déclaration de Scale AI.Outre le CDAO, l'entreprise a également établi des partenariats avec Meta, Microsoft, l'armée américaine, la Defense Innovation Unit, OpenAI, General Motors, Toyota Research Institute, Nvidia et d'autres. "", a déclaré Alexandr Wang, fondateur et PDG de Scale AI, dans le communiqué.: Scale AIPensez-vous que cet accord est crédible ou pertinent ?Quel est votre avis sur le sujet ?