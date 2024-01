Résumé



En plus de montrer empiriquement l'efficacité de la génération de preuves complètes, de la réparation et de l'ajout de contexte, nous montrons que Baldur améliore l'outil de pointe, Thor, en générant automatiquement des preuves pour 8,7 % supplémentaires des théorèmes. Ensemble, Baldur et Thor peuvent prouver 65,7 % des théorèmes de manière entièrement automatique. Cet article ouvre la voie à de nouvelles recherches sur l'utilisation de grands modèles de langage pour automatiser la vérification formelle.

Une équipe d'informaticiens dirigée par l'université du Massachusetts Amherst a récemment annoncé une nouvelle méthode pour générer automatiquement des preuves entières qui peuvent être utilisées pour prévenir les bogues de logiciels et vérifier que le code sous-jacent est correct. Cette nouvelle méthode, appelée Baldur, exploite la puissance de l'intelligence artificielle des grands modèles de langage (LLM) et, lorsqu'elle est associée à l'outil de pointe Thor, elle permet d'obtenir une efficacité sans précédent de près de 66 %. L'équipe s'est récemment vu décerner le prix très convoité de l'article distingué lors de la conférence européenne conjointe de l'ACM sur le génie logiciel et du symposium sur les fondements du génie logiciel.", déclare Yuriy Brun, professeur au Manning College of Information and Computer Sciences de l'UMass Amherst et auteur principal de l'article.Les effets d'un logiciel bogué peuvent aller de l'ennui - formatage défectueux ou plantage soudain - à la catastrophe potentielle lorsqu'il s'agit de failles de sécurité ou de logiciels de précision utilisés pour l'exploration spatiale ou pour le contrôle d'appareils de soins de santé.Bien entendu, il existe des méthodes de vérification des logiciels depuis que ceux-ci existent. L'une des méthodes les plus répandues est la plus simple : un être humain parcourt le code, ligne par ligne, et vérifie manuellement qu'il n'y a pas d'erreurs. Vous pouvez également exécuter le code et le comparer à ce que vous attendez de lui. Si, par exemple, vous vous attendez à ce que votre logiciel de traitement de texte coupe la ligne chaque fois que vous appuyez sur la touche "retour", mais qu'il affiche à la place un point d'interrogation, vous savez que quelque chose dans le code ne va pas.Le problème de ces deux méthodes est qu'elles sont sujettes à l'erreur humaine et que la vérification de tous les problèmes possibles prend énormément de temps, est très coûteuse et n'est pas réalisable pour des systèmes autres que triviaux.Une méthode beaucoup plus complète, mais plus difficile, consiste à générer une preuve mathématique montrant que le code fait ce qu'il est censé faire, puis à utiliser un prouveur de théorème pour s'assurer que la preuve est également correcte. Cette méthode s'appelle le "".Mais la rédaction manuelle de ces preuves prend énormément de temps et nécessite une grande expertise. "", explique Emily First, auteur principal de l'article, qui a effectué cette recherche dans le cadre de sa thèse de doctorat à l'UMass Amherst.Avec l'essor des LLM, dont ChatGPT est l'exemple le plus célèbre, une solution possible est d'essayer de générer ces preuves automatiquement. Cependant, "".D'abord, l'équipe de Baldur, qui a effectué ses travaux chez Google, a utilisé Minerva, un LLM formé sur un vaste corpus de textes en langage naturel, puis l'a affiné sur 118 Go d'articles scientifiques mathématiques et de pages web contenant des expressions mathématiques. Ensuite, elle a affiné le LLM sur un langage, appelé Isabelle/HOL, dans lequel les preuves mathématiques sont écrites. Baldur a ensuite généré une preuve complète et a travaillé en tandem avec le prouveur de théorèmes pour vérifier son travail. Lorsque le prouveur de théorèmes détectait une erreur, il renvoyait la preuve, ainsi que les informations relatives à l'erreur, au LLM, afin qu'il puisse tirer les leçons de son erreur et générer une nouvelle preuve, que l'on espère exempte d'erreurs.Ce processus permet d'obtenir une augmentation remarquable de la précision. L'outil de pointe pour la génération automatique de preuves s'appelle Thor, qui peut générer des preuves dans 57 % des cas. Lorsque Baldur (le frère de Thor, selon la mythologie nordique) est associé à Thor, les deux peuvent générer des preuves dans 65,7 % des cas.Bien qu'il subsiste un grand nombre d'erreurs, Baldur est de loin le moyen le plus efficace et le plus efficient jamais conçu pour vérifier l'exactitude d'un logiciel, et à mesure que les capacités de l'IA s'étendent et s'affinent, l'efficacité de Baldur devrait s'accroître.Outre First et Brun, l'équipe comprend Markus Rabe, employé par Google à l'époque, et Talia Ringer, professeur adjoint à l'université de l'Illinois-Urbana Champaign. Ces travaux ont été réalisés chez Google et soutenus par la Defense Advanced Research Projects Agency et la National Science Foundation.Source : Etude réalisée par les chercheurs Emily First, Yuriy Brun, Markus Rabe et Talia Ringer Que pensez-vous de Baldur ?Trouvez-vous cette étude crédible ou pertinente ?