L’Agent peut utiliser des outils pour accéder à Internet et à des documentations, utiliser des API pour contrôler des instruments robotiques et exploiter d’autres modèles de langage pour diverses tâches.
Les chercheurs démontrent la polyvalence et l’efficacité de l’Agent en évaluant ses performances dans trois tâches :
- Rechercher et naviguer efficacement dans des documentations matérielles étendues ;
- Contrôler avec précision des instruments de manipulation de liquides à bas niveau ;
- Résoudre des problèmes complexes qui nécessitent l’utilisation simultanée de plusieurs modules matériels ou l’intégration de sources de données diverses. L’architecture de l’Agent est décrite dans le texte.
Le système utilise les modèles de langage pour générer des hypothèses, des protocoles expérimentaux, des analyses de données et des conclusions. Il peut également interagir avec des humains pour recevoir des feedbacks et apprendre de ses erreurs.
Les chercheurs décrivent l’architecture de l’Agent Intelligent, qui se compose de quatre composants (Figure ci-dessous), pilotés par le Planner. Le Planner prend une consigne comme entrée (par exemple, « Réaliser plusieurs réactions de Suzuki ») et effectue des actions selon cette demande. L’espace d’action comprend l’accès à internet (“GOOGLE”), l’exécution de calculs en Python (“PYTHON”), l’accès à la documentation (“DOCUMENTATION”) et la réalisation de l’expérience finale (“EXPERIMENT”).
Les expériences peuvent être réalisées dans différents environnements : un laboratoire en ligne, un manipulateur de liquides ou des instructions manuelles. Le modèle est chargé de raisonner sur ses actions, de chercher sur internet, de calculer toutes les quantités dans la réaction et de réaliser la réaction correspondante. L’Agent sait qu’en moyenne, il lui faut au moins dix étapes pour comprendre pleinement la tâche demandée. Il n’a pas besoin de poser des questions supplémentaires au fournisseur de la consigne si la description fournie est suffisamment détaillée.
Vue d'ensemble de l'architecture du système. L'agent est composé de plusieurs modules qui échangent des messages. Certains d'entre eux ont accès aux API, à l'internet et à l'interpréteur Python.
Le système d’Agent Intelligent utilise le modèle GPT-4 comme planificateur. Le planificateur peut utiliser des actions pour accéder au web, à la documentation, au code et à l’automatisation. Le rapport montre un exemple de synthèse de l’ibuprofène, où le planificateur recherche sur le web les informations nécessaires, calcule les quantités des réactifs, génère le code pour contrôler le matériel et exécute l’expérience.
Le rapport des chercheurs de Carnegie Mellon University présente un système d’Agent Intelligent capable de réaliser des expériences scientifiques complexes à partir d’une consigne simple. Le système utilise le modèle GPT-4 comme planificateur et d’autres modèles de langage pour accéder au web, à la documentation, au code et à l’automatisation. Le texte donne un exemple de synthèse de l’ibuprofène, une molécule anti-inflammatoire, antalgique et antipyrétique. Le système recherche sur le web les informations nécessaires à la synthèse, calcule les quantités des réactifs, génère le code pour contrôler le matériel et exécute l’expérience. Le texte décrit les différents composants du système et leur fonctionnement.
Le composant Web searcher reçoit les requêtes du planificateur, les transforme en requêtes de recherche Web appropriées et les exécute à l’aide de l’API de recherche Google. Les dix premiers documents renvoyés sont filtrés, à l’exclusion des PDF, et la liste de pages web qui en résulte est renvoyée au composant Web searcher. Ce dernier peut alors utiliser l’action “BROWSE” pour extraire le texte des pages web et compiler une réponse pour le planificateur. Pour cette tâche, le système utilise GPT-3.5, qui est plus rapide que GPT-4 sans perte de qualité appréciable.
Le composant Docs searcher parcourt la documentation matérielle (par exemple, robot de manipulation de liquide, GC-MS, laboratoire en nuage) en utilisant une requête et un index de documentation pour trouver les pages/sections les plus pertinentes. Les résultats les plus pertinents sont ensuite regroupés pour fournir une réponse finale complète et précise. Ce module met l’accent sur la fourniture de paramètres de fonction spécifiques et d’informations syntaxiques pour l’API matérielle.
Le composant Code execution n’utilise aucun modèle de langage et exécute simplement le code dans un conteneur Docker isolé, protégeant la machine hôte finale de toute action inattendue de la part du planificateur. Toutes les sorties de code sont renvoyées au planificateur, ce qui lui permet de corriger ses prédictions en cas d’erreurs logicielles. Le composant “Automation” exécute le code généré sur le matériel correspondant ou fournit juste la procédure synthétique pour l’expérimentation manuelle.
La synthèse de l’ibuprofène se fait en deux étapes : une réaction de Friedel-Crafts entre l’isobutylbenzène et l’anhydride acétique catalysée par le chlorure d’aluminium, suivie d’une hydrolyse basique du produit intermédiaire. Le système trouve ces informations sur un site web particulier et calcule les quantités des réactifs nécessaires. Il génère ensuite le code pour contrôler le robot de manipulation de liquide et réalise l’expérience dans un laboratoire réel. Il collecte et analyse les données avec le GC-MS et vérifie que le produit obtenu est bien l’ibuprofène.
Le rapport montre que le système est capable de réaliser une synthèse organique complexe à partir d’une consigne simple, en utilisant les modèles de langage comme outils de recherche et de génération. Le rapport souligne également les limites du système, comme la volatilité des prédictions ou la nécessité d’une connexion à une base de données chimiques.
Capacités de l'agent dans la tâche de planification de la synthèse. A. Synthèse de l'ibuprofène. B. Synthèse de l'aspirine. C. Étude du mécanisme de la réaction de Suzuki, où l'agent devait choisir comment étudier le mécanisme. D. Synthèse de l'aspartame.
La recherche vectorielle peut être employée pour retrouver une documentation dense sur l'API du matériel
Les chercheurs de la Carnegie Mellon University présentent une méthode pour utiliser la recherche vectorielle pour extraire la documentation de l'API d'Opentrons.16, une API Python pour le matériel. Le but est de fournir à un agent intelligent des descriptions en langage naturel de la documentation qui sont plus faciles à comprendre que le langage technique. Le rapport explique que les modèles de langage comme le GPT-4 peuvent générer ces descriptions, mais qu'ils peuvent être améliorés en utilisant les données les plus récentes de l'API.
Aperçu de la recherche documentaire. A. Prompt-to-(improved OT-2 Python API)-code via ada embedding and distance-based vector search. B. Recommandation de fonction dans le langage symbolique Emerald Cloud Lab via l'ajout d'un guide de documentation.
Dans son rapport, les chercheurs ont présenté un système d'agents intelligents capable de concevoir, de planifier et d'exécuter de manière autonome des expériences scientifiques complexes. Leur système démontre des capacités exceptionnelles de raisonnement et de conception expérimentale, en traitant efficacement des problèmes complexes et en générant un code de haute qualité.
Cependant, le développement de nouveaux systèmes d'apprentissage automatique et de méthodes automatisées pour la réalisation d'expériences scientifiques soulève des préoccupations importantes quant à la sécurité et aux conséquences potentielles d'un double usage, notamment en ce qui concerne la prolifération d'activités illicites et les menaces pour la sécurité. En garantissant une utilisation éthique et responsable de ces outils puissants, les chercheurs peuvent continuer à explorer le vaste potentiel des grands modèles de langage pour faire avancer la recherche scientifique tout en atténuant les risques associés à leur mauvaise utilisation.
Source : Carnegie Mellon University, rapport des chercheurs
Et vous ?
Les résultats présentés par les chercheurs de Carnegie Mellon sont-ils pertinents ?
Quels sont selon vous, les défis et les limites du système présenté en termes de généralisation, de robustesse et de fiabilité ?
À votre avis, quels sont les exemples concrets de problèmes complexes que le système peut traiter efficacement ?
Quels principes et normes éthiques proposez-vous pour guider le développement et l’utilisation du système ?
Quels peuvent être les impacts potentiels du système sur la société, l’environnement et la sécurité ?
Voir aussi :
4chan, le forum anonyme constitué d'un réseau d'échange d'images et d'autres sites web cachés qui façonnent les chatbots d'IA, récupérés dans la méga-bibliothèque de Google pour la formation des ML
82 % des recruteurs n'ont pas réussi à repérer les lettres de motivation produites par ChatGPT et 60 % ont noté une meilleure qualité des candidatures depuis le lancement de l'IA, selon ResumeBuilder
Google crée Google DeepMind, un nouveau groupe de recherche en IA, formé par la fusion de DeepMind et Brain