Le langage naturel est le langage de programmation du cerveau, a écrit l'auteur de science-fiction Neal Stephenson dans son roman Snow Crash (1992). Les récentes avancées dans le traitement automatique du langage naturel (NLP) montrent que le langage naturel peut également être le langage de programmation des machines, à mesure qu'elles parviennent à mieux le comprendre. Bien que les grands modèles de langage (LLM) tels que ChatGPT et GPT-3 aient révolutionné le domaine du traitement du langage naturel, ils ont encore beaucoup de mal à accomplir certaines tâches de base comme l'arithmétique et la vérification des faits.
Jeudi dernier, des chercheurs de Meta ont dévoilé Toolformer, un modèle linguistique d'IA capable d'apprendre à utiliser des outils externes tels que des moteurs de recherche, des calculatrices et des calendriers sans sacrifier ses capacités fondamentales de modélisation du langage naturel. D'après l'article de recherche publié par l'équipe, l'approche avec Toolformer est basée sur le concept d'apprentissage en contexte et la génération d'ensembles de données à partir de zéro. À partir de quelques exemples d'utilisation d'une API, Toolformer annote un grand ensemble de données de modélisation du langage avec des appels d'API potentiels.
Grâce à une perte autogérée, le modèle de Meta détermine quels appels d'API sont utiles pour prédire les futurs jetons et s'ajuste en conséquence. Grâce à cette approche, il peut apprendre à contrôler une variété d'outils et à prendre des décisions éclairées sur le moment et la manière de les utiliser. Le modèle conserve ainsi sa généralité et peut décider de manière autonome quand et comment utiliser divers outils, ce qui permet une utilisation plus complète des outils qui n'est pas liée à des tâches spécifiques. L'idée centrale de Toolformer est d'améliorer un modèle de langage en lui donnant la possibilité d'utiliser différents outils via des appels d'API.
Par exemple, les grands modèles de langage sont bien connus pour ne pas être particulièrement bons en arithmétiques. Toolformer peut contourner cette limitation en utilisant un programme de calcul. Ou si quelqu'un souhaite qu'un assistant basé sur un LLM ajoute une date à son calendrier, Toolformer peut se charger de cette tâche en utilisant un lien API vers une application de calendrier. Selon l'équipe de Meta, les outils précédents nécessitaient de grandes quantités d'annotations humaines ou limitaient l'utilisation d'outils externes à des tâches spécifiques. Cela entrave l'utilisation de modèles de langage pour des applications d'outils plus larges.
Selon les chercheurs, Toolformer est basé sur un modèle GPT-J préentraîné avec 6,7 milliards de paramètres. Les expériences menées par les chercheurs sur diverses tâches d'utilisation d'outils semblent démontrer que Toolformer atteint des performances bien supérieures à celles du modèle GPT-3, qui est un modèle de langage plus grand avec 175 milliards de paramètres. Selon les chercheurs de Meta, la capacité d'un modèle de langage à être plus performant avec des outils était évidente dans les tests à partir d'environ 775 millions de paramètres. Les modèles de langage plus petits ont obtenu des résultats similaires avec et sans outils.
Cependant, Toolformer n'a pas surpassé GPT-3 sur les benchmarks QA. « Alors que les modèles deviennent plus aptes à résoudre des tâches sans appel d'API à mesure qu'ils grandissent, leur capacité à faire bon usage de l'API fournie s'améliore en même temps. Par conséquent, il reste un écart important entre les prédictions avec et sans appels d'API, même pour notre plus grand modèle », ont écrit les chercheurs. Selon eux, la capacité Toolformer à utiliser seul des outils externes peut contribuer à résoudre les problèmes fondamentaux des grands modèles de langage, dont la résolution fiable de problèmes mathématiques ou la vérification des faits.
Toutefois, ils ont précisé que le système présente encore des limites. Les outils ne peuvent pas être utilisés de manière séquentielle, par exemple en utilisant la sortie d'un outil comme entrée pour le suivant, car les instructions API de chaque outil sont générées indépendamment. Cela limite les scénarios d'application. En outre, le modèle ne peut pas utiliser les outils de manière interactive. Par exemple, le modèle ne peut pas rechercher parmi les nombreux résultats d'un moteur de recherche et spécifier sa requête en fonction de ces résultats. De plus, l'accès aux outils est sensible à la formulation exacte d'une requête pour décider d'invoquer ou non l'outil.
Le traitement de plus d'un million de documents ne produirait que quelques milliers d'exemples d'appels significatifs à l'API de la calculatrice. En outre, Toolformer ne tient pas compte du coût de calcul d'un appel à l'API. Enfin, la possibilité d'effectuer des appels d'API pourrait également augmenter la capacité d'un grand modèle de langage à endommager les données de l'utilisateur (dans les applications) ou à créer des problèmes dans le monde extérieur (par le biais d'un navigateur Web ou d'outils de communication) - des capacités qu'il pourrait accidentellement invoquer en fournissant une réponse.
Source : Rapport de l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de l'approche des chercheurs de Meta avec Toolformer ?
En quoi l'approche des chercheurs de Meta pourrait-elle améliorer les modèles de langages ?
Voir aussi
Le PDG d'Alphabet demande aux employés de Google de l'aide pour tester son chatbot IA Bard, sa réponse à ChatGPT, à hauteur de 2 à 4 heures
Keanu Reeves affirme que les deepfakes sont "terrifiants" et ajoute que ses contrats de film interdisent les modifications numériques de son jeu d'acteur, l'acteur de Matrix dénonce leur utilisation
OpenAI fait l'objet d'allégations selon lesquelles ils auraient débauché des experts en IA de Google pour leur propre bénéfice au lancement de son outil viral ChatGPT
ChatGPT est un produit cool mais horrible à cause de son indisponibilité lors des surcharges et de l'arrêt soudain de son fonctionnement en cours de traitement, selon le PDG d'OpenAI