Microsoft s'est engagée à faire un investissement pluriannuel de plusieurs milliards de dollars dans OpenAI afin d'avoir un accès privilégié, ou exclusif dans certains cas, aux différentes technologies d'IA développées par le laboratoire d'IA de San Francisco. Microsoft a déjà intégré une version avancée de ChatGPT dans son moteur de recherche Bing et pourrait faire de même pour certains logiciels de sa suite bureautique Office, notamment Excel et PowerPoint. Désormais, Microsoft semble penser également que les grands modèles de langage (LLM) comme ChatGPT ont la capacité de simplifier à l'avenir la façon dont nous communiquons avec les robots.Lundi, les chercheurs de Microsoft ont publié une étude sur la façon dont ChatGPT peut rationaliser le processus de programmation des commandes logicielles pour contrôler divers robots. « Nous dépendons encore largement du code écrit à la main pour contrôler les robots. L'objectif de cette recherche est de voir si ChatGPT peut penser au-delà du texte, et raisonner sur le monde physique pour aider aux tâches de la robotique. Nous voulons aider les gens à interagir plus facilement avec les robots, sans avoir besoin d'apprendre des langages de programmation complexes ou des détails sur les systèmes robotiques », ont-ils écrit dans un billet de blogue lundi.Techniquement, ChatGPT peut le faire parce que le modèle de langage d'OpenAI a été formé sur d'énormes bibliothèques de textes écrits par des humains, y compris le code de programmes logiciels. ChatGPT a déjà montré qu'il pouvait écrire et déboguer des programmes (même malveillants) dans différentes langues à partir d'invites textuelles. Les chercheurs de Microsoft ont donc décidé de voir s'ils pouvaient appliquer les mêmes capacités à l'écriture de code pour le matériel robotique. Toutefois, le chatbot a eu besoin d'aide à ce stade. « Il s'avère que ChatGPT peut faire beaucoup par lui-même, mais il a encore besoin d'aide », ont écrit les chercheurs.Pour aider ChatGPT à écrire le code informatique correspondant, les chercheurs ont d'abord décrit au programme d'IA les différentes commandes qu'il pourrait utiliser pour contrôler un robot donné. « Nous écrivons un texte d'invite pour ChatGPT qui décrit l'objectif de la tâche tout en indiquant explicitement quelles fonctions de la bibliothèque de haut niveau sont disponibles. L'invite peut également contenir des informations sur les contraintes de la tâche, ou sur la manière dont ChatGPT doit formuler ses réponses », ajoutent les chercheurs. Le billet de blogue indique que les chercheurs ont appliqué cette approche dans plusieurs types de scénarios.L'une des démonstrations consistait à utiliser ChatGPT pour écrire un code informatique permettant de contrôler un drone aérien. L'équipe a d'abord fourni au chatbot un message assez long décrivant les commandes informatiques qu'il pouvait écrire pour contrôler le drone. Ensuite, les chercheurs ont pu formuler des requêtes pour demander à ChatGPT de contrôler le robot de différentes manières. Ils ont notamment demandé à ChatGPT d'utiliser la caméra du drone pour identifier une boisson, comme de l'eau de coco ou une canette de Coca-Cola. Les chercheurs ont déclaré que ChatGPT posait des questions lorsque les instructions étaient ambigües.Il a ensuite généré des structures de code complexes pour le drone, comme un motif en zigzag pour inspecter visuellement les étagères. Dans un cas, l'équipe a dit au chatbot : « prends un selfie en utilisant une surface réfléchissante ». ChatGPT a pu interpréter la demande et écrire un code informatique pour que le drone vole devant un miroir et prenne le selfie. Dans une autre démo, les chercheurs ont utilisé ChatGPT pour écrire un code capable de diriger le bras d'un robot pour construire le logo Microsoft à l'aide de plusieurs blocs de bois. L'article de recherche décrit d'autres expérimentations et les chercheurs ont publié une série de vidéos sur leurs travaux.« ChatGPT déverrouille un nouveau paradigme robotique et permet à un utilisateur (potentiellement non technique) de s'asseoir sur la boucle, en fournissant un retour de haut niveau au grand modèle de langage tout en surveillant les performances du robot. En suivant notre ensemble de principes de conception, ChatGPT peut générer du code pour des scénarios robotiques », expliquent les chercheurs. En d'autres termes, le même type de code pas nécessairement correct produit par Github Copilot, un outil d'IA de génération de code, pourrait être transmis directement à un robot par le biais de ChatGPT pour l'aider à accomplir une mission spécifique.Bien que l'étude montre les potentiels de ChatGPT en robotique, l'approche présente toujours une limite importante : le chatbot ne peut écrire le code informatique du robot que sur la base de l'"invite" initiale ou de la demande textuelle qu'un humain lui donne. Par conséquent, la personne doit expliquer en détail à ChatGPT comment fonctionne l'interface de programmation d'un robot, sinon le chatbot d'IA aura du mal à générer un code informatique applicable. L'article des chercheurs de Microsoft comprend quelques lignes directrices sur la manière d'écrire une invite textuelle efficace pour ChatGPT lorsqu'il s'agit de contrôler des robots ou des drones.L'équipe a également créé une plateforme collaborative open source sur GitHub appelée PromptCraft où chacun peut partager des exemples de stratégies d'invite pour différentes catégories de robotique. En outre, une autre limite est le fait qu'il semble que le robot doit être constamment connecté à ChatGPT. Cela dit, d'un autre côté, l'intégration pourrait déclencher une ère où les robots sont suffisamment intelligents pour comprendre toutes sortes de commandes vocales humaines. Les chercheurs décrivent leur tentative de diriger des robots via ChatGPT dans un document de recherche intitulé "ChatGPT for Robotics : Design Principles and Model Abilities".Cette semaine, deux chercheurs de l'Université de Californie du Sud, Zhisheng Tang et Mayank Kejriwal, ont publié dans la revue ArXiv un article de recherche dans lequel ils remettent en question la capacité de ChatGPT et de DALL-E 2 à faire des déductions sensées sur le monde. Le rapport, intitulé "A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning", conclut que les deux modèles de langage raisonnent de manière incohérente. Les chercheurs de Microsoft reconnaissent que ChatGPT a des limites et ils notent que les résultats du modèle ne doivent pas être appliqués à un robot sans être vérifiés.Ils invitent les autres à faire preuve de prudence lorsqu'ils utilisent ChatGPT pour contrôler un robot. « Nous insistons sur le fait que ces outils ne devraient pas se voir confier le contrôle total du pipeline robotique, en particulier pour les applications critiques en matière de sécurité. Étant donné la propension des LLM (grands modèles de langage) à générer éventuellement des réponses incorrectes, il est assez important d'assurer la qualité de la solution et la sécurité du code avec une supervision humaine avant de l'exécuter sur le robot », ont écrit les chercheurs Sai Vemprala, Rogerio Bonatti, Arthur Bucker et Ashish Kapoor de Microsoft.Source : Microsoft Quel est votre avis sur le sujet ?Que pensez-vous des expériences des chercheurs de Microsoft sur l'utilisation de ChatGPT pour contrôler les robots et les drones ?Pensez-vous que les grands modèles de langages amélioreront à l'avenir l'interaction avec les robots ?Selon vous, peut-on exploiter cette capacité à une plus grande échelle ? Quels en seraient les avantages et les inconvénients ?