IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google dévoile PaLM-E, un modèle d'IA de type ChatGPT, qui prend en compte les besoins de l'utilisateur,
Une similitude est dégagée dans le récent article de Microsoft intitulé "ChatGPT for Robotic"

Le , par Bruno

82PARTAGES

4  0 
Un groupe de chercheurs en intelligence artificielle de Google et de l'université technique de Berlin a dévoilé le 6 mars le PaLM-E, un modèle multimodal de langage visuel incarné (VLM) avec 562 milliards de paramètres qui intègre la vision et le langage pour le contrôle robotique. Ils affirment qu'il s'agit du plus grand VLM jamais développé et qu'il peut effectuer une variété de tâches sans avoir besoin d'être réentraîné. Dans le même temps, l’objectif prononcé par Microsoft pour cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques.

Selon Google, lorsqu'il reçoit une commande de haut niveau, telle que « apporte-moi les chips de riz du tiroir », le PaLM-E peut générer un plan d'action pour une plateforme robotique mobile dotée d'un bras (développée par Google Robotics) et exécuter les actions par lui-même. Pour ce faire, PaLM-E analyse les données de la caméra du robot sans avoir besoin d'une représentation prétraitée de la scène. Il n'est donc pas nécessaire qu'un humain prétraite ou annote les données, ce qui permet un contrôle robotique plus autonome.

Il est également résistant et peut réagir à son environnement. Par exemple, le modèle PaLM-E peut guider un robot pour qu'il aille chercher un sac de chips dans une cuisine - et avec PaLM-E intégré dans la boucle de contrôle, il devient résistant aux interruptions qui peuvent survenir pendant la tâche. Dans un exemple vidéo, un chercheur saisit les chips du robot et les déplace, mais le robot localise les chips et les saisit à nouveau.

« Notre plus grand modèle, PaLM-E-562B avec 562B paramètres, en plus d'être entraîné sur des tâches robotiques, est un généraliste du langage visuel avec des performances de pointe sur OK-VQA, et conserve des capacités de langage généraliste avec l'augmentation de l'échelle », Google.

Nombre de paramètres dans les systèmes d'intelligence artificielle notable


Les paramètres sont des variables d'un système d'intelligence artificielle dont les valeurs sont ajustées au cours de la formation pour déterminer comment les données d'entrée sont transformées en sortie souhaitée ; par exemple, les poids de connexion dans un réseau neuronal artificiel.

Il a été démontré que les grands modèles de langage permettent d'effectuer des tâches complexes. Cependant, pour permettre une inférence générale dans le monde réel, par exemple pour les problèmes de robotique, il faut relever le défi de l'ancrage. Les chercheurs en intelligence artificielle de Google proposent des modèles de langage incarnés pour incorporer directement les modalités des capteurs continus du monde réel dans les modèles de langage et établir ainsi le lien entre les mots et les percepts.

Les données d'entrée de notre modèle de langage incarné sont des phrases multimodales qui intègrent des encodages d'entrée visuels, textuels et d'estimation d'état continu. Nous entraînons ces encodages de bout en bout, en conjonction avec un grand modèle de langage pré-entraîné, pour de multiples tâches incarnées, y compris la planification de manipulations robotiques séquentielles, la réponse à des questions visuelles et le sous-titrage.

L’évaluation montre que PaLM-E, un grand modèle multimodal unique, peut traiter une variété de tâches de raisonnement intégré, à partir d'une variété de modalités d'observation, sur des incarnations multiples, et qu'il présente en outre un transfert positif : le modèle bénéficie d'un entraînement conjoint diversifié dans les domaines du langage, de la vision et du langage visuel à l'échelle de l'internet.

Approche

L'idée architecturale principale de PaLM-E est d'injecter des observations continues et incarnées telles que des images, des estimations d'état ou d'autres modalités de capteurs dans l'espace d'intégration du langage d'un modèle de langage pré-entraîné. Pour ce faire, les observations continues sont encodées dans une séquence de vecteurs ayant la même dimension que l'espace d'intégration des jetons de langage.

Les informations continues sont donc injectées dans le modèle de langage de manière analogue aux jetons de langage. PaLM-E est un LLM pour décodeur uniquement qui génère des compléments textuels de manière autorégressive à partir d'un préfixe ou d'une invite. Les chercheurs en intelligence artificielle de Google et de l'université technique montrent comment PaLM-E peut être utilisé pour planifier et exécuter des tâches à long terme sur deux incarnations réelles différentes. Veuillez noter que tous ces résultats ont été obtenus en utilisant le même modèle entraîné sur toutes les données.

Dans un autre exemple, le même modèle PaLM-E contrôle de manière autonome un robot dans des tâches aux séquences complexes qui nécessitaient auparavant un support humain. Le document de recherche de Google explique comment le PaLM-E transforme les instructions en actions :

Nous démontrons les performances de PaLM-E sur des tâches de copie mobile difficiles et variées. Nous suivons largement la configuration de Ahn et al. (2022), où le robot doit planifier une séquence d'actions de navigation et de manipulation sur la base d'une instruction donnée par un humain. Par exemple, étant donné l'instruction "J'ai renversé mon verre, peux-tu m'apporter quelque chose pour le nettoyer ?", le robot doit planifier une séquence contenant "

1. trouver une éponge,
2. ramasser l'éponge,
3. l'apporter à l'utilisateur,
4. poser l'éponge".

Inspirés par ces tâches, nous développons 3 cas d'utilisation pour tester les capacités de raisonnement incarné de PaLM-E : la prédiction d'affordance, la détection d'échec et la planification à long terme. Les politiques de bas niveau proviennent de RT-1 (Brohan et al., 2022), un modèle de transformateur qui prend une image RVB et des instructions en langage naturel, et produit des commandes de contrôle de l'effecteur.

Outre le transformateur robotique RT-1, PaLM-E s'inspire des travaux antérieurs de Google sur ViT-22B, un modèle de transformateur de vision révélé en février. ViT-22B a été entraîné à diverses tâches visuelles, telles que la classification d'images, la détection d'objets, la segmentation sémantique et le sous-titrage d'images.
Le transformateur robotique RT-1

D'importantes avancées récentes dans de multiples sous-domaines de la recherche sur l'apprentissage automatique, tels que la vision par ordinateur et le traitement du langage naturel, ont été rendues possibles par une approche commune partagée qui exploite des ensembles de données vastes et diversifiés et des modèles expressifs capables d'absorber toutes les données de manière efficace. Bien qu'il y ait eu plusieurs tentatives d'application de cette approche à la robotique, les robots n'ont pas encore tiré parti de modèles à haute capacité aussi bien que d'autres sous-domaines.


Architecture du RT-1 : Le modèle prend en entrée un texte d'instruction et un ensemble d'images, les encode sous forme de jetons via un modèle FiLM EfficientNet pré-entraîné et les compresse via TokenLearner. Ces éléments sont ensuite introduits dans le transformateur, qui produit des jetons d'action.

Plusieurs facteurs contribuent à ce défi. Tout d'abord, il y a le manque de données robotiques diversifiées et à grande échelle, qui limite la capacité d'un modèle à absorber un large éventail d'expériences robotiques. La collecte de données est particulièrement coûteuse et difficile pour la robotique, car la constitution d'ensembles de données nécessite des opérations autonomes lourdes en ingénierie, ou des démonstrations collectées à l'aide de téléopérations humaines. Un deuxième facteur est le manque de modèles d'inférence expressifs, évolutifs et suffisamment rapides pour le temps réel, capables d'apprendre à partir de tels ensembles de données et de généraliser efficacement.

Pour relever ces défis, les chercheurs de Google proposent le Robotics Transformer 1 (RT-1), un modèle multi-tâches qui symbolise les entrées du robot et les actions de sortie (par exemple, les images de la caméra, les instructions de tâche et les commandes du moteur) pour permettre une inférence efficace en cours d'exécution, ce qui rend le contrôle en temps réel faisable.

Ce modèle est entraîné sur un ensemble de données robotiques réelles à grande échelle de 130 000 épisodes couvrant plus de 700 tâches, collectées à l'aide d'une flotte de 13 robots d'Everyday Robots (EDR) sur une période de 17 mois. Ils démontrent que RT-1 peut présenter une généralisation zéro-shot significativement améliorée à de nouvelles tâches, environnements et objets par rapport aux techniques antérieures.

En outre, ils évaluent et éliment soigneusement de nombreux choix de conception dans le modèle et l'ensemble d'entraînement, en analysant les effets de la tokenisation, de la représentation des actions et de la composition de l'ensemble de données. Enfin, ils mettent le code RT-1 en libre accès et espèrent qu'il constituera une ressource précieuse pour les recherches futures sur l'intensification de l'apprentissage des robots.

Google et Microsoft en course pour l’avenir de l’IA

Google rivalise Microsoft avec Bard

Google semble également préoccupé par le maintien de sa domination dans le domaine de la recherche. Le moteur de recherche de Google représentait plus de 91 % du marché mondial de la recherche au cours des 12 derniers mois, tandis que Bing représentait environ 3 %, selon les données de SimilarWeb.

En réponse à Microsoft qui serait fermement lié à OpenAI, Google a dévoilé Bard, son alternative à ChatGPT qui a pour objectif d’améliorer son moteur de recherche et surtout de rattraper son retard par rapport à OpenAI. Google pourrait s'être par ailleurs tourné vers une entreprise moins connue du nom d'Anthropic et fondée par d'anciens employés d'OpenAI.

Le géant de Mountain View a investi approximativement 300 millions de dollars dans la startup d'intelligence artificielle Anthropic, ce qui en fait le dernier géant de la technologie à mettre son argent et sa puissance de calcul au service d'une nouvelle génération d'entreprises qui tentent de se faire une place dans le domaine en plein essor de l'"IA générative".

« L'IA est la technologie la plus profonde sur laquelle nous travaillons aujourd'hui. Qu'il s'agisse d'aider les médecins à détecter les maladies plus tôt ou de permettre aux gens d'accéder aux informations dans leur propre langue, l'IA aide les personnes, les entreprises et les communautés à libérer leur potentiel. Et elle ouvre de nouvelles possibilités qui pourraient améliorer considérablement la vie de milliards de personnes. C'est pourquoi nous avons réorienté l'entreprise autour de l'IA il y a six ans, et pourquoi nous la considérons comme le moyen le plus important de remplir notre mission : organiser les informations du monde et les rendre universellement accessibles et utiles.

Depuis lors, nous avons continué à investir dans l'IA dans tous les domaines, et Google AI et DeepMind font progresser l'état de l'art. Aujourd'hui, l'échelle des plus grands calculs d'IA double tous les six mois, dépassant de loin la loi de Moore. Dans le même temps, l'IA générative avancée et les grands modèles de langage captent l'imagination des gens dans le monde entier. En fait, notre projet de recherche Transformer et notre article définissant le domaine en 2017, ainsi que nos avancées importantes dans les modèles de diffusion, sont désormais à la base de nombreuses applications d'IA générative que vous commencez à voir aujourd'hui. »

Bard cherche à combiner l'étendue des connaissances mondiales avec la puissance, l'intelligence et la créativité des grands modèles linguistiques de Google. Il s'appuie sur des informations provenant du web pour fournir des réponses qui seraient de qualité. Selon Google, Bard peut être un exutoire pour la créativité et une rampe de lancement pour la curiosité, en aidant à « expliquer les nouvelles découvertes du télescope spatial James Webb de la NASA à un enfant de 9 ans », ou à en savoir plus sur les meilleurs attaquants de football du moment, puis à obtenir des exercices pour développer vos compétences. En d’autres termes, Bard fait exactement ce que fait ChatGPT.

Microsoft innove son moteur de recherche avec ChatGPT

Un jour après l’annonce de Google, Microsoft présente son nouveau Bing mais qui lui repose sur la technologie de ChatGPT. L’objectif : lancer une nouvelle expérience de recherche qui pourrait permettre à la firme de faire sortir son moteur de recherche de l’ombre de Google. La nouvelle expérience Bing est l'aboutissement de quatre percées techniques :

  • Un modèle OpenAI de nouvelle génération : Microsoft annonce que le nouveau Bing fonctionne avec un nouveau modèle OpenAI de nouvelle génération, plus puissant que ChatGPT et spécialement conçu pour la recherche. Il reprend les principaux enseignements et avancées de ChatGPT et GPT-3.5 et il est encore plus rapide, plus précis et plus performant ;
  • Le modèle Prometheus de Microsoft : Microsoft développe une méthode de travail propriétaire avec le modèle OpenAI qui permet d'exploiter au mieux sa puissance. Elle appelle cet ensemble de capacités et de techniques le modèle Prometheus. Cette combinaison donne des résultats plus pertinents, opportuns et ciblés, avec une sécurité accrue ;
  • Application de l'IA à l'algorithme de recherche principal : Microsoft a également appliqué le modèle d'IA à notre principal moteur de classement des recherches Bing, ce qui a entraîné le plus grand bond en avant de la pertinence en vingt ans. Grâce à ce modèle d'IA, même les requêtes de recherche de base sont plus précises et plus pertinentes ;
  • Nouvelle expérience utilisateur : Microsoft repense la façon dont les utilisateurs interagissent avec la recherche, le navigateur et le chat en les regroupant en une expérience unifiée. Cela pourrait débloquer une toute nouvelle manière d'interagir avec le web.

Microsoft en profite aussi pour intégrer de nouvelles fonctions d’IA à Edge, son navigateur web. Elle a mis à jour le navigateur Edge avec de nouvelles capacités d'IA et une nouvelle apparence, et a ajouté deux nouvelles fonctionnalités : Chat et compose. Grâce à la barre latérale Edge, il est possible de demander un résumé d'un long rapport financier pour en obtenir les principaux éléments, puis utiliser la fonction de chat pour demander une comparaison avec les données financières d'une entreprise concurrente et les placer automatiquement dans un tableau. Il est de plus possible de demander à Edge de l’aide à composer du contenu, comme un post LinkedIn, en lui donnant quelques invites pour commencer.

Sam Altman, le PDG d’OpenAI, qui a traité du moteur de recherche de Google dans une interview de « monopole de recherche léthargique » a déclaré qu'il voyait d'énormes avantages à la décision de Microsoft d'intégrer la technologie d'OpenAI dans son moteur de recherche. Toutefois, le PDG d'OpenAI a ajouté qu'il est difficile de dire comment Google s'adaptera à cette technologie.

Depuis la sortie de la dernière version de ChatGPT le 30 novembre, Sundar Pichai, le PDG de Google et de sa société mère Alphabet, a participé à plusieurs réunions centrées sur la stratégie de Google en matière d'IA, en réponse à la menace que le chatbot représentait pour la société de moteurs de recherche de Google, The, rapporte le New York Times.

Microsoft aussi travaille sur le contrôle robotique

Google Robotics n'est pas le seul groupe de recherche à travailler sur le contrôle robotique à l'aide de réseaux neuronaux. Ce travail particulier ressemble au récent article de Microsoft intitulé ChatGPT for Robotics, qui a expérimenté la combinaison de données visuelles et de grands modèles de langage pour le contrôle robotique d'une manière similaire.

Qu’est-ce que ChqtGPT ?

ChatGPT est un grand modèle de langage général (LLM) développé récemment par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées « prompts ».

Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.

Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.

ChatGPT est alimenté par GPT3.5, un LLM entraîné sur le modèle OpenAI 175B parameter foundation et un grand corpus de données textuelles provenant d'Internet via des méthodes d'apprentissage par renforcement et supervisé. Une utilisation anecdotique indique que ChatGPT présente des preuves de raisonnement déductif et de chaîne de pensée, ainsi que des compétences de dépendance à long terme.

« Nous avons étendu les capacités de ChatGPT à la robotique et contrôlé plusieurs plateformes telles que des bras robotisés, des drones et des robots d'assistance à domicile de manière intuitive avec le langage », Microsoft.


Avez-vous déjà voulu dire à un robot ce qu'il doit faire en utilisant vos propres mots, comme vous le feriez pour un humain ? Ne serait-il pas extraordinaire de pouvoir dire à votre robot assistant domestique : « S'il vous plaît, réchauffez mon déjeuner », et qu'il trouve tout seul le four à micro-ondes ? Bien que le langage soit le moyen le plus intuitif d'exprimer nos intentions, nous dépendons encore largement du code écrit à la main pour contrôler les robots. L’équipe de Microsoft a étudié comment nous pouvons changer cette réalité et rendre possibles des interactions naturelles entre l'homme et le robot en utilisant le nouveau modèle de langage de l'OpenAI, ChatGPT.

ChatGPT est un modèle de langage entraîné sur un corpus massif de textes et d'interactions humaines, ce qui lui permet de générer des réponses cohérentes et grammaticalement correctes à un large éventail d'invites et de questions. L’objectif prononcé par Microsoft pour cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques.

« Nous voulons aider les gens à interagir plus facilement avec les robots, sans avoir besoin d'apprendre des langages de programmation complexes ou des détails sur les systèmes robotiques. Le défi principal est d'enseigner à ChatGPT comment résoudre des problèmes en tenant compte des lois de la physique, du contexte, de l'environnement opérationnel et de la façon dont les actions physiques du robot peuvent changer l'état du monde. Il s'avère que ChatGPT peut faire beaucoup par lui-même, mais il a encore besoin d'aide », Microsoft.

Les défis de la robotique aujourd'hui, et comment ChatGPT peut aider

Les filières robotiques actuelles commencent par un ingénieur ou un utilisateur technique qui doit traduire les exigences de la tâche en code pour le système. L'ingénieur reste dans la boucle, ce qui signifie qu'il doit écrire de nouveaux codes et spécifications pour corriger le comportement du robot. Dans l'ensemble, ce processus est lent (l'utilisateur doit écrire un code de bas niveau), coûteux (il nécessite des utilisateurs hautement qualifiés ayant une connaissance approfondie de la robotique) et inefficace (il faut de multiples interactions pour que les choses fonctionnent correctement).


ChatGPT débloque un nouveau paradigme robotique et permet à un utilisateur (potentiellement non technique) de s'asseoir sur la boucle, en fournissant un retour d'information de haut niveau au grand modèle de langage (LLM) tout en surveillant les performances du robot. En suivant son ensemble de principes de conception, ChatGPT peut générer du code pour des scénarios robotiques. Sans aucun réglage fin, nous exploitons les connaissances du LLM pour contrôler différents facteurs de forme de robots pour une variété de tâches. Dans leur travail, les chercheurs de Microsoft montrent plusieurs exemples de ChatGPT résolvant des énigmes robotiques, ainsi que des déploiements de robots complexes dans le domaine de la manipulation, de l'aérien et de la navigation.

Robotique avec ChatGPT : principes de conception

La rédaction de messages-guides pour les LLM est une science très empirique. En procédant par essais et erreurs, nous avons élaboré une méthodologie et un ensemble de principes de conception pour la rédaction de messages-guides destinés à des tâches robotiques :


  1. Tout d'abord, les chercheurs définissent un ensemble d'API de haut niveau pour les robots ou une bibliothèque de fonctions. Cette bibliothèque peut être spécifique à un robot particulier, et doit correspondre aux implémentations de bas niveau existantes de la pile de contrôle du robot ou d'une bibliothèque de perception. Il est très important d'utiliser des noms descriptifs pour les API de haut niveau afin que ChatGPT puisse raisonner sur leurs comportements ;
  2. Ensuite, ils écrivent une invite textuelle pour ChatGPT qui décrit l'objectif de la tâche tout en indiquant explicitement quelles fonctions de la bibliothèque de haut niveau sont disponibles. L'invite peut également contenir des informations sur les contraintes de la tâche, ou la manière dont ChatGPT doit formuler ses réponses (langage de codage spécifique, utilisation d'éléments d'analyse auxiliaires) ;
  3. L'utilisateur reste sur la boucle pour évaluer la sortie du code de ChatGPT, soit par une inspection directe, soit en utilisant un simulateur. Si nécessaire, l'utilisateur utilise le langage naturel pour fournir un retour d'information à ChatGPT sur la qualité et la sécurité de la réponse ;
  4. Lorsque l'utilisateur est satisfait de la solution, le code final peut être déployé sur le robot.

Robotique mise à part, les chercheurs de Google ont observé plusieurs effets intéressants qui découlent apparemment de l'utilisation d'un grand modèle de langage comme noyau de PaLM-E. Tout d'abord, il présente un "transfert positif", ce qui signifie qu'il peut transférer les connaissances et les compétences qu'il a apprises d'une tâche à l'autre, ce qui se traduit par des « performances nettement supérieures » à celles des modèles de robots à tâche unique.

Ils ont également observé une tendance liée à l'échelle du modèle : « Plus le modèle linguistique est grand, plus il conserve ses capacités linguistiques lors de l'entraînement à des tâches de langage visuel et de robotique - quantitativement, le modèle 562B PaLM-E conserve presque toutes ses capacités linguistiques.



Les chercheurs affirment que PaLM-E présente des potentialités émergentes telles que le raisonnement multimodal par chaîne de pensée (qui permet au modèle d'analyser une séquence d'entrées comprenant à la fois des informations linguistiques et visuelles) et l'inférence multi-images (qui utilise plusieurs images en tant qu'entrées pour faire une inférence ou une prédiction), bien qu'il ait été entraîné sur des messages-guides à une seule image.

En ce sens, PaLM-E semble poursuivre la tendance à l'émergence de surprises au fur et à mesure que les modèles d'apprentissage profond deviennent plus complexes au fil du temps. Les chercheurs de Google prévoient d'explorer d'autres applications de PaLM-E dans des scénarios réels tels que la domotique ou la robotique industrielle. Ils espèrent que PaLM-E inspirera d'autres recherches sur le raisonnement multimodal et l'IA incarnée.

Sources : Google, Microsoft

Et vous ?

Quel est votre avis sur le sujet ?

Microsoft souhaite voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques. Quelle appréciation faites-vous de cet objectif ?

La course entre Microsoft et Google pour le contrôle de l'IA est-elle bonne ou mauvaise ?

Voir aussi :

Google investit 300 M$ dans la start-up d'IA Anthropic, fondée par d'anciens chercheurs d'OpenAI, la société a construit son propre chatbot généraliste, un rival de ChatGPT nommé Claude

Le fondateur de ChatGPT accuse Google d'être un « monopole de recherche léthargique », alors que la guerre de l'intelligence artificielle entre le Google et Microsoft s'intensifie

Une erreur dans cette actualité ? Signalez-nous-la !