IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Google dévoile PaLM-E, un modèle d'IA de type ChatGPT, qui prend en compte les besoins de l'utilisateur,
Une similitude est dégagée dans le récent article de Microsoft intitulé "ChatGPT for Robotic"

Le , par Bruno

302PARTAGES

4  0 
Un groupe de chercheurs en intelligence artificielle de Google et de l'université technique de Berlin a dévoilé le 6 mars le PaLM-E, un modèle multimodal de langage visuel incarné (VLM) avec 562 milliards de paramètres qui intègre la vision et le langage pour le contrôle robotique. Ils affirment qu'il s'agit du plus grand VLM jamais développé et qu'il peut effectuer une variété de tâches sans avoir besoin d'être réentraîné. Dans le même temps, l’objectif prononcé par Microsoft pour cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques.

Selon Google, lorsqu'il reçoit une commande de haut niveau, telle que « apporte-moi les chips de riz du tiroir », le PaLM-E peut générer un plan d'action pour une plateforme robotique mobile dotée d'un bras (développée par Google Robotics) et exécuter les actions par lui-même. Pour ce faire, PaLM-E analyse les données de la caméra du robot sans avoir besoin d'une représentation prétraitée de la scène. Il n'est donc pas nécessaire qu'un humain prétraite ou annote les données, ce qui permet un contrôle robotique plus autonome.

Il est également résistant et peut réagir à son environnement. Par exemple, le modèle PaLM-E peut guider un robot pour qu'il aille chercher un sac de chips dans une cuisine - et avec PaLM-E intégré dans la boucle de contrôle, il devient résistant aux interruptions qui peuvent survenir pendant la tâche. Dans un exemple vidéo, un chercheur saisit les chips du robot et les déplace, mais le robot localise les chips et les saisit à nouveau.

« Notre plus grand modèle, PaLM-E-562B avec 562B paramètres, en plus d'être entraîné sur des tâches robotiques, est un généraliste du langage visuel avec des performances de pointe sur OK-VQA, et conserve des capacités de langage généraliste avec l'augmentation de l'échelle », Google.

Nombre de paramètres dans les systèmes d'intelligence artificielle notable


Les paramètres sont des variables d'un système d'intelligence artificielle dont les valeurs sont ajustées au cours de la formation pour déterminer comment les données d'entrée sont transformées en sortie souhaitée ; par exemple, les poids de connexion dans un réseau neuronal artificiel.

Il a été démontré que les grands modèles de langage permettent d'effectuer des tâches complexes. Cependant, pour permettre une inférence générale dans le monde réel, par exemple pour les problèmes de robotique, il faut relever le défi de l'ancrage. Les chercheurs en intelligence artificielle de Google proposent des modèles de langage incarnés pour incorporer directement les modalités des capteurs continus du monde réel dans les modèles de langage et établir ainsi le lien entre les mots et les percepts.

Les données d'entrée de notre modèle de langage incarné sont des phrases multimodales qui intègrent des encodages d'entrée visuels, textuels et d'estimation d'état continu. Nous entraînons ces encodages de bout en bout, en conjonction avec un grand modèle de langage pré-entraîné, pour de multiples tâches incarnées, y compris la planification de manipulations robotiques séquentielles, la réponse à des questions visuelles et le sous-titrage.

L’évaluation montre que PaLM-E, un grand modèle multimodal unique, peut traiter une variété de tâches de raisonnement intégré, à partir d'une variété de modalités d'observation, sur des incarnations multiples, et qu'il présente en outre un transfert positif : le modèle bénéficie d'un entraînement conjoint diversifié dans les domaines du langage, de la vision et du langage visuel à l'échelle de l'internet.

Approche

L'idée architecturale principale de PaLM-E est d'injecter des observations continues et incarnées telles que des images, des estimations d'état ou d'autres modalités de capteurs dans l'espace d'intégration du langage d'un modèle de langage pré-entraîné. Pour ce faire, les observations continues sont encodées dans une séquence de vecteurs ayant la même dimension que l'espace d'intégration des jetons de langage.

Les informations continues sont donc injectées dans le modèle de langage de manière analogue aux jetons de langage. PaLM-E est un LLM pour décodeur uniquement qui génère des compléments textuels de manière autorégressive à partir d'un préfixe ou d'une invite. Les chercheurs en intelligence artificielle de Google et de l'université technique montrent comment PaLM-E peut être utilisé pour planifier et exécuter des tâches à long terme sur deux incarnations réelles différentes. Veuillez noter que tous ces résultats ont été obtenus en utilisant le même modèle entraîné sur toutes les données.

Dans un autre exemple, le même modèle PaLM-E contrôle de manière autonome un robot dans des tâches aux séquences complexes qui nécessitaient auparavant un support humain. Le document de recherche de Google explique comment le PaLM-E transforme les instructions en actions :

Nous démontrons les performances de PaLM-E sur des tâches de copie mobile difficiles et variées. Nous suivons largement la configuration de Ahn et al. (2022), où le robot doit planifier une séquence d'actions de navigation et de manipulation sur la base d'une instruction donnée par un humain. Par exemple, étant donné l'instruction "J'ai renversé mon verre, peux-tu m'apporter quelque chose pour le nettoyer ?", le robot doit planifier une séquence contenant "

1. trouver une éponge,
2. ramasser l'éponge,
3. l'apporter à l'utilisateur,
4. poser l'éponge".

Inspirés par ces tâches, nous développons 3 cas d'utilisation pour tester les capacités de raisonnement incarné de PaLM-E : la prédiction d'affordance, la détection d'échec et la planification à long terme. Les politiques de bas niveau proviennent de RT-1 (Brohan et al., 2022), un modèle de transformateur qui prend une image RVB et des instructions en langage naturel, et produit des commandes de contrôle de l'effecteur.

Outre le transformateur robotique RT-1, PaLM-E s'inspire des travaux antérieurs de Google sur ViT-22B, un modèle de transformateur de vision révélé en février. ViT-22B a été entraîné à diverses tâches visuelles, telles que la classification d'images, la détection d'objets, la segmentation sémantique et le sous-titrage d'images.
Le transformateur robotique RT-1

D'importantes avancées récentes dans de multiples sous-domaines de la recherche sur l'apprentissage automatique, tels que la vision par ordinateur et le traitement du langage naturel, ont été rendues possibles par une approche commune partagée qui exploite des ensembles de données vastes et diversifiés et des modèles expressifs capables d'absorber toutes les données de manière efficace. Bien qu'il y ait eu plusieurs tentatives d'application de cette approche à la robotique, les robots n'ont pas encore tiré parti de modèles à haute capacité aussi bien que d'autres sous-domaines.


Architecture du RT-1 : Le modèle prend en entrée un texte d'instruction et un ensemble d'images, les encode sous forme de jetons via un modèle FiLM EfficientNet pré-entraîné et les compresse via TokenLearner. Ces éléments sont ensuite introduits dans le transformateur, qui produit des jetons d'action.

Plusieurs facteurs contribuent à ce défi. Tout d'abord, il y a le manque de données robotiques diversifiées et à grande échelle, qui limite la capacité d'un modèle à absorber un large éventail d'expériences robotiques. La collecte de données est particulièrement coûteuse et difficile pour la robotique, car la constitution d'ensembles de données nécessite des opérations autonomes lourdes en ingénierie, ou des démonstrations collectées à l'aide de téléopérations humaines. Un deuxième facteur est le manque de modèles d'inférence expressifs, évolutifs et suffisamment rapides pour le temps réel, capables d'apprendre à partir de tels ensembles de données et de généraliser efficacement.

Pour relever ces défis, les chercheurs de Google proposent le Robotics Transformer 1 (RT-1), un modèle multi-tâches qui symbolise les entrées du robot et les actions de sortie (par exemple, les images de la caméra, les instructions de tâche et les commandes du moteur) pour permettre une inférence efficace en cours d'exécution, ce qui rend le contrôle en temps réel faisable.

Ce modèle est entraîné sur un ensemble de données robotiques réelles à grande échelle de 130 000 épisodes couvrant plus de 700 tâches, collectées à l'aide d'une flotte de 13 robots d'Everyday Robots (EDR) sur une période de 17 mois. Ils démontrent que RT-1 peut présenter une généralisation zéro-shot significativement améliorée à de nouvelles tâches, environnements et objets par rapport aux techniques antérieures.

En outre, ils évaluent et éliment soigneusement de nombreux choix de conception dans le modèle et l'ensemble d'entraînement, en analysant les effets de la tokenisation, de la représentation des actions et de la composition de l'ensemble de données. Enfin, ils mettent le code RT-1 en libre accès et espèrent qu'il constituera une ressource précieuse pour les recherches futures sur l'intensification de l'apprentissage des robots.

Google et Microsoft en course pour l’avenir de l’IA

Google rivalise Microsoft avec Bard

Google semble également préoccupé par le maintien de sa domination dans le domaine de la recherche. Le moteur de recherche de Google représentait plus de 91 % du marché mondial de la recherche au cours des 12 derniers mois, tandis que Bing représentait environ 3 %, selon les données de SimilarWeb.

En réponse à Microsoft qui serait fermement lié à OpenAI, Google a dévoilé Bard, son alternative à ChatGPT qui a pour objectif d’améliorer son moteur de recherche et surtout de rattraper son retard par rapport à OpenAI. Google pourrait s'être par ailleurs tourné vers une entreprise moins connue du nom d'Anthropic et fondée par d'anciens employés d'OpenAI.

Le géant de Mountain View a investi approximativement 300 millions de dollars dans la startup d'intelligence artificielle Anthropic, ce qui en fait le dernier géant de la technologie à mettre son argent et sa puissance de calcul au service d'une nouvelle génération d'entreprises qui tentent de se faire une place dans le domaine en plein essor de l'"IA générative".

« L'IA est la technologie la plus profonde sur laquelle nous travaillons aujourd'hui. Qu'il s'agisse d'aider les médecins à détecter les maladies plus tôt ou de permettre aux gens d'accéder aux informations dans leur propre langue, l'IA aide les personnes, les entreprises et les communautés à libérer leur potentiel. Et elle ouvre de nouvelles possibilités qui pourraient...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !