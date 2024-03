With OpenAI, Figure 01 can now have full conversations with people



Figure 01 est un robot humanoïde développé par l'entreprise de robotique Figure AI. L'entreprise a récemment une vidéo de démonstration dévoilant pour la première fois les capacités du robot. Dans la nouvelle vidéo, un technicien demande à Figure 01 d'effectuer une série de tâches simples dans un environnement de test minimaliste ressemblant à une cuisine. Il demande d'abord au robot de lui donner quelque chose à manger et se voit remettre une pomme. Ensuite, il demande à Figure 01 d'expliquer pourquoi il lui a tendu une pomme alors qu'il était en train de ramasser des déchets. Le robot répond à toutes ses questions.Le robot a répondu d'une manière étrangement humaine : « je t'ai donné la pomme parce que c'est le seul objet comestible sur la table que je pouvais te donner ». La voix est robotiques, mais semble amicale. Dans la vidéo, Figure AI indique que la conversation est alimentée par une intégration avec la technologie d'OpenAI, qui est à l'origine de ChatGPT. Il est toutefois peu probable que Figure 01 utilise lui-même ChatGPT, car le chatbot n'utilise normalement pas de marqueurs de pause tels que "hum", ce que fait ce robot. Figure 01 a répondu aux questions techniciens du technicien tout en rangeant les déchets sur la table.Ce faisant, le robot démontre sa capacité à accomplir simultanément des tâches physiques et mentales distinctes. L'entreprise affirme que Figure 01 n'est piloté par personne. Il prend des décisions en fonction des stimuli externes qui lui sont présentés. Selon les critiques, cela le place loin devant le robot humanoïde Optimus de Tesla. Optimus peut se marcher lentement comme un humain et effectuer des gestes délicats, notamment tenir un œuf ou faire des squats. En dehors de cela, Optimus semble moins impressionnant jusqu'à présent. Optimus est également encore très en retard sur le robot Atlas de Boston Dynamics.Le système qui fait le travail "mental" dans la vidéo ci-dessus est un modèle de langage visuel (Visual Language Model - VLM) qui a été développé par Figure AI en collaboration avec OpenAI. « Avec OpenAI, Figure 01 peut désormais avoir des conversations complètes avec les gens. Les modèles OpenAI fournissent une intelligence visuelle et linguistique de haut niveau. Les réseaux de neurones de Figure 01 fournissent des actions robotiques rapides, de bas niveau et dextres », a expliqué l'entreprise dans un message posté sur X. La vidéo de démonstration ne donne pas plus de détails sur ce modèle de langage visuel d'OpenAI.Si tout ce qui est montré dans la vidéo fonctionne comme prévu, cela signifie une avancée dans deux domaines clés de la robotique. Selon les experts, la première avancée concerne l'ingénierie mécanique qui sous-tend les mouvements dextres et autocorrectifs que peuvent effectuer les êtres humains. Il s'agit de moteurs, d'actionneurs et de pinces très précis, inspirés des articulations ou des muscles, ainsi que de la commande de moteur permettant de les manipuler pour effectuer une tâche et tenir des objets délicatement. (Dans la vidéo de démonstration de Tesla, l'on peut voir Optimus saisir délicatement un œuf avec sa main.)Même le fait de ramasser une tasse, ce à quoi les humains pensent à peine consciemment, fait appel à un traitement embarqué intensif pour orienter les muscles dans une séquence précise. La deuxième avancée concerne le traitement du langage naturel (NLP) en temps réel grâce à l'ajout du moteur spécifique d'OpenAI, qui doit être aussi immédiat et réactif que ChatGPT lorsque vous tapez une requête. Il a également besoin d'un logiciel pour traduire ces données en audio, c'est-à-dire en parole. Le NLP est un domaine de l'informatique qui vise à donner aux machines la capacité de comprendre et de transmettre la parole.Bien que les images soient impressionnantes, elles suscitent quelques doutes sur les capacités réelles de Figure 01. Par exemple, pour répondre à l'une des questions du technicien au début de la vidéo, Figure 01 commence sa phrase par un "euh" rapide et répète ensuite le mot "je", comme un humain qui prendrait une fraction de seconde pour mettre de l'ordre dans ses idées avant de parler. Pourquoi (et comment) un moteur vocal d'IA inclurait-il des tics de diction aussi aléatoires et semblables à ceux de l'homme ?Dans l'ensemble, l'inflexion est également suspectée d'être imparfaite, car elle ressemble trop à la cadence naturelle et inconsciente que les humains utilisent pour parler. Certains observateurs pensent qu'il s'agit d'un préenregistrement destiné à présenter les travaux de Figure AI plutôt que d'un test en direct sur le terrain. Mais si, comme le précise la légende de la vidéo, tout est vraiment le résultat d'un réseau neuronal et que Figure 01 réagit en temps réel, nous venons de faire un nouveau pas de géant vers l'avenir.Figure AI a récemment été évaluée à 2,6 milliards de dollars et a attiré des investissements importants de la part du cofondateur d'Amazon, Jeff Bezos, ainsi que de Microsoft et du géant de la technologie Intel, qui soutiennent tous deux OpenAI. Figure AI a déjà déclaré que son objectif était de produire des robots capables d'accomplir des tâches quotidiennes de manière autonome. De son côté, Tesla semble déjà prêt à utiliser son robot Optimus comme main-d'œuvre dans ses usines de production de véhicules électriques.Et si les startups, les universités et les groupes de recherche ont fait de grands progrès dans le domaine de la mécanique physique au cours de la dernière décennie, nous n'avons pas encore assisté à une collaboration et à une intégration aussi poussées avec un modèle de langage avancé. Il est peu probable que nous voyions Figure 01, ou tout autre robot humanoïde, se rendre au bureau et discuter à la fontaine d'eau de sitôt. De plus, les coûts de construction de ce type de technologie ont fortement baissé ces dernières années, et comme de plus en plus d'entreprises de robotique reçoivent des millions de dollars de financement, il est impossible d'évaluer réellement la vitesse à laquelle les choses évoluent.