Le projet Astra est l'avenir de l'IA chez Google : un assistant d'IA multimodal qui peut voir le monde via la caméra de votre appareil et analyser et comprendre les objets devant lui

Comme le font les humains

Le 15 mai 2024 à 18:21, par Mathis Lucas

147PARTAGES

Demis Hassabis, PDG de Google DeepMind, a dévoilé mardi un nouvel assistant universel piloté par l'IA qui peut être utilisé dans la vie de tous les jours. Baptisé "Project Astra", c'est un chatbot d'IA multimodal capable de "voir" le monde à travers l'objectif de l'appareil photo de votre smartphone, puis d'analyser et de comprendre les objets placés devant lui, comme le font les humains. Le laboratoire d'IA d'Alphabet affirme que tout cela fonctionne en temps réel et de manière conversationnelle. Il ajoute en outre que le nouvel agent d'IA est plus puissant et plus avancé que la version actuelle de Gemini, le grand modèle de langage le plus avancé de Google.

Les agents conversationnels Siri et Alexa n'ont jamais réussi à devenir des assistants utiles. Mais Google, OpenAI et d'autres entreprises d'IA sont convaincus que la prochaine génération d'assistant va vraiment fonctionner et donnera lieu à des outils universels. Lors de la conférence Google I/O mardi, Hassabis a présenté une toute première version de ce qu'il espère devenir cet assistant universel. « Nous aurons un assistant universel. Il est multimodal et vous accompagne en permanence. C'est cet assistant qui est tout simplement utile. On s'habitue à ce qu'il soit là chaque fois qu'on en a besoin », a déclaré Hassabis.

Google appelle cet assistant Project Astra et il s'agit d'un assistant d'IA multimodal en temps réel qui peut voir le monde, savoir où se trouvent les objets et où vous les avez laissés, et qui peut répondre à des questions ou vous aider à faire presque n'importe quoi. Lors d'une démonstration, l'assistant a montré ses capacités en identifiant des objets produisant des sons, en fournissant des allitérations créatives, en expliquant un code sur un écran et en localisant des objets mal placés. « Astra agent universel utile dans la vie de tous les jours », a déclaré Hassabis lors de la présentation des capacités de son nouvel assistant.

L'assistant d'IA a également montré son potentiel dans les dispositifs portables, tels que les lunettes intelligentes, où il peut analyser des diagrammes, suggérer des améliorations et générer des réponses pleines d'esprit à des invites visuelles. Google DeepMind affirme qu'Astra utilise la caméra et le microphone de l'appareil de l'utilisateur pour l'aider dans sa vie quotidienne. En traitant et en encodant en permanence les images vidéo et les données vocales, Astra crée une chronologie des événements et met en cache les informations pour les rappeler rapidement. L'entreprise affirme que cela permet à l'IA d'identifier des objets.

Astra peut également répondre à des questions et se souvenir de choses qu'elle a vues et qui ne sont plus dans le champ de la caméra. Le Projet Astra n'en est qu'à ses débuts et ne fait l'objet d'aucun plan de lancement spécifique, mais Google a laissé entendre que certaines de ces fonctionnalités pourraient être intégrées dans des produits comme l'application Gemini dans le courant de l'année (via une mise à jour appelée "Gemini Live"

. « Il s'agit d'une tentative de création d'un agent doté d'une "agence" capable de "penser à l'avance, de raisonner et de planifier en votre nom », a déclaré le PDG de Google, Sundar Pichai.

D'après la vidéo que Google a diffusée hier lors d'une conférence de presse, Astra semble être une application dont l'interface principale est un viseur. Une personne tenant un téléphone pointe son appareil photo vers différentes parties d'un bureau et demande à l'assistant : « dites-moi quand vous voyez quelque chose qui émet un son ». Lorsqu'un haut-parleur situé à côté d'un écran est apparu, Gemini a répondu : « je vois un haut-parleur qui émet un son ». La personne a ensuite dessiné une flèche à l'écran vers le cercle supérieur du haut-parleur et a demandé au logiciel : « comment s'appelle cette partie du haut-parleur ? ».

Gemini s'est empressé de répondre : « c'est le tweeter ». Le testeur s'est déplacé vers un pot à crayons plus loin sur la table et a demandé : « donnez-moi une allitération créative à propos de ces crayons ». Ce à quoi l'assistant d'IA a répondu : « les crayons créatifs colorent joyeusement. Ils réalisent certainement des créations colorées ». Le reste de la vidéo montre l'assistant d'IA identifiant et expliquant des parties de code sur un moniteur et indiquant à l'utilisateur dans quel quartier il se trouve en fonction de la vue par la fenêtre. Elle montre également la capacité du système à se souvenir de l'emplacement des objets.

Astra a pu répondre à la question « te souviens-tu de l'endroit où tu as vu mes lunettes ? », même si ces lunettes étaient complètement hors du cadre et n'avaient pas été signalées auparavant. « Oui, je m'en souviens », a répondu Gemini, ajoutant : « tes lunettes étaient sur un bureau, près d'une pomme rouge ». Cela signifie que Astra traite non seulement les données visuelles en temps réel, mais qu'il se souvient aussi de ce qu'il a vu et qu'il travaille avec une impressionnante réserve d'informations stockées. Dans la vidéo de démonstration, l'assistant d'IA réagit presque spontanément.

D'après Hassabis, ce résultat a été obtenu parce que ces "agents" ont été "conçus pour traiter les informations plus rapidement en encodant continuellement les images vidéo, en combinant les entrées vidéo et vocales dans une chronologie des événements et en mettant en cache ces informations pour une mémorisation efficace. Le chercheur a expliqué dans un billet de blogue : « bien que nous ayons fait des progrès incroyables dans le développement de systèmes d'IA capables de comprendre des informations multimodales, ramener le temps de réponse à un niveau conversationnel est un défi technique difficile à relever ».

Astra n'est qu'une des nombreuses annonces de Gemini à l'occasion de l'I/O de cette année. Il a présenté un nouveau modèle d'IA appelé Gemini 1.5 Flash, conçu pour être plus rapide dans les tâches courantes telles que le résumé et le sous-titrage. Un autre nouveau modèle, Veo, peut générer une vidéo à partir d'un texte. Gemini Nano, le modèle conçu pour être utilisé localement sur des appareils tels que votre téléphone, est également censé être plus rapide que jamais. La fenêtre contextuelle de Gemini Pro est doublée et passe à 2 millions de jetons, ce qui, selon Google, améliore ses capacités à suivre les instructions.

Les annonces de Google en matière d'IA lors de la conférence I/O visent à faciliter l'utilisation de Gemini. Un nouveau produit appelé Gemini Live est un assistant vocal qui vous permet d'avoir des conversations faciles avec le modèle. Une nouvelle fonctionnalité de Google Lens vous permet d'effectuer des recherches sur le Web en filmant et en racontant une vidéo. Tout cela est rendu...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le projet Astra est l'avenir de l'IA chez Google : un assistant d'IA multimodal qui peut voir le monde via la caméra de votre appareil et analyser et comprendre les objets devant lui

Comme le font les humains

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Le projet Astra est l'avenir de l'IA chez Google : un assistant d'IA multimodal qui peut voir le monde via la caméra de votre appareil et analyser et comprendre les objets devant lui Comme le font les humains

Le projet Astra est l'avenir de l'IA chez Google : un assistant d'IA multimodal qui peut voir le monde via la caméra de votre appareil et analyser et comprendre les objets devant lui

Comme le font les humains