Les agents conversationnels Siri et Alexa n'ont jamais réussi à devenir des assistants utiles. Mais Google, OpenAI et d'autres entreprises d'IA sont convaincus que la prochaine génération d'assistant va vraiment fonctionner et donnera lieu à des outils universels. Lors de la conférence Google I/O mardi, Hassabis a présenté une toute première version de ce qu'il espère devenir cet assistant universel. « Nous aurons un assistant universel. Il est multimodal et vous accompagne en permanence. C'est cet assistant qui est tout simplement utile. On s'habitue à ce qu'il soit là chaque fois qu'on en a besoin », a déclaré Hassabis.
Google appelle cet assistant Project Astra et il s'agit d'un assistant d'IA multimodal en temps réel qui peut voir le monde, savoir où se trouvent les objets et où vous les avez laissés, et qui peut répondre à des questions ou vous aider à faire presque n'importe quoi. Lors d'une démonstration, l'assistant a montré ses capacités en identifiant des objets produisant des sons, en fournissant des allitérations créatives, en expliquant un code sur un écran et en localisant des objets mal placés. « Astra agent universel utile dans la vie de tous les jours », a déclaré Hassabis lors de la présentation des capacités de son nouvel assistant.
L'assistant d'IA a également montré son potentiel dans les dispositifs portables, tels que les lunettes intelligentes, où il peut analyser des diagrammes, suggérer des améliorations et générer des réponses pleines d'esprit à des invites visuelles. Google DeepMind affirme qu'Astra utilise la caméra et le microphone de l'appareil de l'utilisateur pour l'aider dans sa vie quotidienne. En traitant et en encodant en permanence les images vidéo et les données vocales, Astra crée une chronologie des événements et met en cache les informations pour les rappeler rapidement. L'entreprise affirme que cela permet à l'IA d'identifier des objets.
Astra peut également répondre à des questions et se souvenir de choses qu'elle a vues et qui ne sont plus dans le champ de la caméra. Le Projet Astra n'en est qu'à ses débuts et ne fait l'objet d'aucun plan de lancement spécifique, mais Google a laissé entendre que certaines de ces fonctionnalités pourraient être intégrées dans des produits comme l'application Gemini dans le courant de l'année (via une mise à jour appelée "Gemini Live". « Il s'agit d'une tentative de création d'un agent doté d'une "agence" capable de "penser à l'avance, de raisonner et de planifier en votre nom », a déclaré le PDG de Google, Sundar Pichai.
D'après la vidéo que Google a diffusée hier lors d'une conférence de presse, Astra semble être une application dont l'interface principale est un viseur. Une personne tenant un téléphone pointe son appareil photo vers différentes parties d'un bureau et demande à l'assistant : « dites-moi quand vous voyez quelque chose qui émet un son ». Lorsqu'un haut-parleur situé à côté d'un écran est apparu, Gemini a répondu : « je vois un haut-parleur qui émet un son ». La personne a ensuite dessiné une flèche à l'écran vers le cercle supérieur du haut-parleur et a demandé au logiciel : « comment s'appelle cette partie du haut-parleur ? ».
Gemini s'est empressé de répondre : « c'est le tweeter ». Le testeur s'est déplacé vers un pot à crayons plus loin sur la table et a demandé : « donnez-moi une allitération créative à propos de ces crayons ». Ce à quoi l'assistant d'IA a répondu : « les crayons créatifs colorent joyeusement. Ils réalisent certainement des créations colorées ». Le reste de la vidéo montre l'assistant d'IA identifiant et expliquant des parties de code sur un moniteur et indiquant à l'utilisateur dans quel quartier il se trouve en fonction de la vue par la fenêtre. Elle montre également la capacité du système à se souvenir de l'emplacement des objets.
Astra a pu répondre à la question « te souviens-tu de l'endroit où tu as vu mes lunettes ? », même si ces lunettes étaient complètement hors du cadre et n'avaient pas été signalées auparavant. « Oui, je m'en souviens », a répondu Gemini, ajoutant : « tes lunettes étaient sur un bureau, près d'une pomme rouge ». Cela signifie que Astra traite non seulement les données visuelles en temps réel, mais qu'il se souvient aussi de ce qu'il a vu et qu'il travaille avec une impressionnante réserve d'informations stockées. Dans la vidéo de démonstration, l'assistant d'IA réagit presque spontanément.
D'après Hassabis, ce résultat a été obtenu parce que ces "agents" ont été "conçus pour traiter les informations plus rapidement en encodant continuellement les images vidéo, en combinant les entrées vidéo et vocales dans une chronologie des événements et en mettant en cache ces informations pour une mémorisation efficace. Le chercheur a expliqué dans un billet de blogue : « bien que nous ayons fait des progrès incroyables dans le développement de systèmes d'IA capables de comprendre des informations multimodales, ramener le temps de réponse à un niveau conversationnel est un défi technique difficile à relever ».
Astra n'est qu'une des nombreuses annonces de Gemini à l'occasion de l'I/O de cette année. Il a présenté un nouveau modèle d'IA appelé Gemini 1.5 Flash, conçu pour être plus rapide dans les tâches courantes telles que le résumé et le sous-titrage. Un autre nouveau modèle, Veo, peut générer une vidéo à partir d'un texte. Gemini Nano, le modèle conçu pour être utilisé localement sur des appareils tels que votre téléphone, est également censé être plus rapide que jamais. La fenêtre contextuelle de Gemini Pro est doublée et passe à 2 millions de jetons, ce qui, selon Google, améliore ses capacités à suivre les instructions.
Les annonces de Google en matière d'IA lors de la conférence I/O visent à faciliter l'utilisation de Gemini. Un nouveau produit appelé Gemini Live est un assistant vocal qui vous permet d'avoir des conversations faciles avec le modèle. Une nouvelle fonctionnalité de Google Lens vous permet d'effectuer des recherches sur le Web en filmant et en racontant une vidéo. Tout cela est rendu possible par la grande fenêtre contextuelle de Gemini, qui lui permet d'accéder à une grande quantité d'informations à la fois. Selon Hassabis, il s'agit d'un élément clé pour que l'interaction avec votre assistant vous paraisse normale et naturelle.
OpenAI travaille également sur un assistant d'IA de nouvelle génération qui sera vraiment "utile". De son côté, OpenAI a fait la démonstration de GPT-4o, un produit similaire à Gemini Flash. Google et OpenAI se battent de plus en plus pour le même territoire et semblent partager une vision de la manière dont l'IA pourrait changer nos vies et la façon dont nous pourrions l'utiliser au fil du temps. Comment ces assistants d'IA fonctionneront-ils exactement et comment les utiliserions-nous ? À l'heure actuelle, personne ne le sait avec certitude, pas même Hassabis ni Sam Altman, PDG d'OpenAI.
Google se concentre pour l'instant sur la planification de voyages. Il a créé un nouvel outil permettant d'utiliser Gemini pour établir un itinéraire de vacances que vous pouvez ensuite modifier en tandem avec l'assistant. Il y aura à terme beaucoup d'autres fonctionnalités de ce type. Hassabis est convaincu que les téléphones et les lunettes connectées seront les principaux appareils utilisés par ces agents. Cela a poussé certains critiques à se demander si l'entreprise envisageait de réinventer les Google Glass. Toutefois, Hassabis a ajouté qu'il y a probablement de la place pour d'autres facteurs de forme passionnants.
Source : Google
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du nouvel assistant d'IA multimodal Astra de Google ?
Le projet Astra est-il l'avenir des assistants numériques comme Google le prétend ?
Quels pourraient être les cas d'utilisation potentiels de ces assistants d'IA de nouvelle génération ?
Quels sont les préoccupations en matière de confidentialité que posent les assistants d'IA comme le projet Astra ?
Voir aussi
OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »
Alexa Plus : Amazon travaille sur une version payante d'Alexa mais rencontre déjà des difficultés techniques et organisationnelles, la qualité des réponses n'est toujours pas à la hauteur des attentes
OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple. La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets