
grâce à son « agent généraliste » baptisé Gato
L'intelligence artificielle au niveau humain est sur le point d'être enfin atteinte, selon un chercheur principal de la division DeepMind AI de Google. Le Dr Nando de Freitas a déclaré que « la partie est terminée » dans la quête de plusieurs décennies pour réaliser l'intelligence artificielle générale (IAG) après que DeepMind a dévoilé un système d'IA capable d'accomplir un large éventail de tâches complexes, de l'empilement de blocs à l'écriture de poésie. Décrit comme un « agent généraliste », le nouveau Gato AI de DeepMind doit simplement être mis à l'échelle afin de créer une IA capable de rivaliser avec l'intelligence humaine, a estimé le Dr de Freitas. Mais son enthousiasme n'est pas partagé par tous.
Des chercheurs de DeepMind, une filiale d'Alphabet opérant dans la recherche sur l'IA, ont mis au point un agent généraliste. Voici les notes qu'ils ont écrites sur Gato, le nom donné à cet agent :
« Inspirés par les progrès de la modélisation du langage à grande échelle, nous appliquons une approche similaire à la construction d'un agent généraliste unique au-delà du domaine des sorties de texte. L'agent, que nous appelons Gato, fonctionne comme une police généraliste multimodale, multitâche et multi-incarnation. Le même réseau avec les mêmes poids peut jouer à Atari, sous-titrer des images, discuter, empiler des blocs avec un vrai bras de robot et bien plus encore, en décidant en fonction de son contexte s'il faut sortir du texte, des couples articulaires, des pressions sur des boutons ou d'autres jetons.
« Pendant la phase de formation de Gato, les données de différentes tâches et modalités sont sérialisées en une séquence plate de jetons, regroupées et traitées par un réseau neuronal transformateur similaire à un grand modèle de langage. La perte est masquée de sorte que Gato prédit uniquement les cibles d'action et de texte.
« Lors du déploiement de Gato, une invite, telle qu'une démonstration, est symbolisée, formant la séquence initiale. Ensuite, l'environnement produit la première observation, qui est également symbolisée et ajoutée à la séquence. Gato échantillonne le vecteur d'action de manière autorégressive, un jeton à la fois. Une fois que tous les jetons composant le vecteur d'action ont été échantillonnés (déterminés par la spécification d'action de l'environnement), l'action est décodée et envoyée à l'environnement qui effectue une étape et produit une nouvelle observation. Ensuite, la procédure se répète. Le modèle voit toujours toutes les observations et actions précédentes dans sa fenêtre de contexte de 1024 jetons ».
« Les humains ne développeront pas une intelligence artificielle générale de notre vivant », selon un journaliste
Tristan Greene est journaliste pour le compte de The Next Web. Suite à la présentation de Gato, il a affiché son scepticisme de voir créer une intelligence artificielle générale :
« DeepMind a dévoilé aujourd'hui un nouveau système d'IA multimodal capable d'effectuer plus de 600 tâches différentes. Surnommé Gato, il s'agit sans doute du kit d'apprentissage automatique tout-en-un le plus impressionnant jamais vu au monde. Et bien qu'il reste à voir exactement dans quelle mesure il fonctionnera une fois que les chercheurs et les utilisateurs extérieurs aux laboratoires DeepMind auront mis la main dessus, Gato semble être tout ce que GPT-3 souhaite qu'il soit et plus encore.
« Voici pourquoi cela me rend triste : GPT-3 est un large-language mode (LLM) produit par OpenAI, la société d'intelligence artificielle générale (IAG) la mieux financée au monde. Cependant, avant de pouvoir comparer GPT-3 et Gato, nous devons comprendre d'où viennent OpenAI et DeepMind en tant qu'entreprises.
« OpenAI est une idée originale d'Elon Musk, elle a reçu des milliards en soutien de Microsoft, et le gouvernement américain pourrait fondamentalement se soucier moins de ce qu'il fait en matière de réglementation et de surveillance. Gardant à l'esprit que le seul but d'OpenAI est de développer et de contrôler une IAG (c'est une IA capable de faire et d'apprendre tout ce qu'un humain pourrait, avec le même accès), il est un peu dommage que tout ce que l'entreprise a réussi à produire soit un LLM vraiment fantaisiste.
« Ne vous méprenez pas, GPT-3 est impressionnant. En fait, il est sans doute aussi impressionnant que le Gato de DeepMind, mais cette évaluation nécessite quelques nuances.
« OpenAI a emprunté la voie LLM sur son chemin vers l'IAG pour une raison simple : personne ne sait comment faire fonctionner une IAG.
« Tout comme il a fallu du temps entre la découverte du feu et l'invention du moteur à combustion interne, comprendre comment passer de l'apprentissage en profondeur à l'IAG ne se fera pas du jour au lendemain.
« GPT-3 est un exemple d'IA qui peut au moins faire quelque chose qui semble humain : elle génère du texte.
« Ce que DeepMind a fait avec Gato est, eh bien, à peu près la même chose. Il a pris quelque chose qui fonctionne un peu comme un LLM et l'a transformé en un illusionniste capable de plus de 600 formes de prestidigitation. Comme Mike Cook, du collectif de recherche Knives and Paintbrushes, l'a récemment dit :
"Cela semble excitant que l'IA soit capable d'effectuer toutes ces tâches qui semblent très différentes, car pour nous, il semble que l'écriture de texte soit très différente du contrôle d'un robot. Mais en réalité, ce n'est pas trop différent de GPT-3 qui comprend la différence entre le texte anglais ordinaire et le code Python. Cela ne veut pas dire que c'est facile, mais pour l'observateur extérieur, cela peut sembler que l'IA peut aussi faire une tasse de thé ou apprendre facilement dix ou cinquante autres tâches, et elle ne peut pas faire ça".
« Fondamentalement, Gato et GPT-3 sont tous deux des systèmes d'IA robustes, mais aucun d'eux n'est capable d'intelligence générale.
« Voici mon problème : à moins que vous ne pariez sur l'apparition d'une IAG à la suite d'un acte de chance aléatoire – le film Court-circuit me vient à l'esprit – il est probablement temps pour tout le monde de réévaluer son calendrier sur l'IAG. Je ne dirais pas qu'elle ne sera "jamais" développée, car c'est l'un des seuls mots maudits de la science. Mais cela donne l'impression que l'IAG ne sera pas développée de notre vivant.
« DeepMind travaille sur l'IAG depuis plus d'une décennie et sur OpenAI travaille sur le sujet depuis 2015. Et aucun des deux n'a été en mesure de résoudre le tout premier problème sur la voie de la résolution de l'IAG : construire une IA capable d'apprendre de nouvelles choses sans formation.
« Je pense que Gato pourrait être le système d'IA multimodal le plus avancé au monde. Mais je pense aussi que DeepMind a pris le même concept sans issue pour l'IAG qu'OpenAI et l'a simplement rendu plus commercialisable ».
Le directeur de recherche de DeepMind n'est pas d'accord avec l'opinion de Greene
Répondant à l'article d'opinion écrit par Greene, le directeur de recherche de DeepMind a écrit qu'il était d'avis qu'un tel résultat était inévitable : « Tout est question d'échelle maintenant ! La partie est terminée ! » il a écrit sur Twitter.
« Il s'agit de rendre ces modèles plus grands, plus sûrs, plus efficaces en matière de calcul, plus rapides à l'échantillonnage, une mémoire plus intelligente, plus de modalités, des données innovantes, en ligne/hors ligne... Résoudre ces défis est ce qui apportera l'IAG ».
Lorsque le chercheur en apprentissage automatique Alex Dimikas lui a demandé...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.