
Sparrow est basé sur le modèle de langage Chinchilla de Deepmind, qui a moins de paramètres que les plus grands modèles d'OpenAI (mais a été formé avec beaucoup de données). Le modèle de langage, qui a été introduit en avril 2022, a surpassé GPT-3 dans les benchmarks de langage commun. Cependant, ChatGPT est basé sur la version 3.5 plus avancée de GPT.
Dans tous les cas, il y a de bonnes raisons de croire que Sparrow fonctionnerait de manière similaire ou meilleure que ChatGPT (et Google aurait également des modèles de langage plus puissants comme PaLM dans sa manche). La société d'intelligence artificielle se concentre également sur la contrainte de comportement de Sparrow. L'entreprise a mis l'accent sur sa volonté de refuser de répondre aux questions dans des contextes où il convient de s'en remettre aux humains ou lorsque cela peut dissuader les comportements nuisibles.
Google pourrait donner sa réponse à ChatGPT. L'entreprise a montré de grands modèles de langage optimisés pour le dialogue, tels que LaMDA et Flamingo, avant même le produit à succès d'OpenAI. Avec Meena, Google avait déjà un chatbot prêt qui pourrait avoir des conversations crédibles avec les humains d'ici la fin de 2020.
Jusqu'à présent, l'entreprise n'a pas fait un produit de ses recherches. Selon ses propres déclarations, cela est principalement dû à des problèmes de sécurité, bien que d'autres raisons puissent également jouer un rôle.
Mais ChatGPT et surtout la forte implication de Microsoft dans la diffusion d'OpenAI mettent la pression sur Google. L'entreprise doit au moins prouver qu'elle peut être à la hauteur d'OpenAI ou même le surpasser.
C'est dans ce contexte que le fondateur et PDG de Deepmind, Demis Hassabis, a annoncé que le chatbot Sparrow de Deepmind passera en « bêta privée » plus tard cette année. Ceci est remarquable car Deepmind a jusqu'à présent fonctionné principalement comme un institut de recherche sur l'IA, développant des technologies que Google intègre ensuite dans des produits destinés aux consommateurs.
Un chatbot « utile et sûr »
Deepmind a introduit Sparrow en septembre 2022. Comme ChatGPT, le chatbot est formé avec des commentaires humains, ce qui, selon Deepmind, le rend plus utile, précis et inoffensif. De plus, Sparrow aura accès à Internet via Google, ce qui lui permettra d'intégrer des informations à jour dans ses réponses.
Cependant, contrairement à ChatGPT, qui est capable de générer une fausse information sans mentionner son origine, Sparrow pourrait développer des réponses et produire des sources pour les appuyer. L’IA de DeepMind « réduit le risque de réponses dangereuses et inappropriées », indiquait l’entreprise dans un communiqué, en septembre 2022 :

Comment fonctionne Sparrow
La formation d'une IA conversationnelle est un problème particulièrement difficile car il est difficile de déterminer ce qui fait le succès d'un dialogue. Pour résoudre ce problème, DeepMind s'est tourné vers une forme d'apprentissage par renforcement (RL - Reinforcement Learning) basé sur les commentaires des personnes, en utilisant les commentaires des préférences des participants à l'étude pour former un modèle de l'utilité d'une réponse.
Pour obtenir ces données, DeepMind montre à ses participants plusieurs modèles de réponses à la même question et leur demande quelle réponse ils préfèrent. Étant donné qu'ils affichent des réponses avec et sans preuves récupérées sur Internet, ce modèle peut également déterminer quand une réponse doit être étayée par des preuves.
Mais l'augmentation de l'utilité n'est qu'une partie de l'histoire. Pour s'assurer que le comportement du modèle est sûr, DeepMind a estimé qu'il devait imposer une contrainte au comportement de Sparrow. Ainsi, DeepMind a déterminé un premier ensemble de règles simples pour le modèle, telles que «*ne fais pas de déclarations menaçantes*» et «*ne faites pas de commentaires haineux ou insultants*».
DeepMind a fourni également des règles concernant les conseils potentiellement préjudiciables. Ces règles ont été éclairées par l'étude des travaux existants sur les préjudices linguistiques et la consultation d'experts. DeepMind demande ensuite à ses participants à l'étude de parler à son système, dans le but de le tromper pour qu'il enfreigne les règles. Ces conversations lui ont ensuite permis de former un « modèle de règles » distinct qui indique quand le comportement de Sparrow enfreint l'une des règles.

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.