La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.

Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

Le 8 décembre 2023 à 19:02, par Stéphane le calme

242PARTAGES

Dans le monde en constante évolution de l’intelligence artificielle, Google a récemment fait les gros titres avec son modèle d’IA de nouvelle génération, Gemini. Cependant, la société est déjà accusée d'avoir menti sur ses performances. Elle est notamment attaquée sur l'une des démos publiées pour présenter son modèle d'IA.

La vidéo de six minutes montre les capacités multimodales de Gemini (invites conversationnelles vocales combinées à la reconnaissance d’images, par exemple). Gemini reconnaît apparemment les images rapidement (même pour les images qui relient les points) répond en quelques secondes et suit une liasse de papier dans un jeu de gobelet et de balle en temps réel. Bien sûr, les humains peuvent faire tout cela, mais il s’agit d’une IA capable de reconnaître et de prédire ce qui va se passer ensuite.

Mais cliquez sur la description de la vidéo sur YouTube et Google a un avertissement important : « Pour les besoins de cette démo, la latence a été réduite et les sorties Gemini ont été raccourcies par souci de concision ». De plus, Google a préparé à l'avance des questions écrites et à orienté l’IA vers les bonnes réponses.

Le nouveau modèle Gemini AI de Google reçoit un accueil mitigé après ses grands débuts, mais les utilisateurs pourraient avoir moins confiance dans la technologie ou l'intégrité de l'entreprise après avoir découvert que la démo la plus impressionnante de Gemini était en grande partie truquée.

Une vidéo intitulée « Hands-on with Gemini : Interacting with multimodal AI » a été vue près de deux millions de fois en moins de 48 heures, et il n’est pas difficile de comprendre pourquoi. La démo impressionnante « met en évidence certaines de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c'est-à-dire qu'il comprend et mélange le langage et la compréhension visuelle) peut être flexible et réactif à une variété d'entrées.

Gemini est loin de pouvoir commenter le monde en temps réel

Pour commencer, il raconte l'évolution d'un croquis d'un canard depuis un gribouillis jusqu'à un dessin complet, dont il dit qu'il s'agit d'une couleur irréaliste, puis manifeste sa surprise en voyant un canard bleu jouet. Il répond ensuite à diverses requêtes vocales sur ce jouet, puis la démo passe à d'autres mouvements de démonstration, comme suivre une balle dans un jeu de changement de tasse, reconnaître les gestes des ombres chinoises, réorganiser les croquis de planètes, etc.

Google a prévenu que « la latence a été réduite et les sorties Gemini ont été raccourcies ». Cela signifie que le temps nécessaire pour chaque réponse était en réalité plus long que dans la vidéo.

En réalité, la démo n’a pas non plus été réalisée en temps réel ni en voix. Interrogé sur la vidéo, un porte-parole de Google a déclaré qu'elle avait été réalisée en « utilisant des images fixes de la séquence et des invites via du texte », et il a indiqué un site montrant comment d'autres pourraient interagir avec Gemini avec des photos de leurs mains, de dessins ou d'autres objets. En d’autres termes, la voix dans la démo lisait les invites humaines sous forme de texte qu’ils avaient adressées à Gemini et leur montrait des images fixes. C’est assez différent de ce que Google semblait suggérer : qu’une personne puisse avoir une conversation vocale fluide avec Gemini qui observait et répondait en temps réel au monde qui l’entoure.

...encore moins deviner le contexte

Ainsi, bien que Gemini puisse faire en quelque sorte les choses que Google montre dans la vidéo, il ne l’a pas fait, et peut-être ne pouvait pas, le faire en direct et de la manière que Google le sous-entendait. En réalité, il s’agissait d’une série de messages texte soigneusement réglés avec des images fixes, clairement sélectionnées et raccourcies pour donner une fausse idée de la nature réelle de l’interaction.

D’une part, Gemini semblait vraiment avoir généré les réponses présentées dans la vidéo. D'autre part, les téléspectateurs sont induits en erreur sur la vitesse, la précision et le mode fondamental d'interaction avec le modèle.

Par exemple, à 2 min 45 s de la vidéo, une main est montrée effectuant silencieusement une série de gestes. Gemini réponde rapidement : « Je sais ce que tu fais ! Tu joues à Pierre, Feuille, Ciseaux ! »

Mais la toute première chose dans la documentation de cette capacité est que le modèle ne raisonne pas sur la base de la visualisation de gestes individuels. Il faut lui montrer les trois gestes à la fois et lui demander : « Que penses-tu que je fais ? Indice : c’est un jeu. » Il répond : « Tu joues à pierre, papier, ciseaux. »

La vidéo ne précise pas non plus que cette démo est (probablement) avec Gemini Ultra, un modèle qui n'est pas encore disponible. Truquer de tels détails indique un effort marketing plus large ici : Google veut que nous nous souvenions qu'il possède l'une des plus grandes équipes de chercheurs en IA au monde et qu'il a accès à plus de données que quiconque. Il souhaite nous rappeler, comme il l'a fait mercredi, l'étendue de son réseau de déploiement en apportant des...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.

Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle. Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.

Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes