La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.

Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

Le 8 décembre 2023 à 19:02, par Stéphane le calme

38PARTAGES

La meilleure démo AI Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.
Elle n’a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

Dans le monde en constante évolution de l’intelligence artificielle, Google a récemment fait les gros titres avec son modèle d’IA de nouvelle génération, Gemini. Cependant, la société est déjà accusée d'avoir menti sur ses performances. Elle est notamment attaquée sur l'une des démos publiées pour présenter son modèle d'IA.

La vidéo de six minutes montre les capacités multimodales de Gemini (invites conversationnelles vocales combinées à la reconnaissance d’images, par exemple). Gemini reconnaît apparemment les images rapidement (même pour les images qui relient les points) répond en quelques secondes et suit une liasse de papier dans un jeu de gobelet et de balle en temps réel. Bien sûr, les humains peuvent faire tout cela, mais il s’agit d’une IA capable de reconnaître et de prédire ce qui va se passer ensuite.

Mais cliquez sur la description de la vidéo sur YouTube et Google a un avertissement important : « Pour les besoins de cette démo, la latence a été réduite et les sorties Gemini ont été raccourcies par souci de concision ». De plus, Google a préparé à l'avance des questions écrites et à orienté l’IA vers les bonnes réponses.

Le nouveau modèle Gemini AI de Google reçoit un accueil mitigé après ses grands débuts, mais les utilisateurs pourraient avoir moins confiance dans la technologie ou l'intégrité de l'entreprise après avoir découvert que la démo la plus impressionnante de Gemini était en grande partie truquée.

Une vidéo intitulée « Hands-on with Gemini : Interacting with multimodal AI » a été vue près de deux millions de fois en moins de 48 heures, et il n’est pas difficile de comprendre pourquoi. La démo impressionnante « met en évidence certaines de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c'est-à-dire qu'il comprend et mélange le langage et la compréhension visuelle) peut être flexible et réactif à une variété d'entrées.

Gemini est loin de pouvoir commenter le monde en temps réel

Pour commencer, il raconte l'évolution d'un croquis d'un canard depuis un gribouillis jusqu'à un dessin complet, dont il dit qu'il s'agit d'une couleur irréaliste, puis manifeste sa surprise en voyant un canard bleu jouet. Il répond ensuite à diverses requêtes vocales sur ce jouet, puis la démo passe à d'autres mouvements de démonstration, comme suivre une balle dans un jeu de changement de tasse, reconnaître les gestes des ombres chinoises, réorganiser les croquis de planètes, etc.

Google a prévenu que « la latence a été réduite et les sorties Gemini ont été raccourcies ». Cela signifie que le temps nécessaire pour chaque réponse était en réalité plus long que dans la vidéo.

En réalité, la démo n’a pas non plus été réalisée en temps réel ni en voix. Interrogé sur la vidéo, un porte-parole de Google a déclaré qu'elle avait été réalisée en « utilisant des images fixes de la séquence et des invites via du texte », et il a indiqué un site montrant comment d'autres pourraient interagir avec Gemini avec des photos de leurs mains, de dessins ou d'autres objets. En d’autres termes, la voix dans la démo lisait les invites humaines sous forme de texte qu’ils avaient adressées à Gemini et leur montrait des images fixes. C’est assez différent de ce que Google semblait suggérer : qu’une personne puisse avoir une conversation vocale fluide avec Gemini qui observait et répondait en temps réel au monde qui l’entoure.

...encore moins deviner le contexte

Ainsi, bien que Gemini puisse faire en quelque sorte les choses que Google montre dans la vidéo, il ne l’a pas fait, et peut-être ne pouvait pas, le faire en direct et de la manière que Google le sous-entendait. En réalité, il s’agissait d’une série de messages texte soigneusement réglés avec des images fixes, clairement sélectionnées et raccourcies pour donner une fausse idée de la nature réelle de l’interaction.

D’une part, Gemini semblait vraiment avoir généré les réponses présentées dans la vidéo. D'autre part, les téléspectateurs sont induits en erreur sur la vitesse, la précision et le mode fondamental d'interaction avec le modèle.

Par exemple, à 2 min 45 s de la vidéo, une main est montrée effectuant silencieusement une série de gestes. Gemini réponde rapidement : « Je sais ce que tu fais ! Tu joues à Pierre, Feuille, Ciseaux ! »

Mais la toute première chose dans la documentation de cette capacité est que le modèle ne raisonne pas sur la base de la visualisation de gestes individuels. Il faut lui montrer les trois gestes à la fois et lui demander : « Que penses-tu que je fais ? Indice : c’est un jeu. » Il répond : « Tu joues à pierre, papier, ciseaux. »

La vidéo ne précise pas non plus que cette démo est (probablement) avec Gemini Ultra, un modèle qui n'est pas encore disponible. Truquer de tels détails indique un effort marketing plus large ici : Google veut que nous nous souvenions qu'il possède l'une des plus grandes équipes de chercheurs en IA au monde et qu'il a accès à plus de données que quiconque. Il souhaite nous rappeler, comme il l'a fait mercredi, l'étendue de son réseau de déploiement en apportant des versions moins performantes de Gemini aux téléphones Chrome, Android et Pixel.

Une IA qui a besoin d'être orientée pour fournir les bonnes réponses ?

Quand Google prétend demander à Gemini « quelle voiture va le plus vite ? », la réalité est qu’il lui a demandé : « en se basant sur l’aérodynamisme de ces voitures, quelle voiture ira le plus vite entre celle de gauche et celle de droite ? Explique pourquoi et détaille ta réponse ». Cet indice lui a permis de donner une réponse complète, qui mentionne l’aérodynamisme, mais sa réponse n’était pas spontanée.

L’ordre des astres du système solaire est lui aussi manipulé : Google n’a pas juste demandé « est-ce que c’est le bon ordre » mais « est-ce que c’est le bon ordre en prenant en compte la distance avec le Soleil. Explique ton raisonnement ».

Oriol Vinyals, VP of Research & Deep Learning Lead, Google DeepMind et Gemini co-lead a expliqué :

Nous avons donné à Gemini des séquences de différentes modalités – image et texte dans ce cas – et lui avons fait réagir en prédisant ce qui pourrait arriver ensuite. Les développeurs pourront essayer des choses similaires lorsque l'accès à Pro sera ouvert le 13/12 🚀. La démo de tricot utilisée Ultra⚡

Toutes les invites et sorties utilisateur dans la vidéo sont réelles, abrégées par souci de concision. La vidéo illustre à quoi pourraient ressembler les expériences utilisateur multimodales créées avec Gemini. Nous l'avons créé pour inspirer les développeurs.

Lorsque vous créez une application, vous pouvez obtenir des résultats similaires (il y a toujours une certaine variabilité avec les LLM) en demandant à Gemini une instruction qui permet à l'utilisateur de « configurer » le comportement du modèle, par exemple en saisissant « vous êtes un expert en science… » avant qu'un utilisateur puisse s'engager dans le même type de dialogue de va-et-vient. Voici un extrait de ce à quoi cela ressemble dans AI Studio avec Gemini Pro. Nous avons parcouru un long chemin depuis Flamingo 🦩 & PALI, j'ai hâte de voir ce que les gens construisent avec !

[TWITTER]<blockquote class="twitter-tweet" data-media-max-width="560"><p lang="en" dir="ltr">Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. <a href="https://t.co/50gjMkaVc0">https://t.co/50gjMkaVc0</a><br><br>We gave Gemini sequences of different modalities — image and text in this case — and had it respond… <a href="https://t.co/Beba5M5dHP">pic.twitter.com/Beba5M5dHP</a></p>— Oriol Vinyals (@OriolVinyalsML) <a href="https://twitter.com/OriolVinyalsML/status/1732885990291775553?ref_src=twsrc%5Etfw">December 7, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]

Une pilule qui a du mal à passer

Plusieurs internautes se sont montrés déçus. Par exemple, celui-ci déclare :

Je comprends pourquoi cela serait ressenti en interne (

comme décevant.

Savoir que votre entreprise commercialise des choses qui ne tiennent pas est profondément préjudiciable au moral des ingénieurs qui travaillent d'arrache-pied. Pourquoi? Parce que si Google ne peut pas livrer, ou plutôt s'il ne livre pas ce produit comme il le présente, il y aura des répercussions et Google ne s'en remettra jamais.

La supercherie utilisée par Google est une astuce couramment pratiquée dans l’industrie technologique.

On vous montre ce PoC et nous finirons par construire le vrai.

En temps normal, le développement est acceptable, mais vous perdez ici environ des milliards de dollars et de la crédibilité. Si Google perd toute crédibilité, il ne s’en remettra pas.

Personne de sensé ne leur pardonnerait d’être connu comme étant des menteurs.

Ce qui est fou, c'est que Google a déjà fait exactement la même chose. Vous vous souvenez de la démo d'eux appelant le salon de coiffure avec l'assistant virtuel ?

Cela n’était apparemment pas réel non plus et ce produit n’a jamais abouti. Complètement abandonné.

Google joue actuellement à un jeu très dangereux.

Pour mémoire, durant l’édition 2018 de sa conférence dédiée aux développeurs, Google a présenté Duplex ; un chatbot tellement réaliste que, pendant la démonstration, certains humains au bout du fil n’ont pas réalisé qu’ils échangeaient avec une IA. Pour rappel, voici la vidéo de démonstration :

Si la prouesse a été saluée par la communauté, certains n’ont pas manqué de soulever des problèmes d’éthiques liés à une IA dont la voix générée ne peut pas facilement être distinguée d’une personne réelle. De plus, un quotidien a relevé quelques incohérences dans la présentation de Google, laissant penser que l'entreprise a simulé une avancée dans le domaine de l'IA.

Profiter des turbulences chez OpenAI pour tenter d'attirer des investisseurs

Google tente sans doute de capitaliser sur toutes les récentes turbulences chez OpenAI. Lorsqu'un coup d'État au sein du conseil d'administration de la petite startup d'IA a temporairement évincé le PDG Sam Altman et mis l'avenir de l'entreprise en doute, Google a rapidement lancé une campagne commerciale pour persuader les entreprises clientes d'OpenAI de passer à Google, selon un rapport du Wall Street Journal. L'entreprise semble désormais surfer sur cette vague d’incertitude avec le lancement de Gemini.

Mais des démos impressionnantes ne peuvent vous mener que jusqu’à présent, et Google a déjà fait la démonstration de nouvelles technologies étranges qui n’ont mené nulle part (rappelez-vous par exemple de Duplex). La bureaucratie gargantuesque de Google et les couches de chefs de produit l'ont empêché jusqu'à présent de livrer des produits aussi agilement qu'OpenAI. Alors que la société est aux prises avec les effets transformateurs de l’IA, ce n’est pas une mauvaise chose.

Les questions sur l’authenticité de la démonstration de Gemini (Google estime que la vidéo n'est pas une fake, même si, présentée ainsi, la réalité semble déformée) mettent en lumière l’importance de la transparence et de la fiabilité dans le développement de l’IA. Alors que nous attendons avec impatience de voir ce que Gemini a à offrir, il est clair que le chemin vers une IA véritablement révolutionnaire est pavé d’obstacles et d’apprentissages continus pour les grandes enseignes de la technologie comme Google.

Source : Google

Et vous ?

Êtes-vous surpris de voir ces détails sur la démo de Google ? Selon-vous, l'entreprise aurait-elle tenté de simuler une avancée dans le domaine de l'IA ? Dans quelle mesure ?

Les messages en description de la vidéo, notamment celui qui parle de la latence réduite et le lien vers le making-of de la vidéo vous semblent-ils suffisamment clair pour ne pas semer de doute dans l'esprit du public ou fallait-il préciser également dans la vidéo ?

Mais alors, quelles sont vos attentes concernant le modèle d’IA Gemini de Google, et pensez-vous qu’il pourra révolutionner le domaine de l’intelligence artificielle ?

Comment les entreprises technologiques devraient-elles gérer la transparence et la communication autour des capacités réelles de leurs modèles d’IA ?

Quel impact pensez-vous que les retards et les controverses comme celle de Gemini peuvent avoir sur la confiance du public envers l’intelligence artificielle ?

En quoi les erreurs commises par les IA dans des démonstrations publiques affectent-elles votre perception de leur fiabilité et de leur utilité au quotidien ?

Quelles mesures devraient être prises pour assurer que les modèles d’IA soient testés de manière approfondie avant leur lancement officiel ?

Vous avez lu gratuitement 235 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.

Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle. Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.

Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes