
Gemini a été décrit comme la prochaine génération d'IA et comme multimodal, ce qui signifie qu'il peut traiter plusieurs types de données et qu'il aurait la capacité de comprendre et de générer du texte et des images ainsi que d'autres types de contenu - comme des sites web - sur la base d'un croquis ou d'une description écrite.
The Information, citant deux sources anonymes ayant connaissance de la décision, a rapporté que les événements de lancement précédemment non annoncés - initialement prévus pour la semaine prochaine à New York, Washington et en Californie - ont été discrètement reprogrammés pour le début de l'année 2024 en raison de préoccupations concernant l'IA qui n'était pas fiable lorsqu'elle répondait à certaines demandes et requêtes en langue autre que l'anglais.
Bien qu'il n'ait pas encore été mis à la disposition du public, Gemini est considéré comme nettement plus performant que GPT-4 d'OpenAI, car il exploite une puissance de calcul nettement supérieure à celle de son concurrent.
"J'ai vu des choses assez étonnantes", a déclaré Sissie Hsiao, vice-président et directeur de Bard et Google Assistant, à propos de Gemini : "Par exemple, si j'essaie de faire un gâteau, dessinez-moi trois images des étapes à suivre pour glacer un gâteau à trois couches, et Gemini créera réellement ces images".
Et Hsiao d'ajouter : "Il s'agit d'images totalement inédites. Ce ne sont pas des images tirées de l'internet. Gemini est désormais capable de parler en images avec les humains, et non plus seulement en texte".
Bien que Google dispose déjà de son propre modèle d'IA générative appelé Bard, ChatGPT a jusqu'à présent bénéficié d'une plus grande notoriété auprès des consommateurs, mais les analystes estiment que cela pourrait changer lorsque Gemini sera enfin lancé.
Source : The Information
Et vous ?

Voir aussi


