Google va introduire une nouvelle fonctionnalité lors de la conférence des développeurs Google I/O 2024 : l'utilisation de Gemini Nano pour détecter les escroqueries pendant les appels. Contrairement aux systèmes actuels basés sur des listes, cette fonction intégrée dans une future version d'Android utilise l'intelligence artificielle de Google, Gemini Nano, pour analyser en temps réel les schémas de conversation associés aux escroqueries. Une fois détectée, l'utilisateur reçoit une notification l'avertissant du risque. Bien que cette fonctionnalité soit facultative, elle suscite des inquiétudes quant à la vie privée, car le système écoute les conversations. Cependant, le mode « opt-in» peut exclure ceux qui en auraient le plus besoin mais qui pourraient être réticents à partager leurs données.Google Gemini est une famille de modèles d'IA, comme le GPT d'OpenAI. La principale différence : si Gemini peut comprendre et générer du texte comme les autres LLM, il peut également comprendre, exploiter et combiner d'autres types d'informations comme les images, le son, les vidéos et le code. Par exemple, vous pouvez lui donner une instruction du type « que se passe-t-il dans cette image ? » et joindre une image, et il décrira l'image et répondra à d'autres instructions demandant des informations plus complexes.
Étant donné que nous sommes entrés dans l'ère de la concurrence de l'IA au sein des entreprises, la plupart d'entre elles restent assez discrètes sur les spécificités du fonctionnement et des différences de leurs modèles. Google a néanmoins confirmé que les modèles Gemini utilisent une architecture de transformateur et s'appuient sur des stratégies telles que le pré-entraînement et le réglage fin, à l'instar d'autres LLM tels que le GPT-4. La principale différence avec un LLM classique réside dans le fait qu'il est également entraîné sur les images, le son et les vidéos en même temps que sur le texte ; ces éléments ne sont pas le résultat d'un modèle distinct ajouté à la fin.
En théorie, cela devrait lui permettre de comprendre les choses de manière plus intuitive. Prenons l'exemple d'une expression telle que « affaires de singes » : si une IA est simplement entraînée sur des images étiquetées « singe » et « affaires », elle pensera probablement à des singes en costume lorsqu'on lui demandera de dessiner quelque chose en rapport avec cette expression. En revanche, si l'IA qui comprend les images et l'IA qui comprend le langage sont formées en même temps, le modèle dans son ensemble devrait mieux comprendre les connotations espiègles et trompeuses de l'expression. Les singes peuvent porter des costumes, mais ils ont intérêt à jeter du caca.
Tout cela rend Google Gemini plus intéressant, mais ne le rend pas tout à fait unique : GPT-4 Vision (GPT-4V) est un modèle multimodal similaire d'OpenAI qui ajoute le traitement d'images aux capacités LLM de GPT-4. (Bien qu'il ait échoué à mon test « monkey business »).
Google reconnaît les défis posés par l'exécution des modèles d'intelligence artificielle sur les téléphones, en raison de la quantité importante de mémoire vive requise, surtout pour les appareils dotés de quantités limitées de RAM. Bien que l'entreprise souhaite que ces modèles soient toujours chargés pour assurer la disponibilité constante des fonctionnalités d'IA telles que la réponse intelligente, la gestion de cette demande de mémoire peut être complexe, en particulier pour les appareils avec une capacité mémoire plus restreinte.
Au début de mars, Google a surpris en annonçant que seul son nouveau smartphone, le Pixel 8 Pro, serait capable d'exécuter son dernier modèle d'IA, Google Gemini, en raison de prétendues « limitations matérielles » sur le Pixel 8 plus petit. Cependant, après quelques semaines, l'entreprise a modifié sa position et prévoit maintenant de rendre Gemini Nano disponible sur le Pixel 8 également, bien que sous forme d'option pour les développeurs, en raison de la différence de mémoire vive entre les deux appareils.
Google a récemment annoncé Gemini Pro 1.5, la dernière mise à jour de sa série de modèles d'IA Gemini. Cette version offre des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.