
Google Gemini est une famille de modèles d'IA, comme le GPT d'OpenAI. La principale différence : si Gemini peut comprendre et générer du texte comme les autres LLM, il peut également comprendre, exploiter et combiner d'autres types d'informations comme les images, le son, les vidéos et le code. Par exemple, vous pouvez lui donner une instruction du type « que se passe-t-il dans cette image ? » et joindre une image, et il décrira l'image et répondra à d'autres instructions demandant des informations plus complexes.
Étant donné que nous sommes entrés dans l'ère de la concurrence de l'IA au sein des entreprises, la plupart d'entre elles restent assez discrètes sur les spécificités du fonctionnement et des différences de leurs modèles. Google a néanmoins confirmé que les modèles Gemini utilisent une architecture de transformateur et s'appuient sur des stratégies telles que le pré-entraînement et le réglage fin, à l'instar d'autres LLM tels que le GPT-4. La principale différence avec un LLM classique réside dans le fait qu'il est également entraîné sur les images, le son et les vidéos en même temps que sur le texte ; ces éléments ne sont pas le résultat d'un modèle distinct ajouté à la fin.
En théorie, cela devrait lui permettre de comprendre les choses de manière plus intuitive. Prenons l'exemple d'une expression telle que « affaires de singes » : si une IA est simplement entraînée sur des images étiquetées « singe » et « affaires », elle pensera probablement à des singes en costume lorsqu'on lui demandera de dessiner quelque chose en rapport avec cette expression. En revanche, si l'IA qui comprend les images et l'IA qui comprend le langage sont formées en même temps, le modèle dans son ensemble devrait mieux comprendre les connotations espiègles et trompeuses de l'expression. Les singes peuvent porter des costumes, mais ils ont intérêt à jeter du caca.
Tout cela rend Google Gemini plus intéressant, mais ne le rend pas tout à fait unique : GPT-4 Vision (GPT-4V) est un modèle multimodal similaire d'OpenAI qui ajoute le traitement d'images aux capacités LLM de GPT-4. (Bien qu'il ait échoué à mon test « monkey business »).
Google reconnaît les défis posés par l'exécution des modèles d'intelligence artificielle sur les téléphones, en raison de la quantité importante de mémoire vive requise, surtout pour les appareils dotés de quantités limitées de RAM. Bien que l'entreprise souhaite que ces modèles soient toujours chargés pour assurer la disponibilité constante des fonctionnalités d'IA telles que la réponse intelligente, la gestion de cette demande de mémoire peut être complexe, en particulier pour les appareils avec une capacité mémoire plus restreinte.
Au début de mars, Google a surpris en annonçant que seul son nouveau smartphone, le Pixel 8 Pro, serait capable d'exécuter son dernier modèle d'IA, Google Gemini, en raison de prétendues « limitations matérielles » sur le Pixel 8 plus petit. Cependant, après quelques semaines, l'entreprise a modifié sa position et prévoit maintenant de rendre Gemini Nano disponible sur le Pixel 8 également, bien que sous forme d'option pour les développeurs, en raison de la différence de mémoire vive entre les deux appareils.
Google a récemment annoncé Gemini Pro 1.5, la dernière mise à jour de sa série de modèles d'IA Gemini. Cette version offre des améliorations significatives, notamment une fenêtre contextuelle de 1 million de jetons, surpassant largement les précédents détenteurs du record tels que Claude 2.1 (200 000 jetons) et gpt-4-turbo (128 000 jetons). Cependant, il est important de noter que la comparaison directe entre ces modèles est quelque peu nuancée en raison des différences d'implémentation des jetons. Elle permet une compréhension approfondie des contextes longs. La nouvelle architecture MoE (Mélange d'experts) et des innovations dans l'apprentissage automatique rendent Gemini 1.5 plus performant et efficace pour la formation et le service.
Gemini Pro 1.5, le premier modèle disponible, est multimodal, optimisé pour diverses tâches, et peut traiter jusqu'à 1 million de jetons. Il excelle dans l'analyse, la classification et le résumé d'informations, même avec des volumes importants, comme une heure de vidéo ou 11 heures d'audio. La capacité à raisonner sur des contextes longs ouvre de nouvelles possibilités, notamment dans la compréhension vidéo, la résolution de problèmes avec des blocs de code étendus, et la traduction de langues rares.
Google a récemment présenté des excuses pour ce qu'il a qualifié d'« inexactitudes dans certaines représentations historiques générées par l'image » avec son outil Gemini. Ce logiciel d'intelligence artificielle, conçu pour créer des images en réponse à des requêtes écrites, a été critiqué pour ses résultats jugés trop orientés. Les critiques ont souligné une prédominance de personnes de couleur dans les résultats, même pour des requêtes historiques incluant des figures majoritairement blanches. Certains ont même accusé Google de favoriser une représentation non blanche de manière intentionnelle. Face à cette controverse, Google a choisi de suspendre temporairement la génération d'images de personnes par Gemini afin d'apporter des ajustements nécessaires.
Une nouvelle ère dans la lutte contre les escroqueries
Depuis quelques années, les opérateurs utilisent des listes pour alerter les utilisateurs des appels de spam et d'escroquerie potentiels au fur et à mesure qu'ils arrivent. Ces systèmes sont loin d'être infaillibles. Que se passe-t-il donc une fois que l'utilisateur a décroché ? Lors de la conférence des développeurs Google I/O 2024 qui s'est tenue mardi, Google a présenté en exclusivité une fonction qui, selon elle, permettra d'alerter les utilisateurs en cas d'escroquerie potentielle pendant l'appel.
Cette fonction, qui sera intégrée dans une future version d'Android, utilise Gemini Nano, la plus petite version de l'offre d'IA générative de Google, qui peut être exécutée entièrement sur l'appareil. Le système écoute effectivement les « modèles de conversation généralement associés aux escroqueries » en temps réel. Google donne l'exemple d'une personne qui se fait passer pour un « représentant de la banque ». Les tactiques courantes des escrocs, comme les demandes de mot de passe et de cartes-cadeaux, déclenchent également le système. Il s'agit là de méthodes bien connues pour vous soutirer de l'argent, mais de nombreuses personnes dans le monde sont encore vulnérables à ce type d'escroquerie. Une fois déclenché, le système affiche une notification indiquant que l'utilisateur est peut-être la proie de personnages peu recommandables.
L'introduction par Google d'une...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.