IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Gemini : Google utilisera son modèle d'IA pour détecter les arnaques lors des appels téléphoniques,
Elle suscite des inquiétudes quant à la vie privée, car le système écoute les conversations

Le , par Bruno

10PARTAGES

2  0 
Google va introduire une nouvelle fonctionnalité lors de la conférence des développeurs Google I/O 2024 : l'utilisation de Gemini Nano pour détecter les escroqueries pendant les appels. Contrairement aux systèmes actuels basés sur des listes, cette fonction intégrée dans une future version d'Android utilise l'intelligence artificielle de Google, Gemini Nano, pour analyser en temps réel les schémas de conversation associés aux escroqueries. Une fois détectée, l'utilisateur reçoit une notification l'avertissant du risque. Bien que cette fonctionnalité soit facultative, elle suscite des inquiétudes quant à la vie privée, car le système écoute les conversations. Cependant, le mode « opt-in» peut exclure ceux qui en auraient le plus besoin mais qui pourraient être réticents à partager leurs données.

Google Gemini est une famille de modèles d'IA, comme le GPT d'OpenAI. La principale différence : si Gemini peut comprendre et générer du texte comme les autres LLM, il peut également comprendre, exploiter et combiner d'autres types d'informations comme les images, le son, les vidéos et le code. Par exemple, vous pouvez lui donner une instruction du type « que se passe-t-il dans cette image ? » et joindre une image, et il décrira l'image et répondra à d'autres instructions demandant des informations plus complexes.


Étant donné que nous sommes entrés dans l'ère de la concurrence de l'IA au sein des entreprises, la plupart d'entre elles restent assez discrètes sur les spécificités du fonctionnement et des différences de leurs modèles. Google a néanmoins confirmé que les modèles Gemini utilisent une architecture de transformateur et s'appuient sur des stratégies telles que le pré-entraînement et le réglage fin, à l'instar d'autres LLM tels que le GPT-4. La principale différence avec un LLM classique réside dans le fait qu'il est également entraîné sur les images, le son et les vidéos en même temps que sur le texte ; ces éléments ne sont pas le résultat d'un modèle distinct ajouté à la fin.

En théorie, cela devrait lui permettre de comprendre les choses de manière plus intuitive. Prenons l'exemple d'une expression telle que « affaires de singes » : si une IA est simplement entraînée sur des images étiquetées « singe » et « affaires », elle pensera probablement à des singes en costume lorsqu'on lui demandera de dessiner quelque chose en rapport avec cette expression. En revanche, si l'IA qui comprend les images et l'IA qui comprend le langage sont formées en même temps, le modèle dans son ensemble devrait mieux comprendre les connotations espiègles et trompeuses de l'expression. Les singes peuvent porter des costumes, mais ils ont intérêt à jeter du caca.

Tout cela rend Google Gemini plus intéressant, mais ne le rend pas tout à fait unique : GPT-4 Vision (GPT-4V) est un modèle multimodal similaire d'OpenAI qui ajoute le traitement d'images aux capacités LLM de GPT-4. (Bien qu'il ait échoué à mon test « monkey business »).

Google reconnaît les défis posés par l'exécution des modèles d'intelligence artificielle sur les téléphones, en raison de la quantité importante de mémoire vive requise, surtout pour les appareils dotés de quantités limitées de RAM. Bien que l'entreprise souhaite que ces modèles soient toujours chargés pour assurer la disponibilité constante des fonctionnalités d'IA telles que la réponse intelligente, la gestion de cette demande de mémoire peut être complexe, en particulier pour les appareils avec une capacité mémoire plus restreinte.

Au début de mars, Google a surpris en annonçant que seul son nouveau smartphone, le Pixel 8 Pro, serait capable d'exécuter son dernier modèle d'IA, Google Gemini, en raison de prétendues « limitations matérielles » sur le Pixel 8 plus petit. Cependant, après quelques semaines, l'entreprise a modifié sa position et prévoit maintenant de rendre Gemini Nano disponible sur le Pixel 8 également, bien que sous forme d'option pour les développeurs, en raison de la différence de mémoire vive entre les deux appareils.

Google a récemment annoncé Gemini Pro 1.5, la dernière mise à jour de sa série de modèles d'IA Gemini. Cette version offre des améliorations significatives, notamment une fenêtre contextuelle de 1 million de jetons, surpassant largement les précédents détenteurs du record tels que Claude 2.1 (200 000 jetons) et gpt-4-turbo (128 000 jetons). Cependant, il est important de noter que la comparaison directe entre ces modèles est quelque peu nuancée en raison des différences d'implémentation des jetons. Elle permet une compréhension approfondie des contextes longs. La nouvelle architecture MoE (Mélange d'experts) et des innovations dans l'apprentissage automatique rendent Gemini 1.5 plus performant et efficace pour la formation et le service.

Gemini Pro 1.5, le premier modèle disponible, est multimodal, optimisé pour diverses tâches, et peut traiter jusqu'à 1 million de jetons. Il excelle dans l'analyse, la classification et le résumé d'informations, même avec des volumes importants, comme une heure de vidéo ou 11 heures d'audio. La capacité à raisonner sur des contextes longs ouvre de nouvelles possibilités, notamment dans la compréhension vidéo, la résolution de problèmes avec des blocs de code étendus, et la traduction de langues rares.

Google a récemment présenté des excuses pour ce qu'il a qualifié d'« inexactitudes dans certaines représentations historiques générées par l'image » avec son outil Gemini. Ce logiciel d'intelligence artificielle, conçu pour créer des images en réponse à des requêtes écrites, a été critiqué pour ses résultats jugés trop orientés. Les critiques ont souligné une prédominance de personnes de couleur dans les résultats, même pour des requêtes historiques incluant des figures majoritairement blanches. Certains ont même accusé Google de favoriser une représentation non blanche de manière intentionnelle. Face à cette controverse, Google a choisi de suspendre temporairement la génération d'images de personnes par Gemini afin d'apporter des ajustements nécessaires.

Une nouvelle ère dans la lutte contre les escroqueries

Depuis quelques années, les opérateurs utilisent des listes pour alerter les utilisateurs des appels de spam et d'escroquerie potentiels au fur et à mesure qu'ils arrivent. Ces systèmes sont loin d'être infaillibles. Que se passe-t-il donc une fois que l'utilisateur a décroché ? Lors de la conférence des développeurs Google I/O 2024 qui s'est tenue mardi, Google a présenté en exclusivité une fonction qui, selon elle, permettra d'alerter les utilisateurs en cas d'escroquerie potentielle pendant l'appel.

Cette fonction, qui sera intégrée dans une future version d'Android, utilise Gemini Nano, la plus petite version de l'offre d'IA générative de Google, qui peut être exécutée entièrement sur l'appareil. Le système écoute effectivement les « modèles de conversation généralement associés aux escroqueries » en temps réel. Google donne l'exemple d'une personne qui se fait passer pour un « représentant de la banque ». Les tactiques courantes des escrocs, comme les demandes de mot de passe et de cartes-cadeaux, déclenchent également le système. Il s'agit là de méthodes bien connues pour vous soutirer de l'argent, mais de nombreuses personnes dans le monde sont encore vulnérables à ce type d'escroquerie. Une fois déclenché, le système affiche une notification indiquant que l'utilisateur est peut-être la proie de personnages peu recommandables.

L'introduction par Google d'une fonctionnalité utilisant l'IA pour détecter les escroqueries téléphoniques est une avancée positive dans la lutte contre les activités frauduleuses. Les systèmes actuels d'alerte des opérateurs, bien qu'utiles, ne sont pas toujours efficaces, laissant les utilisateurs vulnérables une fois qu'ils ont décroché. L'utilisation de l'IA, notamment Gemini Nano, pour surveiller en temps réel les schémas de conversation associés aux escroqueries, semble prometteuse.

L'exemple donné par Google, où la fonctionnalité détecte les appels frauduleux se faisant passer pour des représentants de banque et utilisant des tactiques courantes d'escroquerie, souligne la pertinence de cette technologie pour protéger les utilisateurs. En fournissant des alertes instantanées pendant l'appel, cette fonctionnalité peut potentiellement empêcher les victimes de tomber dans le piège des escrocs.

Cependant, il est crucial que Google assure la transparence et la protection de la vie privée des utilisateurs lors de la mise en œuvre de cette fonctionnalité. Le fait que le système écoute activement les conversations peut soulever des préoccupations en matière de confidentialité. Il est impératif que Google garantisse que les données des utilisateurs sont traitées de manière sécurisée et que les utilisateurs aient un contrôle clair sur l'activation et la désactivation de cette fonctionnalité. Dans l'ensemble, cette initiative de Google semble être un pas dans la bonne direction pour renforcer la sécurité des utilisateurs contre les escroqueries téléphoniques, mais il est essentiel que cela soit réalisé avec un engagement ferme envers la protection de la vie privée et la transparence.

Source : Google I/O 2024 developer conference

Et vous ?

Quel est votre avis sur le sujet ?

Quels protocoles de transparence et de responsabilité Google pourrait mettre en place pour assurer la confiance des utilisateurs dans cette nouvelle fonctionnalité ?

Voir aussi :

Google affirme que le fonctionnement de modèles d'IA sur les téléphones consomme énormément de mémoire vive, la disponibilité de Gemini Nano sur le Pixel 8 pose des questions sur la transparence

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4 et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d'IA de Google pour les entreprises, avec la capacité d'analyser des flux audio en sus des vidéos

Une erreur dans cette actualité ? Signalez-nous-la !