Google a publié un nouveau modèle d'intelligence artificielle capable de générer ou de modifier des images aussi facilement qu'il crée du texte, dans le cadre d'une conversation avec un chatbot. Bien que les résultats ne soient pas encore parfaits, il est probable que, dans un avenir proche, cette technologie devienne accessible à tous. L'entreprise a élargi l'accès aux capacités natives de génération d'images de Gemini 2.0 Flash, en rendant cette fonctionnalité expérimentale disponible pour tous les utilisateurs de Google AI Studio. Jusqu'à présent réservée aux testeurs depuis décembre, cette technologie multimodale combine traitement du texte et des images au sein d'un même modèle d'intelligence artificielle.Les utilisateurs des réseaux sociaux ont mis en lumière une utilisation controversée du nouveau modèle d'IA Gemini de Google : la suppression des filigranes sur des images, notamment celles publiées par Getty Images et d'autres banques d'images renommées.
La semaine dernière, Google a élargi l'accès à la fonction de génération d'images de son modèle Gemini 2.0 Flash, qui permet non seulement de créer, mais aussi de modifier des images de manière native. Bien que cette capacité soit impressionnante, elle semble manquer de garde-fous. En effet, Gemini 2.0 Flash peut générer des images de célébrités ou de personnages protégés par des droits d’auteur et, comme l'ont remarqué plusieurs utilisateurs, il est également capable de supprimer les filigranes des photos existantes.New skill unlocked: Gemini 2 Flash model is really awesome at removing watermarks in images! pic.twitter.com/6QIk0FlfCv
— Deedy (@deedydas) March 15, 2025
Sur X et Reddit, plusieurs internautes ont signalé que le modèle ne se contente pas d’effacer les filigranes, mais tente aussi de recréer les zones sous-jacentes pour les rendre invisibles. Si d’autres outils d’intelligence artificielle offrent des fonctionnalités similaires, Gemini 2.0 Flash semble particulièrement efficace dans ce domaine, et son accès est gratuit.
Gemini 2.0 Flash, available in Google's AI studio, is amazing at editing images with simple text prompts.
— Tanay Jaipuria (@tanayj) March 16, 2025
It also can remove watermarks from images (and puts its own subtle watermark in instead 🤣) pic.twitter.com/ZnHTQJsT1Z
À noter que cette fonctionnalité de génération d’images est actuellement qualifiée d'« expérimentale » et « non destinée à la production », et qu’elle est uniquement disponible via les outils de développement de Google, comme AI Studio. Par ailleurs, le modèle ne parvient pas toujours à supprimer certains filigranes, notamment ceux qui sont semi-transparents ou qui couvrent une large partie de l’image.
Néanmoins, l'absence de restrictions sur cette utilisation risque de susciter l’indignation des détenteurs de droits d’auteur. D'autres modèles, comme Claude 3.7 Sonnet d’Anthropic et GPT-4o d’OpenAI, refusent explicitement d’exécuter cette tâche, considérant la suppression d’un filigrane comme « contraire à l’éthique et potentiellement illégale ». Aux États-Unis, retirer un filigrane sans l’autorisation du propriétaire est généralement illégal au regard de la loi sur le droit d’auteur, sauf exceptions spécifiques.
Interrogé sur la question, Google n’a pas répondu immédiatement aux demandes de commentaires faites en dehors des heures de bureau. Toutefois, un porte-parole de l’entreprise a déclaré : « L'utilisation des outils d'IA générative de Google pour enfreindre les droits d’auteur constitue une violation de nos conditions d'utilisation. Comme pour toutes les versions expérimentales, nous surveillons de près et écoutons les retours des développeurs. »
Google accélère l'IA avec Gemini 2.0 : innovation, agenticité et accessibilité
En décembre 2024, Google a lancé Gemini 2.0, un modèle d’intelligence artificielle promettant d’être plus rapide et plus performant grâce aux avancées en agenticité et aux capacités multimodales améliorées. Cette annonce est survenue peu après la sortie du modèle expérimental Gemini-Exp-1206, qui s’est rapidement hissé en tête du classement Chatbot Arena, surpassant GPT-4o d’OpenAI.
Sundar Pichai, PDG de Google et d'Alphabet, a souligné que l’organisation et l’accessibilité de l’information restent au cœur de la mission de l’entreprise. Avec Gemini 1.0 et 1.5, Google avait déjà fait des avancées significatives en matière de multimodalité, permettant au modèle de comprendre et traiter texte, vidéo, image, audio et code de manière plus approfondie. Aujourd’hui, des millions de développeurs utilisent Gemini pour réinventer les produits Google, notamment NotebookLM, qui exploite la multimodalité et le contexte long pour améliorer la productivité.
Avec Gemini 2.0, [URL="https://intelligence-artificielle.developpez.com/actu/365693/Google-lance-son-nouveau-modele-d-IA-Gemini-2-0-pour-pratiquement...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
