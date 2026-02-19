Gemini, anciennement Bard, est un assistant conversationnel développé par l'entreprise Google. Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte (poésie, scripts, pièces musicales, courriels, lettres, etc.), du code, des traductions (entre plus de 100 langues). Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos ), aider des chercheurs en analysant des données ou en générant des hypothèses. Gemini peut répondre aux questions de manière informative ou en produisant des cours personnalisés, des jeux, des tutoriels, etc., avec les limites des IA (erreurs, biais, « hallucinations » ).
Google vient d'ouvrir la porte à la création musicale alimentée par l'IA pour tous. L'application Gemini de la société inclut désormais Lyria 3, son dernier modèle de génération musicale qui transforme des invites textuelles et des images en morceaux personnalisés de 30 secondes. Cette initiative place Google en concurrence directe avec des start-ups telles que Suno et Udio, tout en étendant les capacités multimodales de Gemini au-delà du texte et des images pour inclure la composition audio. Selon Joël Yawili, chef de produit senior pour l'application Gemini, cela représente « une nouvelle façon de s'exprimer » grâce à des paysages sonores générés par l'IA.
Cette intégration fait de Google la première grande plateforme technologique à intégrer la génération musicale dans un assistant IA polyvalent. Alors qu'OpenAI et Anthropic se concentrent sur le texte et le raisonnement, Google oriente Gemini vers la production créative. Les utilisateurs peuvent désormais demander à Gemini de générer un « morceau de synthé rêveur pour un timelapse au coucher du soleil » ou télécharger une photo d'un paysage urbain et obtenir une musique d'ambiance correspondante, le tout sans quitter l'application.
Selon l'annonce officielle, Lyria 3 produit des « morceaux de 30 secondes de haute qualité » à partir d'entrées textuelles et d'images. Cette limite de 30 secondes est stratégique : elle est suffisamment longue pour les clips sur les réseaux sociaux et la création de contenu, et suffisamment courte pour contourner les questions épineuses de droits d'auteur qui affectent les compositions plus longues générées par l'IA. C'est également la même durée que celle initialement proposée par des startups comme Suno avant de passer à des chansons complètes.
Google teste discrètement l'IA musicale depuis plus d'un an. La société a présenté pour la première fois la technologie Lyria fin 2023 via MusicLM, un outil expérimental accessible uniquement à certains utilisateurs. Mais MusicLM est resté confiné dans l'AI Test Kitchen de Google, sans jamais devenir un produit grand public. L'intégration de Lyria 3 dans Gemini marque le passage d'une expérimentation prudente à un déploiement confiant.
Ce timing met la pression sur les start-ups indépendantes spécialisées dans l'IA musicale. Suno et Udio ont levé des millions de dollars pour développer des applications autonomes de génération musicale par IA, pariant que les utilisateurs seraient prêts à payer un abonnement pour bénéficier de cette fonctionnalité. Aujourd'hui, Google l'offre gratuitement dans le cadre de l'offre plus large de Gemini. C'est le jeu classique des plateformes : regrouper suffisamment de fonctionnalités dans une seule application pour que les spécialistes aient du mal à rivaliser.
Ce qui rend Lyria 3 particulièrement intéressant, c'est sa capacité à transformer des images en musique. Téléchargez une photo de vagues déferlantes et il générera du surf rock. Montrez-lui une ruelle éclairée au néon et vous obtiendrez de l'électronica cyberpunk. Cette traduction visuelle en audio représente un modèle d'interaction véritablement nouveau, différent des approches axées sur le texte adoptées par la plupart des outils musicaux basés sur l'IA. Google tire parti de sa force dans le domaine de l'IA multimodale, où les modèles comprennent les connexions entre différents types de médias.
L'annonce de Joël Yawili, chef de produit senior pour Gemini, présente la génération musicale comme une forme d'expression personnelle plutôt que comme une production professionnelle. Ce positionnement est prudent : Google ne prétend pas que cela remplacera les musiciens ou les producteurs. Au contraire, cet outil est présenté comme un outil destiné aux créateurs de contenu, aux utilisateurs des réseaux sociaux et aux expérimentateurs occasionnels. Pensez aux bandes sonores de TikTok et aux arrière-plans des stories Instagram, plutôt qu'aux tubes du Billboard.
Mais l'industrie musicale observe la situation avec nervosité. La Recording Industry Association of America a déjà intenté des poursuites contre Suno et Udio, affirmant qu'ils avaient entraîné des modèles sur des chansons protégées par le droit d'auteur sans autorisation. Google n'a pas détaillé les données d'entraînement de Lyria 3, mais l'entreprise est confrontée à la même question fondamentale : comment créer une IA musicale sans apprendre à partir de la musique existante ? Google mise probablement sur ses ressources juridiques et ses relations de licence existantes pour naviguer dans des eaux qui ont submergé les petits acteurs.
Cette fonctionnalité arrive alors que Google s'efforce de maintenir la compétitivité de Gemini face à ChatGPT et Claude. Alors que ces concurrents se sont concentrés sur les capacités de raisonnement et les fenêtres contextuelles plus longues, Google se différencie par son ampleur multimodale. Gemini peut désormais générer du texte, des images et de la musique, un trio qu'aucun autre assistant IA grand public n'offre. Il s'agit d'une stratégie différente, qui privilégie la polyvalence créative à l'intelligence pure.
Différents rapports ont déjà confirmé cette approche de Google. Alors que la compétition autour de lintelligence artificielle générative est souvent racontée comme une succession de coups médiatiques, de démonstrations spectaculaires et dannonces parfois précipitées, Google avance à un rythme plus feutré. Avec Gemini, son modèle dIA unifié, le groupe semble aujourdhui récolter les fruits dune stratégie plus structurelle que narrative. Sans déclarer officiellement la victoire, Google apparaît de plus en plus comme un acteur central, voire dominant, dans la phase actuelle de la course à lIA. C'est en tout cas l'avis de certains spécialistes comme Geoffrey Hinton, le « parrain de l'IA ».
Pour les utilisateurs, l'expérience est simple : ouvrez Gemini, décrivez la musique que vous souhaitez ou téléchargez une image, puis attendez que Lyria 3 génère des options. Les premiers essais suggèrent que la qualité est bonne, sans être spectaculaire : meilleure que celle des morceaux génériques libres de droits, mais pas tout à fait à la hauteur de celle des compositeurs humains. Cela devrait suffire pour la plupart des cas d'utilisation grand public, surtout si le service est gratuit.
La limite de 30 secondes sert également de soupape de sécurité. Des clips plus courts signifient moins de concurrence directe avec les bibliothèques musicales professionnelles, moins de complications en matière de droits d'auteur et des coûts de calcul moins élevés pour Google. Si la fonctionnalité s'avère populaire, il serait facile de passer à des compositions plus longues. Mais en commençant modestement, Google peut tester le terrain sans se lancer tête baissée dans des poursuites judiciaires avec l'industrie musicale.
L'intégration de Lyria 3 dans Gemini par Google vise moins à révolutionner la musique qu'à rendre les assistants IA véritablement utiles pour la créativité au quotidien. Si les musiciens professionnels ne seront pas menacés, les millions de personnes qui créent du contenu social, éditent des vidéos ou expérimentent simplement l'IA ont désormais une raison de moins de quitter l'écosystème Google. Alors que les plateformes d'IA se font concurrence sur leurs capacités, attendez-vous à voir davantage de regroupements de fonctionnalités de ce type : le gagnant ne sera pas nécessairement l'IA la plus intelligente, mais celle qui fait le plus de choses assez bien. Pour l'instant, Google parie que la génération musicale est l'argument qui incitera les utilisateurs à revenir vers Gemini plutôt que vers ChatGPT.
Voici un extrait de l'annonce de Google :
Une nouvelle façon de vous exprimer : Gemini peut désormais créer de la musique.
Depuis le lancement de l'application Gemini, nous avons développé des outils pour encourager l'expression créative à travers des images et des vidéos. Aujourd'hui, nous franchissons une nouvelle étape : la génération de musique personnalisée. Lyria 3, le dernier modèle de musique générative de Google DeepMind, est disponible dès aujourd'hui en version bêta dans l'application Gemini. Il suffit de décrire une idée ou de télécharger une photo, par exemple « un slow R&B comique sur une chaussette qui trouve sa jumelle », et en quelques secondes, Gemini la traduira en un morceau entraînant et de grande qualité. Pour repousser encore plus loin les limites de la créativité, vous pouvez même demander à Gemini de s'inspirer de quelque chose que vous avez téléchargé.
Lyria 3 améliore la génération audio de nos modèles Lyria de trois manières importantes :
1. Vous n'avez pas besoin de fournir vos propres paroles ! Elles seront générées pour vous en fonction de votre demande.
2. Vous avez plus de contrôle créatif sur des éléments tels que le style, les voix et le tempo que vous souhaitez.
3. Vous pouvez créer des morceaux plus réalistes et musicalement plus complexes.
Voici comment vous pouvez l'utiliser :
- Texte en morceau : décrivez un genre, une ambiance, une blague ou un souvenir spécifique pour créer des morceaux uniques avec des paroles ou un accompagnement instrumental qui correspondent à votre humeur. « Je me sens nostalgique. Créez un morceau pour ma mère sur les bons moments que nous avons passés ensemble quand nous étions enfants et les souvenirs de ses bananes plantains cuites maison. Faites-en un morceau afrobeat amusant avec une véritable ambiance africaine. »
- De photos et vidéos à morceau : téléchargez une photo ou une vidéo et regardez Gemini utiliser le contenu pour composer un morceau avec des paroles qui correspondent parfaitement à l'ambiance. « Utilisez ces photos pour créer un morceau sur mon chien Duncan en randonnée dans les bois. »
L'application Gemini crée des morceaux de 30 secondes avec une pochette personnalisée générée...
