Google lance la génération musicale Lyria 3 directement dans l'application Gemini, permettant aux utilisateurs de créer des morceaux de 30 secondes à partir de texte et d'images. Cette sortie marque le premier produit d'IA musicale grand public de Google, en concurrence avec des startups telles que Suno et Udio dans le domaine de l'audio génératif. Lyria 3 représente une expansion multimodale significative pour Gemini, ajoutant la composition audio à ses capacités existantes en matière de texte et d'image. Ce lancement témoigne de la stratégie de Google qui consiste à regrouper des outils d'IA créatifs dans une seule application grand public plutôt que de lancer des produits autonomes.Gemini, anciennement Bard, est un assistant conversationnel développé par l'entreprise Google. Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte (poésie, scripts, pièces musicales, courriels, lettres, etc.), du code, des traductions (entre plus de 100 langues). Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos…), aider des chercheurs en analysant des données ou en générant des hypothèses. Gemini peut répondre aux questions de manière informative ou en produisant des cours personnalisés, des jeux, des tutoriels, etc., avec les limites des IA (erreurs, biais, « hallucinations »…).
Google vient d'ouvrir la porte à la création musicale alimentée par l'IA pour tous. L'application Gemini de la société inclut désormais Lyria 3, son dernier modèle de génération musicale qui transforme des invites textuelles et des images en morceaux personnalisés de 30 secondes. Cette initiative place Google en concurrence directe avec des start-ups telles que Suno et Udio, tout en étendant les capacités multimodales de Gemini au-delà du texte et des images pour inclure la composition audio. Selon Joël Yawili, chef de produit senior pour l'application Gemini, cela représente « une nouvelle façon de s'exprimer » grâce à des paysages sonores générés par l'IA.
Cette intégration fait de Google la première grande plateforme technologique à intégrer la génération musicale dans un assistant IA polyvalent. Alors qu'OpenAI et Anthropic se concentrent sur le texte et le raisonnement, Google oriente Gemini vers la production créative. Les utilisateurs peuvent désormais demander à Gemini de générer un « morceau de synthé rêveur pour un timelapse au coucher du soleil » ou télécharger une photo d'un paysage urbain et obtenir une musique d'ambiance correspondante, le tout sans quitter l'application.
Selon l'annonce officielle, Lyria 3 produit des « morceaux de 30 secondes de haute qualité » à partir d'entrées textuelles et d'images. Cette limite de 30 secondes est stratégique : elle est suffisamment longue pour les clips sur les réseaux sociaux et la création de contenu, et suffisamment courte pour contourner les questions épineuses de droits d'auteur qui affectent les compositions plus longues générées par l'IA. C'est également la même durée que celle initialement proposée par des startups comme Suno avant de passer à des chansons complètes.
Google teste discrètement l'IA musicale depuis plus d'un an. La société a présenté pour la première fois la technologie Lyria fin 2023 via MusicLM, un outil expérimental accessible uniquement à certains utilisateurs. Mais MusicLM est resté confiné dans l'AI Test Kitchen de Google, sans jamais devenir un produit grand public. L'intégration de Lyria 3 dans Gemini marque le passage d'une expérimentation prudente à un déploiement confiant.
Ce timing met la pression sur les start-ups indépendantes spécialisées dans l'IA musicale. Suno et Udio ont levé des millions de dollars pour développer des applications autonomes de génération musicale par IA, pariant que les utilisateurs seraient prêts à payer un abonnement pour bénéficier de cette fonctionnalité. Aujourd'hui, Google l'offre gratuitement dans le cadre de l'offre plus large de Gemini. C'est le jeu classique des plateformes : regrouper suffisamment de fonctionnalités dans une seule application pour que les spécialistes aient du mal à rivaliser.
Ce qui rend Lyria 3 particulièrement intéressant, c'est sa capacité à transformer des images en musique. Téléchargez une photo de vagues déferlantes et il générera du surf rock. Montrez-lui une ruelle éclairée au néon et vous obtiendrez de l'électronica cyberpunk. Cette traduction visuelle en audio représente un modèle d'interaction véritablement nouveau, différent des approches axées sur le texte adoptées par la plupart des outils musicaux basés sur l'IA. Google tire parti de sa force dans le domaine de l'IA multimodale, où les modèles comprennent les connexions entre différents types de médias.
L'annonce de Joël Yawili, chef de produit senior pour Gemini, présente la génération musicale comme une forme d'expression personnelle plutôt que comme une production professionnelle. Ce positionnement est prudent : Google ne prétend pas que cela remplacera les musiciens ou les producteurs. Au contraire, cet outil est présenté comme un outil destiné aux créateurs de contenu, aux utilisateurs des réseaux sociaux et aux expérimentateurs occasionnels. Pensez aux bandes sonores de TikTok et aux arrière-plans des stories Instagram, plutôt qu'aux tubes du Billboard.
Mais l'industrie musicale observe la situation avec nervosité. La Recording Industry Association of America a déjà intenté des poursuites contre Suno et Udio, affirmant qu'ils avaient entraîné des modèles sur des chansons protégées par le droit d'auteur sans autorisation. Google n'a pas détaillé les données d'entraînement de Lyria 3, mais l'entreprise est confrontée à la même question fondamentale : comment créer une IA musicale sans apprendre à partir de la musique existante ? Google mise probablement sur ses ressources juridiques et ses relations de licence existantes pour naviguer dans des eaux qui ont submergé les petits acteurs.
Cette fonctionnalité arrive alors que Google s'efforce de maintenir la compétitivité de Gemini face à ChatGPT et Claude. Alors que ces concurrents se sont concentrés sur les capacités de raisonnement et les fenêtres contextuelles plus longues, Google se différencie par son ampleur multimodale. Gemini peut désormais générer du texte, des images et de la musique, un trio qu'aucun autre assistant IA grand public n'offre. Il s'agit d'une stratégie différente, qui privilégie la polyvalence créative à l'intelligence pure.
Différents rapports ont déjà confirmé cette approche de Google. Alors que la compétition...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.