Le laboratoire de recherche IA Google DeepMind a créé un modèle d'IA pour déchiffrer les vocalisations des dauphins, DolphinGemma, qui sera partagé en tant que modèle ouvert

Le 16 avril 2025 à 21:30, par Jade Emy

40PARTAGES

Le laboratoire de recherche IA Google DeepMind a créé un modèle d'IA pour déchiffrer les vocalisations des dauphins, DolphinGemma, qui sera partagé en tant que modèle ouvert.

Google, en collaboration avec des chercheurs de Georgia Tech et les recherches sur le terrain du Wild Dolphin Project (WDP), annonce des progrès sur DolphinGemma : un modèle d'IA fondamental entraîné à apprendre la structure des vocalisations des dauphins et à générer de nouvelles séquences sonores semblables à celles des dauphins. Cette approche de la communication inter-espèces repousse les limites de l'IA et de notre connexion potentielle avec le monde marin.

Le 14 avril a eu lieu la Journée nationale du dauphin aux États-Unis, à ne pas confondre avec la Journée mondiale du dauphin, qui a lieu le 12 septembre. Avec un rapport cerveau/corps qui n'a d'égal que celui de l'homme, ces animaux possèdent des cellules cérébrales spécialisées associées à des capacités avancées telles que la reconnaissance, la mémoire, le raisonnement, la communication et même la résolution de problèmes. En outre, les scientifiques ont même appris que les dauphins peuvent ressentir des émotions et que la partie de leur cerveau qui traite les émotions semble être plus complexe que la nôtre.

Pour en savoir plus sur ces créatures intelligentes, notamment sur leur mode de communication, Google a entamé une collaboration avec des chercheurs du Georgia Institute of Technology et du Wild Dolphin Project (WDP) afin de construire un modèle d'intelligence artificielle (IA) capable d'apprendre les schémas des sons émis par les dauphins et de les reproduire.

Depuis 1985, le WDP mène le plus long projet de recherche sous-marine sur les dauphins au monde, en particulier sur une communauté de dauphins tachetés sauvages de l'Atlantique. L'équipe a recueilli plusieurs décennies de vidéos et de sons sous-marins des cétacés, ainsi que l'identité, l'histoire et les comportements observés de chaque dauphin.

Google a utilisé ce trésor de données pour créer DolphinGemma, un modèle d'IA de 400 mètres de paramètres pour les sons des dauphins, qui est exécuté directement sur les téléphones utilisés par l'équipe WDP sur le terrain. Le modèle s'appuie sur Gemma de Google, une collection de ses modèles ouverts légers, a indiqué l'entreprise dans son annonce de progrès hier, qui coïncidait avec la Journée nationale des dauphins aux États-Unis.

DolphinGemma - un modèle audio-in, audio-out - est entièrement construit sur la collection de sons de dauphins de WDP. Il traite des séquences de sons naturels de dauphins afin d'identifier des modèles et de prédire le son suivant probable dans la séquence, selon un processus similaire à celui des grands modèles de langage pour les humains.

En outre, le WDP travaille également sur un canal de communication bidirectionnel potentiel utilisant le modèle, ce qui a conduit au développement du système Cetacean Hearing Augmentation Telemetry (CHAT), en partenariat avec l'Institut de technologie de Géorgie.

Avec le système CHAT, les chercheurs espèrent créer un vocabulaire commun plus simple avec les dauphins en associant des sifflements uniques - distincts des sons naturels des dauphins - à des objets spécifiques appréciés par les animaux, tels que le sargassum, l'herbe de mer ou les écharpes utilisées par les chercheurs. Ils espèrent que les dauphins curieux apprendront à imiter les sons sifflés, qui pourront ensuite être utilisés pour renforcer un lien positif avec ces objets.

WDP commence à déployer DolphinGemma au cours de cette saison, a indiqué Google. En outre, le géant de la technologie le diffusera également en tant que modèle ouvert cet été. Google espère que ce modèle pourra être utilisé par les chercheurs qui tentent d'étudier d'autres espèces de cétacés, comme les grands dauphins ou les dauphins à long bec.

Des recherches sur la société des dauphins depuis des décennies

La compréhension d'une espèce nécessite un contexte approfondi, et c'est l'une des nombreuses choses que fournit le WDP. Depuis 1985, le WDP mène le plus long projet de recherche sous-marine sur les dauphins au monde, en étudiant une communauté spécifique de dauphins tachetés de l'Atlantique sauvages (Stenella frontalis) aux Bahamas, sur plusieurs générations. Cette approche non invasive, « dans leur monde, selon leurs conditions », permet d'obtenir un ensemble de données riche et unique : des décennies de vidéos et de sons sous-marins méticuleusement associés à l'identité des dauphins, à leur histoire et à leurs comportements observés.

L'observation et l'analyse de la communication naturelle et des interactions sociales des dauphins constituent l'un des principaux objectifs du WDP. Le travail sous l'eau permet aux chercheurs de relier directement les sons à des comportements spécifiques, ce que ne permet pas l'observation en surface. Depuis des décennies, ils établissent une corrélation entre les types de sons et les contextes comportementaux. En voici quelques exemples :

Des sifflements caractéristiques (noms uniques) qui peuvent être utilisés par les mères et les baleineaux pour se retrouver.
Les « squawks » en rafale, souvent observés lors de bagarres
Les « bourdonnements » par clics, souvent utilisés lors de la parade nuptiale ou de la poursuite des requins.

Il est essentiel de connaître les dauphins concernés pour une interprétation précise. Le but ultime de ce travail d'observation est de comprendre la structure et la signification potentielle de ces séquences sonores naturelles, en recherchant des modèles et des règles qui pourraient indiquer un langage. Cette analyse à long terme de la communication naturelle constitue le fondement de la recherche du WDP et fournit un contexte essentiel pour toute analyse de l'IA.

Présentation de DolphinGemma

L'analyse de la communication naturelle et complexe des dauphins est une tâche monumentale, et le vaste ensemble de données étiquetées de WDP offre une opportunité unique pour une IA de pointe.

C'est là qu'intervient DolphinGemma. Développé par Google, ce modèle d'IA utilise les technologies audio spécifiques de Google : le tokenizer SoundStream représente efficacement les sons des dauphins, qui sont ensuite traités par une architecture de modèle adaptée aux séquences complexes. Ce modèle de ~400M paramètres est optimisé pour fonctionner directement sur les téléphones Pixel que WDP utilise sur le terrain.

Ce modèle s'appuie sur les connaissances de Gemma, la collection de Google de modèles ouverts légers et à la pointe de la technologie qui sont construits à partir des mêmes recherches et technologies qui alimentent les modèles Gemini. Entraîné de manière intensive sur la base de données acoustique de WDP de dauphins tachetés sauvages de l'Atlantique, DolphinGemma fonctionne comme un modèle audio-in, audio-out, qui traite des séquences de sons naturels de dauphins pour identifier des modèles, des structures et finalement prédire les sons suivants probables dans une séquence, un peu comme les grands modèles de langage pour le langage humain prédisent le mot suivant ou l'élément dans une phrase.

WDP commence à déployer DolphinGemma cette saison sur le terrain, avec des avantages potentiels immédiats. En identifiant des motifs sonores récurrents, des grappes et des séquences fiables, le modèle peut aider les chercheurs à découvrir des structures cachées et des significations potentielles dans la communication naturelle des dauphins - une tâche qui nécessitait auparavant d'immenses efforts de la part des humains. À terme, ces motifs, auxquels s'ajoutent des sons synthétiques créés par les chercheurs pour désigner les objets avec lesquels les dauphins aiment jouer, pourraient permettre d'établir un vocabulaire partagé avec les dauphins pour une communication interactive.

Utilisation de téléphones Pixel pour écouter et analyser les sons émis par les dauphins

Outre l'analyse de la communication naturelle, le WDP poursuit également une voie distincte et parallèle : l'exploration des interactions bidirectionnelles potentielles à l'aide de la technologie dans l'océan. Cet effort a conduit au développement du système CHAT (Cetacean Hearing Augmentation Telemetry), en partenariat avec l'Institut de technologie de Géorgie. CHAT est un ordinateur sous-marin conçu non pas pour déchiffrer directement le langage naturel complexe des dauphins, mais pour établir un vocabulaire commun plus simple.

Le concept repose d'abord sur l'association de nouveaux sifflements synthétiques (créés par CHAT, distincts des sons naturels des dauphins) à des objets spécifiques appréciés par les dauphins, comme le sargassum, l'herbe de mer ou les écharpes utilisées par les chercheurs. En faisant la démonstration du système entre humains, les chercheurs espèrent que les dauphins, naturellement curieux, apprendront à imiter les sifflets pour demander ces objets. À terme, à mesure que les sons naturels des dauphins seront compris, ils pourront également être ajoutés au système.

Pour permettre une interaction bidirectionnelle, le système CHAT doit tout d'abord :

Entendre la mimique avec précision au milieu du bruit de l'océan.
Identifier le sifflement imité en temps réel.
Informer le chercheur (grâce à des écouteurs à conduction osseuse qui fonctionnent sous l'eau) de l'objet que le dauphin a « demandé ».
Permettre au chercheur de répondre rapidement en offrant le bon objet, renforçant ainsi la connexion.

Un Google Pixel 6 a géré l'analyse haute-fidélité des sons des dauphins en temps réel. La prochaine génération, centrée sur un Google Pixel 9 (recherche prévue pour l'été 2025), s'appuie sur cet effort en intégrant des fonctions de haut-parleur/microphone et en utilisant le traitement avancé du téléphone pour exécuter simultanément des modèles d'apprentissage profond et des algorithmes de correspondance de modèles.

L'utilisation des smartphones Pixel réduit le besoin de matériel personnalisé, améliore la maintenabilité du système, diminue la consommation d'énergie et réduit le coût et la taille de l'appareil - des avantages cruciaux pour la recherche sur le terrain en haute mer. Parallèlement, le pouvoir prédictif de DolphinGemma peut aider CHAT à anticiper et à identifier les imitations potentielles plus tôt dans la séquence de vocalisation, augmentant ainsi la vitesse à laquelle les chercheurs peuvent réagir aux dauphins et rendant les interactions plus fluides et renforcées.

Concernant l'ouverture du modèle, voici l'approche de Google :

Reconnaissant la valeur de la collaboration dans la découverte scientifique, nous prévoyons de partager DolphinGemma en tant que modèle ouvert cet été. Bien qu'il ait été formé aux sons du dauphin tacheté de l'Atlantique, nous prévoyons son utilité potentielle pour les chercheurs qui étudient d'autres espèces de cétacés, comme le grand dauphin ou le dauphin à long bec. Un réglage fin peut être nécessaire pour les vocalisations des différentes espèces, et la nature ouverte du modèle facilite cette adaptation.

En fournissant des outils comme DolphinGemma, nous espérons donner aux chercheurs du monde entier les moyens d'exploiter leurs propres ensembles de données acoustiques, d'accélérer la recherche de modèles et d'approfondir collectivement notre compréhension de ces mammifères marins intelligents.

Le chemin à parcourir pour comprendre la communication des dauphins est long, mais la combinaison des recherches sur le terrain menées par le WDP, de l'expertise technique de Georgia Tech et de la puissance de la technologie de Google ouvre de nouvelles possibilités passionnantes. Nous ne nous contentons plus d'écouter. Nous commençons à comprendre les motifs des sons, ouvrant ainsi la voie à un avenir où le fossé entre la communication humaine et celle des dauphins pourrait bien se réduire un peu plus.

Ce n'est pas la première fois qu'un tel projet est évoqué. En 2021, un projet simillaire était entamé par une équipe de chercheurs de Harvard, du MIT, de l'Imperial College de Londres, de la City University of New York, de l'Université de Haïfa, de l'UC Berkeley et de l'Institute for Scientific Interchange. Cette équipe interdisciplinaire de scientifiques travaillait sur le projet CETI (Cetacean Translation Initiative) qui a pour but de créer une IA capable de déchiffrer le langage des cachalots. Et pour y arriver, ils exploitent l’intelligence artificielle et plus précisément le machine learning pour essayer de décoder leurs chants.

Sources : Google, Wild Dolphin Project (WDP)

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le modèle ?

Voir aussi :

L'IA peut cataloguer les occupants d'une forêt simplement en écoutant. Cela pourrait permettre de vérifier si les projets de reboisement fonctionnent comme prévu

L'IA n'a toujours pas le bon sens pour comprendre le langage humain. Les chercheurs devraient aller au-delà du deep learning dans le traitement du langage naturel, selon une étude

Google lance SpeciesNet, un modèle d'IA open source pour identifier les espèces animales. Toutefois, cette approche inspire à la fois de l'optimisme et des interrogations

Vous avez lu gratuitement 1 721 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le laboratoire de recherche IA Google DeepMind a créé un modèle d'IA pour déchiffrer les vocalisations des dauphins, DolphinGemma, qui sera partagé en tant que modèle ouvert

Identifiant
Mot de passe

Mot de passe oublié ?