Google aurait franchi la première étape critique dans la construction de son modèle d'IA qui prendra en charge les mille langues les plus parlées au monde. L'entreprise a récemment publié de nouveaux détails sur son modèle de langage baptisé "Universal Speech Model" (USM). Google décrit USM comme une famille de modèles vocaux de pointe avec 2 milliards de paramètres entraînés sur 12 millions d'heures de parole et 28 milliards de phrases de texte. Actuellement, USM couvrirait un peu plus de 300 langues et serait déjà utilisé dans les produits de Google, tels que YouTube. Meta construit également une IA capable de comprendre toutes les langues.
L'avènement des grands modèles de langage (LLM) offre de nouvelles possibilités dans le domaine de l'IA pour développer des systèmes d'IA capables de comprendre et manipuler le langage naturel aussi bien qu'un humain. Les applications les plus populaires des grands modèles de langage sont les chatbots, tels que ChatGPT, mais certains acteurs se concentrent également sur d'autres usages qui, selon eux, permettront à terme de briser les barrières de la langue. En novembre, Google a annoncé son intention de créer un modèle de langage prenant en charge 1 000 des langues les plus parlées au monde, et a présenté brièvement son modèle USM.
Cette semaine, la société a publié un billet de blogue dans lequel il partage les avancées de son projet. Selon le billet de blogue, USM est une famille de modèles de la parole qui comprend deux milliards de paramètres qui ont été entraînés sur 12 millions d'heures de parole et 28 milliards de phrases de texte. Actuellement, USM est en mesure de comprendre un peu plus de 100 langues et est déjà utilisé dans les produits de Google, tels que YouTube, pour générer des sous-titres. En fait, Google explique que USM prend en charge la reconnaissance automatique de la parole (ASR), ce qui facilite la traduction des vidéos sur sa plateforme YouTube.
L'ASR détecte et traduit automatiquement les langues, notamment l'anglais, le mandarin, l'amharique, le cebuano, l'assamais, etc. Yu Zhang et James Qin, chercheurs chez Google, ont expliqué plus en détail comment USM a été formé. Selon eux, la difficulté fondamentale pour former un modèle tel qu'USM réside dans l'accès à un nombre suffisant de données. Dans une approche classique d'apprentissage supervisé, les données audio doivent être étiquetées manuellement ou collectées à partir d'une transcription préexistante. En fonction de la langue et de sa représentation, cela s'avère trop coûteux, trop long ou trop difficile à trouver.
Google a préféré utiliser une approche d'apprentissage autosupervisé qui s'appuie sur des données audio uniquement disponibles en grande quantité dans toutes les langues, ce qui facilite la mise à l'échelle. Après l'apprentissage autosupervisé sur les données audio, Google a soumis le modèle à une deuxième étape au cours de laquelle sa qualité et sa couverture ont été améliorées à l'aide de données textuelles, avant de l'affiner à l'aide de tâches en aval, dont la reconnaissance automatique de caractères. En utilisant cette approche, Google aurait constaté que son taux d'erreurs de mots (WER) était inférieur à 30 % dans 73 langues.
L'entreprise considère cela comme un véritable exploit. Pour les langues couramment utilisées, comme l'anglais américain, le taux relatif d'erreurs était inférieur de 6 % au modèle interne de pointe utilisé par l'entreprise. Les comparaisons avec d'autres ensembles de données accessibles au public auraient montré qu'USM est plus performant dans les tâches d'ASR et de traduction vocale. L'entreprise envisage maintenant d'utiliser l'architecture du modèle basé sur USM et le pipeline de formation pour construire son modèle de 1 000 langues. Selon les experts, cette technologie pourrait être utilisée à l'intérieur de lunettes à réalité augmentée.
Cela permettrait de détecter et de fournir des traductions en temps réel qui apparaissent juste devant vos yeux. Meta, la société mère de Facebook, construit d'ailleurs une IA similaire afin de faciliter les interactions des utilisateurs avec l'IA dans son métavers. Lors d'un événement virtuel en février de l'année dernière, le PDG de Meta, Mark Zuckerberg, a révélé que la division de recherche de l'entreprise travaille sur un système universel de traduction vocale qui pourrait rationaliser les interactions des utilisateurs avec l'IA dans son métavers. Meta estime que les traducteurs actuels mettent de côté environ 20 % de la population mondiale.
« La capacité de communiquer avec n'importe qui dans n'importe quelle langue est un superpouvoir dont les gens ont toujours rêvé, et l'IA va nous le donner de notre vivant. Notre plus grand objectif ici est de construire un modèle universel qui peut incorporer des connaissances à travers toutes les modalités, toutes les informations qui sont capturées par des capteurs riches », a déclaré Zuckerberg lors de l'événement en linge, en référence à un modèle d'IA que Meta a baptisé CAIRaoke. Selon le PDG de Meta, "CAIRaoke est un réseau neuronal qui offre la possibilité de construire des assistants sur les appareils". Meta travaille sur plusieurs IA de ce type.
Cette technologie semble encore un peu lointaine et pour l'instant, Google, Meta et Microsoft se livrent une forte concurrence dans le domaine des chatbots piloté par de grands modèles de langages. Depuis l'introduction de ChatGPT par OpenAI fin novembre, les trois entreprises y ont répondu en déployant leurs propres chatbots d'IA. Google a lancé Bard, un grand modèle de langage qui, bien qu'il ne soit pas encore disponible à grande échelle, sera probablement intégré à son moteur de recherche et accessible via sa barre de recherche. Ce faisant, Google renforcerait les capacités de son moteur de recherche comme l'a fait Microsoft avec Bing.
Cependant, rien n’est sûr et Google n'a pas spécialement communiqué sur les futures applications de Bard. Microsoft quant à elle s'appuie sur son partenariat pluriannuel avec OpenAI pour intégrer les technologies d'IA développées par le laboratoire d'IA de San Francisco dans ses produits. Bing a été mis à jour cette année pour intégrer les capacités de ChatGPT afin de proposer une recherche par chat aux utilisateurs. Enfin, Meta a dévoilé fin février son propre modèle de langage appelé LLaMA, notant qu'il est plus puissant et moins gourmand en ressources que ses concurrents. Ces modèles d'IA n'ont toutefois pas suscité le même engouement que ChatGPT.
Source : Google
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du modèle de langage USM de Google ?
Quelles comparaisons faites-vous avec le système rival que Meta développe ?
Voir aussi
Meta annonce qu'il construit une IA Babelfish pour traduire toutes les langues dans le monde, et ainsi faciliter les interactions des utilisateurs avec l'IA dans son métavers
Meta dévoile son propre modèle de langage appelé LLaMA, fonctionnant comme un chatbot d'IA ordinaire, et indique qu'il est plus puissant et moins gourmand en ressources que ses concurrents
Apprentice Bard, la réponse de Google a ChatGPT, donne une mauvaise réponse lors d'une démo de présentation, ce qui coûte à Alphabet environ 140 milliards de dollars de sa capitalisation boursière
Le moteur de recherche Bing alimenté par l'IA est désormais disponible sur les appareils mobiles et sur Skype, et prendra bientôt en charge la saisie vocale, selon Microsoft
Google se rapprocherait de la construction de son modèle d'IA capable de comprendre jusqu'à 1 000 langues,
L'entreprise dévoile un prototype qui serait capable d'interpréter 100 langues
Google se rapprocherait de la construction de son modèle d'IA capable de comprendre jusqu'à 1 000 langues,
L'entreprise dévoile un prototype qui serait capable d'interpréter 100 langues
Le , par Bill Fassinou
Une erreur dans cette actualité ? Signalez-nous-la !