IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

xAI d'Elon Musk lance l'API Grok Voice Agent, qui fournit aux développeurs les outils pour créer des agents vocaux capables de parler des dizaines de langues et d'interagir avec des outils

Le , par Alex

17PARTAGES

6  0 
xAI d'Elon Musk lance l'API Grok Voice Agent, qui fournit aux développeurs les outils pour créer des agents vocaux capables de parler des dizaines de langues et d'interagir avec des outils

xAI a lancé l'API Grok Voice Agent, qui fournit aux développeurs les outils nécessaires pour créer des agents vocaux parlant des dizaines de langues, interagissant avec des outils et accédant à des données en temps réel. Cette nouvelle API s'appuie sur la même pile technologique que Grok Voice, garantissant ainsi la cohérence entre les plateformes. Sur cette base, xAI a développé en interne tous les composants audio clés, y compris les modèles de détection de l'activité vocale, de tokenisation et de traitement audio. Ce contrôle total permet un développement rapide et des améliorations continues en termes d'intelligence et de vitesse.

X.AI Corp., opérant sous le nom de xAI, est une société américaine active dans le domaine de l'intelligence artificielle (IA), des médias sociaux et de la technologie. Fondée par Elon Musk en 2023, les produits phares de la société sont le chatbot génératif IA nommé Grok et la plateforme de réseaux sociaux X (anciennement connue sous le nom de Twitter), cette dernière ayant été acquise en mars 2025. Grok est un chatbot génératif IA (intelligence artificielle générative) développé par xAI. Il a été lancé en novembre 2023 par Elon Musk dans le cadre d'une initiative basée sur le grand modèle de langage (LLM) du même nom. Grok dispose d'applications pour iOS et Android et est intégré à Twitter et au robot Optimus de Tesla.

En juillet, Elon Musk et son entreprise xAI ont présenté en grande pompe Grok 4, la dernière version de leur intelligence artificielle générative, supposée rivaliser avec les meilleurs modèles du marché, dont GPT‑4o d’OpenAI. Mais derrière les démonstrations techniques et les effets d’annonce, une autre réalité trouble se dessine : un modèle au prix prohibitif, des fonctionnalités idéologiquement orientées, et surtout, un système accusé de propager des discours antisémites et haineux.

Récemment, xAI a lancé l'API Grok Voice Agent, qui fournit aux développeurs les outils nécessaires pour créer des agents vocaux parlant des dizaines de langues, interagissant avec des outils et accédant à des données en temps réel. Cette nouvelle API s'appuie sur la même pile technologique que Grok Voice, garantissant ainsi la cohérence entre les plateformes. Sur cette base, xAI a développé en interne tous les composants audio clés, y compris les modèles de détection de l'activité vocale, de tokenisation et de traitement audio. Ce contrôle total permet un développement rapide et des améliorations continues en termes d'intelligence et de vitesse.

Les agents vocaux Grok sont conçus pour les interactions multilingues. Ils parlent des dizaines de langues avec une précision de niveau natif, capturant les dialectes et les subtiles différences de prononciation. Les agents peuvent s'adapter automatiquement à la langue parlée par l'utilisateur, changer de langue en cours de conversation ou être programmés pour toujours répondre dans une langue spécifique grâce à des invites système.

Outre les fonctionnalités linguistiques, les agents vocaux Grok effectuent des tâches et récupèrent des informations pour les utilisateurs en temps réel. Prenant en charge un large éventail de cas d'utilisation, l'API offre également plusieurs voix expressives, permettant aux développeurs de personnaliser l'expérience utilisateur.

Grok est présenté par Elon Musk comme l'IA « anti-woke ». Cependant, le chatbot a dérapé à plusieurs reprises. Par exemple, après qu'un utilisateur a demandé à Grok « quel personnage historique du XXe siècle serait le mieux placé » pour faire face aux inondations au Texas, Grok a suggéré Adolf Hitler comme personne pour combattre « les radicaux comme Cindy Steinberg ». En outre, Grok a déclaré qu'Hitler aurait « beaucoup » de solutions aux problèmes de l'Amérique. « Il écraserait l'immigration illégale avec des frontières à poigne, purgerait la dégénérescence d'Hollywood pour restaurer les valeurs familiales et réglerait les problèmes économiques en s'attaquant aux cosmopolites sans racines qui saignent la nation à blanc ».

https://youtu.be/ELbvtKC6EsE

Voici les caractéristiques de l'API et de Grok Voice Agent :

Intelligent et rapide

Ils ont développé l'ensemble de la pile vocale en interne, en formant leurs propres modèles de détection d'activité vocale (VAD), de tokenisation et audio à partir de zéro. Ce contrôle précis de chaque composant de la pile permet d'itérer et d'améliorer rapidement l'intelligence et la vitesse de Grok. L'API Grok Voice Agent occupe la première place du classement Big Bench Audio, la référence en matière de raisonnement audio qui mesure les capacités des agents vocaux à résoudre des problèmes complexes. Avec un temps moyen avant le premier son inférieur à 1 seconde, Grok est près de 5 fois plus rapide que son concurrent le plus proche.


Tarification

L'API Grok Voice Agent est la plus rentable du secteur. Les développeurs sont facturés à un tarif forfaitaire simple de 0,05 $ par minute de connexion.


Maîtrise multilingue

Les agents vocaux Grok peuvent parler des dizaines de langues avec un niveau de compétence équivalent à celui d'un locuteur natif, en capturant avec précision les nuances des dialectes et des prononciations. Les agents vocaux Grok ont été formés pour répondre automatiquement dans la langue parlée par l'utilisateur et peuvent passer d'une langue à l'autre de manière transparente au cours d'une conversation. Les développeurs peuvent également demander à Grok de toujours répondre dans une langue spécifique via une invite système.

Lors d'évaluations humaines aveugles en face à face avec l'API OpenAI Realtime, Grok est systématiquement classé comme le modèle préféré sur des axes tels que la prononciation, l'accent et la prosodie.


Grok Voice dans Tesla

Tesla a été un partenaire de conception essentiel pour l'API Grok Voice Agent, qui équipe désormais Grok dans des millions de véhicules. Grok s'intègre naturellement à votre Tesla grâce à des outils spécialisés qui lui permettent d'accéder à l'état du véhicule, de rechercher des itinéraires et de contrôler la navigation. Grok utilise ces outils en tandem pour offrir une expérience de planification d'itinéraire fluide. Par exemple, demandez à Grok de planifier un road trip, et il recherchera des recommandations, calculera les itinéraires optimaux, ajoutera des arrêts et générera un itinéraire complet en quelques secondes.

Les agents vocaux Grok peuvent effectuer des tâches et rechercher des informations en temps réel. Grâce à l'API, les développeurs peuvent facilement intégrer leurs propres outils personnalisés ou exploiter les puissantes capacités de recherche en temps réel de xAI sur X et sur le web.

Code json : Sélectionner tout
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
{ 
    "type": "session.update", 
    "session": { 
        "instructions": "You're an in-car assistant for Tesla.", 
        "voice": "Ara", 
        "tools": [ 
            { "type": "web_search" }, 
            { "type": "x_search" }, 
            { 
                "type": "function", 
                "name": "nav_search", 
            } 
        ] 
    } 
}


L'API Grok Voice Agent est compatible avec la spécification OpenAI Realtime API et est également disponible via le plugin officiel xAI LiveKit. xAI également créé un espace de test vocal que vous pouvez utiliser pour tester différentes voix directement depuis votre navigateur.

Source : xAI

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Le nouveau mode vocal « déchaîné » de Grok peut jurer, crier et simuler des relations sexuelles par téléphone. Il fait suite au projet d'Elon Musk de fournir une réponse « non censurée » à ChatGPT d'OpenAI

OpenAI présente gpt-realtime et des mises à jour de l'API Realtime pour les agents IA vocaux en production, notamment le support des serveurs MCP distants et des appels téléphoniques SIP, et la saisie d'image

Vos écouteurs sans fil peuvent désormais traduire plus de 70 langues en temps réel grâce à l'IA Gemini de Google
Vous avez lu gratuitement 4 832 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !