Mistral lance Voxtral TTS : un modèle de synthèse vocale open source qui tient sur un smartphone

Mistral AI a lancé ce mardi 31 mars 2026 son premier modèle de synthèse vocale : Voxtral TTS. Open source, léger, capable de cloner une voix en moins de cinq secondes, ce modèle à 4 milliards de paramètres s’attaque directement à ElevenLabs et aux offres propriétaires de gros acteurs comme OpenAI.

Ce que Voxtral TTS sait faire

Voxtral TTS supporte neuf langues : anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe. La startup française met en avant quatre caractéristiques principales.

D’abord, la rapidité. Le modèle produit le premier son en 90 millisecondes pour un texte de 500 caractères, avec un facteur temps réel de 6x (une séquence de 10 secondes générée en 1,6 secondes environ). C’est un niveau de latence compatible avec les agents vocaux en temps réel.

Ensuite, l’adaptabilité. Voxtral TTS peut imiter une voix personnalisée avec un échantillon de moins de cinq secondes, en capturant accents, intonations, rythme naturel et les irrégularités de parole qui rendent une voix reconnaissable. La plupart des modèles concurrents nécessitent des échantillons bien plus longs pour un résultat équivalent.

Un modèle qui tient sur un smartphone

Avec 4 milliards de paramètres, Voxtral TTS est conçu pour fonctionner sur du matériel grand public : smartphone, laptop, voire appareils embarqués. Pierre Stock, VP Science Operations chez Mistral, résume l’ambition : « On a construit un petit modèle qui peut tenir sur une montre connectée, un smartphone ou un laptop. Le coût est une fraction de ce qui existe sur le marché, mais les performances sont au niveau de l’état de l’art. »

Cette compacité est stratégique. Le déploiement en local permet aux entreprises de ne pas envoyer leurs données audio vers des API tierces, un argument de poids pour les secteurs soumis à des contraintes de confidentialité : santé, finance, défense.

Face à ElevenLabs et OpenAI

Les benchmarks internes de Mistral sont clairs sur le positionnement : Voxtral TTS surpasse ElevenLabs Flash v2.5 sur la naturalité du discours selon des évaluateurs humains natifs, tout en maintenant une latence comparable. Sur la qualité globale, il se mesure à ElevenLabs v3.

La différence principale reste l’ouverture du code. Voxtral TTS est disponible en open weights, ce qui signifie que n’importe quelle entreprise peut le déployer sur sa propre infrastructure, le modifier ou l’intégrer dans des produits sans dépendre de l’API Mistral.

Une brique pour les agents IA multimodaux

Ce lancement s’inscrit dans une stratégie plus large. Mistral veut construire une suite complète de produits vocaux pour l’entreprise. Voxtral TTS rejoint les deux modèles de transcription déjà publiés en 2023, destinés respectivement au traitement par lots et aux applications temps réel à faible latence.

L’objectif déclaré est une plateforme capable de traiter simultanément des flux audio, texte et image. Pour les agents IA qui doivent interagir oralement avec des humains, parler naturellement dans plusieurs langues sans perdre la cohérence de la voix, Voxtral TTS est la pièce manquante dans l’offre de Mistral.

Le modèle est accessible dès maintenant dans Mistral Studio pour les tests, et via l’API pour les déploiements en production.

Ce que Voxtral TTS sait faire

Un modèle qui tient sur un smartphone

Face à ElevenLabs et OpenAI

Une brique pour les agents IA multimodaux

L’essentiel de la robotique, une fois par semaine.

Continuer sur ce sujet

Genesis Mission : Trump engage 5 milliards de dollars fédéraux pour faire de l’IA le moteur de la science américaine

Le Robotaxi Tesla s’étend à 7 villes dans 3 États en moins de trois semaines : Orlando et Tampa rejoignent la flotte autonome

Google lance Gemini 3.6 Flash et annonce le pré-entraînement de Gemini 4 : 17 % de tokens en moins et un modèle cybersécurité inédit