Mistral lance son nouveau modèle de synthèse vocale Voxtral TTS, qui prend en charge neuf langues et se distinguerait par une « génération de parole naturelle ».
Mistral AI introduit Voxtral TTS, un nouveau modèle de synthèse vocale qui « mise sur une génération de parole naturelle, expressive et multilingue pour les applications professionnelles ». Selon Mistral, le modèle combine une faible latence avec un format relativement compact de 4 milliards de paramètres, ce qui le rend adapté aux agents vocaux d’IA évolutifs.
Focus sur la parole naturelle et émotionnelle
Mistral écrit dans un article de blog que Voxtral TTS va au-delà de la synthèse vocale classique en ne se contentant pas de prononcer correctement le texte, mais en interprétant également le contexte et l’émotion. Le modèle peut traiter des nuances telles que le ton, le rythme et l’intention, ce qui rend la parole plus naturelle. De plus, il peut s’adapter à des voix spécifiques. Après avoir écouté quelques secondes d’audio de référence, le modèle peut imiter une voix, y compris les accents et le style d’élocution.
Le modèle prend en charge neuf langues, dont l’anglais, le français, l’allemand et le néerlandais. Selon Mistral, le modèle peut également gérer la parole avec différents accents, où, par exemple, une voix française parle anglais avec un accent naturel.
Ciblé sur les cas d’utilisation professionnels
Mistral positionne Voxtral TTS pour des applications professionnelles. Pensez au service client automatisé, aux services financiers et à la traduction en temps réel. Le modèle peut être intégré dans les piles d’IA existantes. Voxtral TTS est disponible via API et peut être testé dans Mistral Studio. Le prix est de 0,016 dollar par 1 000 caractères, ce qui rend également le modèle économiquement intéressant pour des implémentations à grande échelle.
