Mistral a sorti Voxtral Transcribe 2, un modèle de transcription audio open-source qui promet une précision inégalée en français. On l'a testé pendant une semaine sur des fichiers réels : réunions, interviews, podcasts et conférences. Voici notre retour complet.
Qu'est-ce que Voxtral Transcribe 2 ?
Voxtral Transcribe 2 est le dernier modèle de transcription de Mistral AI, la startup française d'intelligence artificielle. Contrairement à Whisper d'OpenAI, ce modèle a été entraîné avec un focus particulier sur les langues européennes, et notamment le français.
Le modèle est disponible en deux versions :
- Voxtral Transcribe 2 — le modèle complet, accessible via l'API Mistral
- Voxtral Transcribe 2 Realtime — une version optimisée pour le streaming en temps réel
Le modèle Realtime est disponible en open-source sous licence Apache 2.0. Vous pouvez l'exécuter sur vos propres serveurs.
Notre protocole de test
Pour évaluer Voxtral, nous avons constitué un corpus de 50 fichiers audio représentatifs :
- 20 réunions d'entreprise (1 à 3 locuteurs, qualité variable)
- 10 interviews journalistiques (2 locuteurs, bonne qualité)
- 10 podcasts (1 à 4 locuteurs, qualité studio)
- 5 conférences (1 locuteur, micro-cravate)
- 5 fichiers difficiles (bruit de fond, accents régionaux, vocabulaire technique)
Chaque fichier a été transcrit avec Voxtral, Whisper (large-v3), et ElevenLabs Scribe v2 pour comparaison.
Les résultats
Précision générale
Sur l'ensemble du corpus, Voxtral Transcribe 2 affiche un Word Error Rate (WER) de 3.8% en français, contre 6.2% pour Whisper et 4.5% pour ElevenLabs.
Détection des locuteurs
La diarisation (identification de qui parle) est un point fort de Voxtral. Sur nos fichiers multi-locuteurs, le modèle identifie correctement les changements de locuteurs dans 94% des cas, contre 88% pour Whisper combiné à pyannote.
Gestion des accents
C'est probablement le plus gros avantage de Voxtral sur ses concurrents : le modèle gère remarquablement bien les accents français régionaux. Nos fichiers avec des locuteurs du sud de la France, de Belgique et de Suisse ont été transcrits avec une précision quasi identique au français standard.
Vocabulaire technique
Sur des fichiers contenant du vocabulaire médical, juridique et technique IT, Voxtral s'en sort bien grâce à son context biasing — une fonctionnalité qui permet de lui fournir une liste de termes attendus.
{
"context_biasing": {
"terms": ["Kubernetes", "microservices", "PostgreSQL"],
"boost": 5
}
}Le prix
Voxtral Transcribe 2 est le modèle le moins cher de notre comparatif à 0.003$/minute, soit deux fois moins cher que Whisper et cinq fois moins qu'ElevenLabs.
Pour un usage intensif (100 heures par mois), la facture mensuelle serait de :
| Modèle | Coût mensuel | Économie vs Whisper |
|---|---|---|
| Voxtral | 18$ | -50% |
| Whisper | 36$ | — |
| ElevenLabs | 90$ | +150% |
Écrivox intègre Voxtral par défaut sur tous les plans, même le plan gratuit. Vous bénéficiez automatiquement du meilleur rapport qualité/prix du marché.
Les limites
Voxtral n'est pas parfait. Voici les points faibles que nous avons identifiés :
-
Pas de timestamps au mot — Voxtral fournit des timestamps au niveau du segment, pas au mot. C'est suffisant pour la plupart des usages, mais ça complique la génération de sous-titres précis.
-
Latence API — Le temps de réponse moyen est de 4.2 secondes pour un fichier d'une minute, contre 2.8 secondes pour Whisper. Pas un problème pour du batch, mais notable pour du temps réel.
-
Langues limitées — Voxtral excelle en français et en anglais, mais la qualité baisse sur les langues moins courantes (arabe, japonais, coréen).
Notre avis
Voxtral Transcribe 2 est aujourd'hui le meilleur modèle de transcription pour le français. La combinaison précision + prix + gestion des accents en fait un choix évident pour les professionnels francophones.
C'est pour cette raison que nous l'avons intégré comme moteur par défaut dans Écrivox. Nos utilisateurs bénéficient de la meilleure transcription possible sans avoir à se soucier du choix technique.
Attention : les performances peuvent varier selon la qualité de l'audio d'entrée. Un enregistrement avec un micro-cravate dans un bureau calme donnera toujours de meilleurs résultats qu'un enregistrement téléphonique avec du bruit de fond.
En résumé
Pour qui ? Tous ceux qui ont besoin de transcrire du français avec précision.
Le + : Meilleur WER en français, prix imbattable, gestion des accents.
Le - : Pas de timestamps au mot, latence légèrement supérieure.
Notre note : 9/10
Testez Voxtral sur Écrivox — 60 minutes offertes
Essayer gratuitement