Reconnaissance des locuteurs, jusqu'à 8 voix
L'empreinte vocale sépare et étiquète chaque intervention — Locuteur 1, Locuteur 2 deviennent des noms réels en un clic. Parfait pour les entretiens, les podcasts et les débats.
Scribix transforme n'importe quelle vidéo en un texte précis et étiqueté par locuteur en quelques secondes. Téléversez un fichier MP4, MOV, WebM ou AVI — ou collez un lien YouTube — et obtenez une transcription complète avec des horodatages précis au mot en 200+ langues. Gratuit avec connexion Google, fichiers jusqu'à 1 Go.
Déposez une vidéo ou un fichier audio, ou cliquez pour parcourir.
Max 1 Go · MP4 · MOV · WEBM · AVI · MKV · MP3 · WAV · M4A
Vous travaillez avec des enregistrements audio uniquement ? Ouvrir la page audio vers texte dédiée.
Approuvé par les créateurs vidéo, journalistes et podcasters du monde entier
Un convertisseur vidéo-texte transcrit l'audio parlé à l'intérieur d'une vidéo en texte écrit. Les modèles de parole IA modernes identifient les mots, séparent les locuteurs et ajoutent des horodatages — en produisant une transcription modifiable en minutes au lieu d'heures. Scribix utilise la même classe de modèle de parole que les suites de transcription professionnelles — connectez-vous avec Google pour commencer et produire une sortie suffisamment propre pour être publiée.
L'empreinte vocale sépare et étiquète chaque intervention — Locuteur 1, Locuteur 2 deviennent des noms réels en un clic. Parfait pour les entretiens, les podcasts et les débats.
Du mandarin au maltais avec support du code-switching. Le modèle s'adapte lorsque les locuteurs changent de langue en cours d'enregistrement.
Cliquez sur n'importe quel mot pour lire ce moment exact. Les horodatages s'exportent avec les sous-titres SRT et VTT prêts pour les lecteurs vidéo.
TXT, DOCX, SRT, VTT et CSV — couvre les documents, les sous-titres, les feuilles de calcul et les workflows de relecture sans conversion supplémentaire.
99,9% sur l'audio clair dans les langues principales, mesuré sur un benchmark de 50 heures de conférences TED, de podcasts et d'entretiens. Le bruit de fond et les accents sont gérés avec élégance.
TLS 1.3 en transit, AES-256 au repos, traitement en mémoire chiffrée. Conforme à SOC 2, conforme au RGPD. Nous ne formons jamais de modèles sur votre audio.
Glissez et déposez un fichier MP4, MOV, AVI, MKV ou WebM (jusqu'à 1 Go), ou collez une URL YouTube, TikTok ou Instagram. Aucune conversion de format — Scribix gère tous les conteneurs courants.
Notre modèle détecte automatiquement la langue (200+ supportées), sépare jusqu'à 8 locuteurs et ajoute des horodatages à chaque mot. Une vidéo d'une heure se transcrit en environ 90 secondes.
Cliquez sur n'importe quel mot pour lire ce moment exact. Modifiez en ligne, puis téléchargez en TXT, DOCX, SRT, VTT ou CSV — ou copiez la transcription complète dans votre éditeur.
Du YouTubeur qui réutilise 90 minutes de vidéo en courts métrages, au journaliste qui cite un entretien de 2 heures avec précision — la conversion vidéo-texte est la façon dont la conversation enregistrée devient une œuvre publiée. Scribix est l'outil derrière cela.
Générez des sous-titres pour l'accessibilité, réutilisez de longues vidéos en articles de blog, créez des archives d'épisodes consultables. Les horodatages au mot rendent trivial l'extraction de clips viraux avec une précision [12:04 – 12:38].
Convertissez chaque épisode en notes d'émission, contenu de blog et transcriptions indexées par SEO — la différence entre être trouvé sur Google et non. Les étiquettes des locuteurs arrivent prêts à publier.
Transcrivez un entretien de 90 minutes pendant que vous allez au suivant. Les étiquettes des locuteurs signifient que vous pouvez citer les sources avec précision sans réécouter — du texte prêt à citer en une fraction du temps.
Effectuez un codage qualitatif sur des groupes de discussion, des conférences et des enregistrements de terrain sans payer $1.50/min pour une transcription humaine. Marquez les thèmes, recherchez chaque mot, exportez vers Dovetail ou Notion.
Transformez un cours de 2 heures en notes consultables. Marquez un moment confus, cliquez sur le mot, réécoutez. Essayez gratuitement, puis un seul mois Starter couvre tout un semestre de cours.
Transcriptions de première passe de témoignages, réunions du conseil d'administration et entretiens de conformité — puis faites vérifier par un humain les parties qui comptent. Transcriptions avec code temporel et chaîne de traitement vérifiable. Conforme à SOC 2.
Nous effectuons des tests mensuels par rapport aux principaux outils vidéo-texte sur un ensemble de test de 200 heures couvrant 12 langues, 48 locuteurs et 4 environnements audio — studio, téléphone, conférence et extérieur.
| Caractéristique | Scribix | Otter | Rev | Whisper.cpp |
|---|---|---|---|---|
| Essai gratuit | 45 min unique | 300 / mo | 45 trial | Unlimited |
| Limite de taille de fichier | 1 GB | 1.1 GB | 2 GB | Local |
| Langues supportées | 200+ | 30+ | 38 | 99 |
| Diarisation des locuteurs | ||||
| Horodatages au mot | ||||
| Support des URL YouTube | ||||
| Formats d'exportation | 7 | 4 | 5 | 1 |
| Fichiers supprimés après | 7 days | 30 days+ | 30 days+ | Self-host |
| Tarification — 100 heures | $12 | $30 | $150 | Compute only |
“Je produis un podcast vidéo hebdomadaire avec trois invités. Scribix transforme trois heures d'audio qui se chevauchent en quelque chose que je peux coller directement dans mon CMS. Les étiquettes de locuteur seules m'économisent un après-midi complet.”
“Nous avions une affaire judiciaire où nous avions besoin de transcriptions avec code temporel de 14 heures de vidéo de témoignage. Scribix a livré une sortie plus propre que le service certifié pour lequel nous payions $4/min. Incroyable.”
“J'enregistre chaque entretien de recherche sur le terrain en bahasa avec du code-switched anglais sur vidéo. Les autres outils échouent. Scribix transcrit le tout sans que je touche à un paramètre de langue.”
Vous ne trouvez pas ce que vous cherchez? Envoyez un email à hello@scribix.app et une vraie personne répond dans une journée ouvrable.
Oui. L'essai gratuit nécessite uniquement une connexion Google — pas de carte de crédit. Vous bénéficiez de 45 minutes de transcription pour tester la qualité avant de décider. Les plans payants déverrouillent des fichiers plus longs, la file d'attente prioritaire, les bibliothèques d'équipe et une rétention de fichiers plus longue.
MP4, MOV, AVI, MKV et WebM jusqu'à 1 Go chacun. Les fichiers audio seul (MP3, WAV, M4A) sont également supportés. Collez n'importe quelle URL YouTube, TikTok ou Instagram pour une entrée basée sur le flux — aucun téléchargement nécessaire de votre côté.
99,9% sur l'audio clair dans les langues principales, mesuré sur un benchmark de 50 heures de conférences TED, de podcasts et d'entretiens. La précision diminue légèrement avec les accents marqués, la musique de fond ou l'audio bas débit — mais les étiquettes de locuteur et les horodatages au mot rendent les corrections rapides.
Oui. Collez n'importe quelle URL YouTube dans le générateur. Scribix retranscrit l'audio avec notre modèle plutôt que d'utiliser les sous-titres automatiques de YouTube (généralement 70–80% précis). Cela produit une sortie plus propre, plus d'étiquettes de locuteur, plus d'horodatages au mot que YouTube n'expose pas.
200+, avec détection automatique de la langue. Le modèle gère le code-switching (anglais ↔ espagnol, anglais ↔ mandarin) dans le même enregistrement. Aucun besoin de pré-sélectionner une langue principale.
Oui. L'empreinte vocale identifie jusqu'à 8 locuteurs distincts et étiquète chaque ligne en conséquence. Vous pouvez renommer Locuteur 1, Locuteur 2, etc. en noms réels après la transcription, et le modèle se souvient des voix sur les enregistrements.
Environ 1 minute de temps de calcul par heure de vidéo pour les MP4 à audio clair. Une réunion de 30 minutes prend environ 45 secondes. L'étape de récupération pour les vidéos YouTube ajoute 5–15 secondes pour le téléchargement.
Les fichiers sont téléversés sur TLS 1.3, traités en mémoire chiffrée et supprimés dans les 24 heures. Nous ne formons pas de modèles sur l'audio utilisateur. Infrastructure conforme à SOC 2, traitement des données conforme au RGPD, et options de traitement régional UE + États-Unis.
Cinq formats : TXT (simple), DOCX (Word), SRT (sous-titres), VTT (sous-titres web) et CSV (compatible tableur). Cliquez pour modifier en ligne avant d'exporter.
Oui — mais pour un flux de travail centré sur l'audio, notre outil dédié audio-texte est conçu à cet effet. Même moteur, même précision, interface optimisée pour l'audio.
Essayez gratuitement avec une connexion Google — 45 minutes, pas de carte de crédit. Votre première transcription apparaît avant que vous ayez terminé votre café.