Sprechererkennung, bis zu 8 Stimmen
Voice-Fingerprinting trennt und beschriftet jeden Redebeitrag – "Sprecher 1", "Sprecher 2" werden mit einem Klick zu echten Namen. Perfekt für Interviews, Podcasts und Panels.
Scribix wandelt jedes Video in sekundenschnelle präzise, sprecheretikettierte Text um. Laden Sie eine MP4-, MOV-, WebM- oder AVI-Datei hoch – oder fügen Sie einen YouTube-Link ein – und erhalten Sie ein vollständiges Transkript mit Zeitstempel auf Wortebene in 200+ Sprachen. Kostenlos mit Google-Anmeldung, Dateien bis zu 1 GB.
Ziehen Sie eine Video- oder Audiodatei herein, oder klicken Sie zum Durchsuchen.
Max. 1GB · MP4 · MOV · WEBM · AVI · MKV · MP3 · WAV · M4A
Arbeitest du mit reinen Audioaufnahmen? Die eigene Audio-zu-Text-Seite öffnen.
Vertraut von Videokünstlern, Journalisten und Podcastern weltweit
Ein Video-zu-Text-Konverter transkribiert die gesprochene Audio in einem Video in geschriebenen Text. Moderne KI-Sprachmodelle identifizieren Wörter, trennen Sprecher und fügen Zeitstempel an – was ein editierbares Transkript in Minuten statt Stunden ergibt. Scribix wird mit derselben Art von Sprachmodell ausgeführt, die professionelle Transkriptionsprogramme unterstützen — melden Sie sich mit Google an, um loszulegen und eine Ausgabe zu erzeugen, die sauber genug ist, um veröffentlicht zu werden.
Voice-Fingerprinting trennt und beschriftet jeden Redebeitrag – "Sprecher 1", "Sprecher 2" werden mit einem Klick zu echten Namen. Perfekt für Interviews, Podcasts und Panels.
Von Mandarin bis Maltesisch mit Code-Switching-Unterstützung. Das Modell passt sich an, wenn Sprecher die Sprache wechseln.
Klicken Sie auf ein beliebiges Wort, um genau diesen Moment abzuspielen. Zeitstempel werden mit SRT- und VTT-Untertiteln exportiert, die für Videoplayer bereit sind.
TXT, DOCX, SRT, VTT und CSV – deckt Dokumente, Untertitel, Tabellen und Prüf-Workflows ohne zusätzliche Konvertierung ab.
99,9% bei klarem Audio in Primärsprachen, gemessen anhand eines 50-Stunden-Benchmarks von TED-Talks, Podcasts und Interviews. Hintergrundgeräusche und Akzente werden elegant bewältigt.
TLS 1.3 in der Übertragung, AES-256 im Ruhezustand, Verarbeitung im verschlüsselten Speicher. SOC 2-konform, GDPR-konform. Wir trainieren nie Modelle auf Ihrem Audio.
Ziehen Sie eine MP4-, MOV-, AVI-, MKV- oder WebM-Datei (bis zu 1 GB) per Drag-and-Drop, oder fügen Sie eine YouTube-, TikTok- oder Instagram-URL ein. Keine Formatkonvertierung – Scribix verarbeitet jeden gängigen Container.
Unser Modell erkennt die Sprache automatisch (200+ unterstützt), trennt bis zu 8 Sprecher und fügt Zeitstempel an jedes Wort an. Ein 1-Stunden-Video wird in etwa 90 Sekunden transkribiert.
Klicken Sie auf ein beliebiges Wort, um genau diesen Moment abzuspielen. Bearbeiten Sie inline und laden Sie dann als TXT, DOCX, SRT, VTT oder CSV herunter – oder kopieren Sie das gesamte Transkript in Ihren Editor.
Von einem YouTuber, der 90 Minuten Filmmaterial in Shorts umwandelt, bis zu einem Journalisten, der ein 2-Stunden-Interview präzise zitiert – Video-zu-Text ist, wie aufgezeichnete Gespräche zu veröffentlichten Werken werden. Scribix ist das Werkzeug dahinter.
Generieren Sie Untertitel für Barrierefreiheit, formen Sie lange Videos in Blog-Beiträge um, erstellen Sie durchsuchbare Episode-Archive. Zeitstempel auf Wortebene machen es trivial, virale Clips mit [12:04 – 12:38]-Genauigkeit zu extrahieren.
Konvertieren Sie jede Episode in Show Notes, Blog-Inhalte und SEO-indizierte Transkripte – der Unterschied zwischen gefunden werden in Google und nicht. Sprecherbeschriftungen werden veröffentlichungsbereit geliefert.
Transkribieren Sie ein 90-Minuten-Interview, während Sie zur nächsten gehen. Sprecherbeschriftungen bedeuten, dass Sie Quellen genau zitieren können, ohne erneut zuzuhören – zitierfertige Text in einem Bruchteil der Zeit.
Führen Sie qualitative Codierung für Fokusgruppen, Vorlesungen und Feldaufnahmen durch, ohne $1.50/min für menschliche Transkription zu bezahlen. Tag-Themen, durchsuchen Sie jedes Wort, exportieren Sie zu Dovetail oder Notion.
Wandeln Sie eine 2-Stunden-Vorlesung in durchsuchbare Notizen um. Markieren Sie einen verwirrenden Moment, klicken Sie auf das Wort, hören Sie es erneut. Testen Sie kostenlos, dann deckt ein einziger Starter-Monat ein ganzes Semester an Vorlesungen ab.
Erste Transkripte von Aussagen, Vorstandssitzungen und Compliance-Interviews – dann lassen Sie einen Menschen die Teile überprüfen, die wichtig sind. Zeitcodierte Transkripte und eine nachvollziehbare Verarbeitungskette. SOC 2-konform.
Wir benchmarken monatlich gegen die führenden Video-zu-Text-Tools anhand eines 200-Stunden-Test-Sets mit 12 Sprachen, 48 Sprechern und 4 Audioumgebungen – Studio, Telefon, Konferenz und Außenbereich.
| Funktion | Scribix | Otter | Rev | Whisper.cpp |
|---|---|---|---|---|
| Kostenlose Testversion | 45 Min einmalig | 300 / mo | 45 trial | Unlimited |
| Dateigröße-Limit | 1 GB | 1.1 GB | 2 GB | Local |
| Unterstützte Sprachen | 200+ | 30+ | 38 | 99 |
| Sprechertrennung | ||||
| Zeitstempel auf Wortebene | ||||
| YouTube URL-Unterstützung | ||||
| Exportformate | 7 | 4 | 5 | 1 |
| Dateien gelöscht nach | 7 days | 30 days+ | 30 days+ | Self-host |
| Preisgestaltung – 100 Stunden | $12 | $30 | $150 | Compute only |
“Ich produziere einen wöchentlichen Video-Podcast mit drei Gästen. Scribix verwandelt drei Stunden überlappender Audio in etwas, das ich direkt in mein CMS einfügen kann. Allein die Sprecherbeschriftungen sparen mir einen ganzen Nachmittag.”
“Wir hatten einen Rechtsfall, in dem wir zeitcodierte Transkripte von 14 Stunden Aussage-Video brauchten. Scribix lieferte eine sauberere Ausgabe als der beglaubigte Service, den wir $4/min gezahlt hatten. Verrückt.”
“Ich nehme jedes Feldforschungs-Interview in Bahasa mit Code-gewechseltem Englisch auf Video auf. Andere Tools scheitern. Scribix transkribiert das Ganze, ohne dass ich eine Spracheinstellung berühre.”
Können Sie nicht finden, was Sie suchen? Senden Sie eine E-Mail an hello@scribix.app und eine echte Person antwortet innerhalb eines Arbeitstages.
Ja. Die kostenlose Testversion benötigt nur eine Google-Anmeldung – keine Kreditkarte. Sie erhalten 45 Minuten Transkription, um die Qualität zu testen, bevor Sie sich entscheiden. Bezahlte Pläne entsperren längere Dateien, Prioritätswarteschlange, Team-Bibliotheken und längere Dateispeicherung.
MP4, MOV, AVI, MKV und WebM bis zu 1 GB jeweils. Nur-Audio-Dateien (MP3, WAV, M4A) werden ebenfalls unterstützt. Fügen Sie eine beliebige YouTube-, TikTok- oder Instagram-URL für Stream-basierte Eingabe ein – kein Download auf Ihrer Seite erforderlich.
99,9% bei klarem Audio in Primärsprachen, gemessen anhand eines 50-Stunden-Benchmarks von TED-Talks, Podcasts und Interviews. Die Genauigkeit sinkt leicht bei starken Akzenten, Hintergrundmusik oder niedrig-bitraten Audio – aber Sprecherbeschriftungen und Zeitstempel auf Wortebene machen Korrektionen schnell.
Ja. Fügen Sie eine beliebige YouTube-URL in den Generator ein. Scribix transkribiert das Audio mit unserem Modell neu, anstatt YouTube's Auto-Untertitel zu verwenden (normalerweise 70–80% genau). Dies produziert eine sauberere Ausgabe, plus Sprecherbeschriftungen, plus Zeitstempel auf Wortebene, die YouTube nicht freilegt.
200+, mit automatischer Spracherkennung. Das Modell bewältigt Code-Switching (Englisch ↔ Spanisch, Englisch ↔ Mandarin) innerhalb derselben Aufnahme. Keine Notwendigkeit, eine Primärsprache vorab auszuwählen.
Ja. Voice-Fingerprinting identifiziert bis zu 8 unterschiedliche Sprecher und beschriftet jede Zeile entsprechend. Sie können Sprecher 1, Sprecher 2 usw. nach der Transkription in echte Namen umbenennen, und das Modell merkt sich Stimmen über Aufnahmen hinweg.
Etwa 1 Minute Rechenzeit pro Stunde Video für MP4s mit klarem Audio. Ein 30-Minuten-Meeting dauert etwa 45 Sekunden. Der Fetch-Schritt für YouTube-Videos erhöht den Download um 5–15 Sekunden.
Dateien werden über TLS 1.3 hochgeladen, im verschlüsselten Speicher verarbeitet und innerhalb von 24 Stunden gelöscht. Wir trainieren keine Modelle auf Benutzer-Audio. SOC 2-konforme Infrastruktur, GDPR-konforme Datenverarbeitung und Verarbeitungsoptionen in der EU und USA.
Fünf Formate: TXT (plain), DOCX (Word), SRT (Untertitel), VTT (Web-Untertitel) und CSV (tabellenfreundlich). Click-to-edit inline vor Export.
Ja – aber für einen Audio-ersten Workflow ist unser dediziertes Audio-zu-Text-Tool zweckmäßig dafür konzipiert. Gleiches Motor, gleiche Genauigkeit, Audio-optimierte UI.
Testen Sie kostenlos mit einer Google-Anmeldung – 45 Minuten, keine Kreditkarte. Ihr erstes Transkript erscheint, bevor Sie Ihren Kaffee fertig trinken können.