Reconocimiento de locutor, hasta 8 voces
La toma de huellas de voz separa y etiqueta cada turno: Locutor 1, Locutor 2 se convierten en nombres reales con un clic. Perfecto para entrevistas, podcasts y paneles.
Scribix convierte cualquier vídeo en texto preciso con etiquetas de locutor en segundos. Sube un archivo MP4, MOV, WebM o AVI, o pega un enlace de YouTube, y obtén un transcript completo con marcas de tiempo a nivel de palabra en 200+ idiomas. Gratis con inicio de sesión de Google, archivos hasta 1 GB.
Arrastra un archivo de vídeo o audio, o haz clic para explorar.
Máx 1GB · MP4 · MOV · WEBM · AVI · MKV · MP3 · WAV · M4A
¿Trabajas con grabaciones solo de audio? Abre la página dedicada de audio a texto.
Confiado por creadores de vídeo, periodistas y podcasters en todo el mundo
Un conversor de vídeo a texto transcribe el audio hablado dentro de un vídeo en texto escrito. Los modernos modelos de IA de reconocimiento de voz identifican palabras, separan locutores y añaden marcas de tiempo, produciendo un transcript editable en minutos en lugar de horas. Scribix ejecuta la misma clase de modelo de voz que impulsa los suites de transcripción profesionales: inicia sesión con Google para empezar y obtener una salida lo suficientemente limpia como para publicar.
La toma de huellas de voz separa y etiqueta cada turno: Locutor 1, Locutor 2 se convierten en nombres reales con un clic. Perfecto para entrevistas, podcasts y paneles.
Desde mandarín hasta maltés con soporte de cambio de código. El modelo se adapta a mitad de la grabación cuando los locutores cambian de idioma.
Haz clic en cualquier palabra para reproducir ese momento exacto. Las marcas de tiempo se exportan con subtítulos SRT y VTT listos para reproductores de vídeo.
TXT, DOCX, SRT, VTT y CSV, cubre documentos, subtítulos, hojas de cálculo y flujos de revisión sin conversión adicional.
99,9% en audio claro en idiomas principales, medido en un benchmark de 50 horas de charlas TED, podcasts y entrevistas. El ruido de fondo y los acentos se manejan correctamente.
TLS 1.3 en tránsito, AES-256 en reposo, procesamiento en memoria encriptada. Alineado con SOC 2, compatible con GDPR. Nunca entrenamos modelos con tu audio.
Arrastra y suelta un archivo MP4, MOV, AVI, MKV o WebM (hasta 1 GB), o pega una URL de YouTube, TikTok o Instagram. Sin conversión de formato: Scribix maneja cada contenedor común.
Nuestro modelo auto-detecta el idioma (200+ compatibles), separa hasta 8 locutores y añade marcas de tiempo a cada palabra. Un vídeo de 1 hora se transcribe en aproximadamente 90 segundos.
Haz clic en cualquier palabra para reproducir ese momento exacto. Edita inline, luego descarga como TXT, DOCX, SRT, VTT o CSV, o copia el transcript completo en tu editor.
Desde un youtuber que reutiliza 90 minutos de metraje en shorts, a un periodista que cita una entrevista de 2 horas con precisión, el vídeo a texto es cómo la conversación grabada se convierte en trabajo publicado. Scribix es el caballo de batalla detrás.
Genera subtítulos para accesibilidad, reutiliza vídeos largos en publicaciones de blog, construye archivos de episodios buscables. Las marcas de tiempo a nivel de palabra hacen trivial extraer clips virales con precisión [12:04 – 12:38].
Convierte cada episodio en notas del programa, contenido de blog y transcripts indexados por SEO: la diferencia entre ser encontrado en Google y no serlo. Las etiquetas de locutor llegan listas para publicar.
Transcribe una entrevista de 90 minutos mientras caminas hacia la siguiente. Las etiquetas de locutor significan que puedes citar fuentes con precisión sin re-escuchar: texto listo para citas en una fracción del tiempo.
Ejecuta codificación cualitativa en grupos focales, conferencias y grabaciones de campo sin pagar $1.50/min por transcripción humana. Etiqueta temas, busca en cada palabra, exporta a Dovetail o Notion.
Convierte una conferencia de 2 horas en notas buscables. Marca un momento confuso, haz clic en la palabra, escúchalo de nuevo. Pruébalo gratis y luego un solo mes Starter cubre todo un semestre de conferencias.
Transcripts de primer paso de declaraciones, juntas directivas y entrevistas de cumplimiento, luego que una persona verifique las partes que importan. Transcripts codificados por tiempo y una cadena de procesamiento auditable. Alineado con SOC 2.
Hacemos benchmark mensualmente contra las herramientas principales de vídeo a texto en un conjunto de pruebas de 200 horas que abarca 12 idiomas, 48 locutores y 4 ambientes de audio: estudio, teléfono, conferencia y al aire libre.
| Característica | Scribix | Otter | Rev | Whisper.cpp |
|---|---|---|---|---|
| Prueba gratuita | 45 min única vez | 300 / mes | 45 trial | Unlimited |
| Límite de tamaño de archivo | 1 GB | 1.1 GB | 2 GB | Local |
| Idiomas compatibles | 200+ | 30+ | 38 | 99 |
| Diarización de locutor | ||||
| Marcas de tiempo a nivel de palabra | ||||
| Soporte de URL de YouTube | ||||
| Formatos de exportación | 7 | 4 | 5 | 1 |
| Archivos eliminados después de | 7 days | 30 days+ | 30 days+ | Self-host |
| Precio — 100 hrs | $12 | $30 | $150 | Compute only |
“Produzco un podcast de vídeo semanal con tres invitados. Scribix convierte tres horas de audio superpuesto en algo que puedo pegar directamente en mi CMS. Las etiquetas de locutor por sí solas me ahorran una tarde completa.”
“Teníamos un caso judicial donde necesitábamos transcripts codificados por tiempo de 14 horas de vídeo de testimonio. Scribix entregó una salida más limpia que el servicio certificado que estábamos pagando a $4/min. Increíble.”
“Grabo cada entrevista de trabajo de campo en Bahasa con cambio de código hacia el inglés en vídeo. Otras herramientas fracasan. Scribix transcribe todo sin que toque una configuración de idioma.”
¿No encuentras lo que buscas? Envía un correo a hello@scribix.app y una persona real responde dentro de un día laboral.
Sí. La prueba gratuita solo necesita un inicio de sesión de Google: sin tarjeta de crédito. Obtienes 45 minutos de transcripción para probar la calidad antes de decidir. Los planes pagos desbloquean archivos más largos, cola de prioridad, bibliotecas de equipo y retención de archivos más larga.
MP4, MOV, AVI, MKV y WebM de hasta 1 GB cada uno. Los archivos de solo audio (MP3, WAV, M4A) también son compatibles. Pega cualquier URL de YouTube, TikTok o Instagram para entrada basada en transmisión: sin necesidad de descargar de tu parte.
99,9% en audio claro en idiomas principales, medido contra un benchmark de 50 horas de charlas TED, podcasts y entrevistas. La precisión baja ligeramente con acentos fuertes, música de fondo o audio de baja velocidad de bits, pero las etiquetas de locutor y las marcas de tiempo a nivel de palabra hacen que las correcciones sean rápidas.
Sí. Pega cualquier URL de YouTube en el generador. Scribix retranscribe el audio con nuestro modelo en lugar de usar los subtítulos automáticos de YouTube (típicamente 70–80% precisos). Esto produce una salida más limpia, además de etiquetas de locutor, además de marcas de tiempo a nivel de palabra que YouTube no expone.
200+, con detección automática de idioma. El modelo maneja el cambio de código (inglés ↔ español, inglés ↔ mandarín) dentro de la misma grabación. No hay necesidad de preseleccionar un idioma principal.
Sí. La toma de huellas de voz identifica hasta 8 locutores distintos y etiqueta cada línea en consecuencia. Puedes cambiar el nombre de Locutor 1, Locutor 2, etc. a nombres reales después de la transcripción, y el modelo recuerda voces en grabaciones.
Alrededor de 1 minuto de tiempo de cómputo por hora de vídeo para MP4s de audio claro. Una reunión de 30 minutos toma aproximadamente 45 segundos. El paso de búsqueda para vídeos de YouTube agrega 5–15 segundos para la descarga.
Los archivos se cargan sobre TLS 1.3, se procesan en memoria encriptada y se eliminan dentro de 24 horas. No entrenamos modelos con audio de usuario. Infraestructura alineada con SOC 2, manejo de datos compatible con GDPR, y opciones de procesamiento regional de UE y EE.UU.
Cinco formatos: TXT (plano), DOCX (Word), SRT (subtítulos), VTT (subtítulos web) y CSV (compatible con hojas de cálculo). Haz clic para editar inline antes de exportar.
Sí, pero para un flujo de trabajo basado en audio, nuestra herramienta de audio a texto dedicada está especialmente diseñada para esa intención. Mismo motor, misma precisión, interfaz de usuario optimizada para audio.
Pruébalo gratis con un inicio de sesión de Google: 45 minutos, sin tarjeta de crédito. Tu primer transcript aparece antes de que termines tu café.