Mistral ha introducido una inteligencia artificial capaz de transcribir hasta 30 minutos de audio. Denominada Voxtral, esta serie de modelos de código abierto tiene la capacidad de entender el audio y responder preguntas sobre el mismo. Además, esta IA es multilingüe, lo que le permite trabajar con los idiomas más hablados globalmente, incluyendo el español.
Según un anuncio en el sitio web de Mistral, Voxtral constituye una serie de modelos avanzados para la comprensión de voz. La empresa francesa afirma que su IA proporciona «una precisión de vanguardia y comprensión semántica de forma nativa a un costo mucho menor que otros modelos similares». Lo más destacado es que Voxtral es de código abierto, permitiendo que los usuarios lo prueben gratuitamente desde ahora.
En general, los modelos de Mistral pueden «escuchar» audio en varios idiomas. A diferencia de OpenAI Whisper, Voxtral incluye una comprensión semántica integrada, lo que facilita hacer consultas o generar resúmenes directamente del audio. Estos modelos soportan una longitud de contexto de 32k, suficiente para transcribir 30 minutos de audio o hasta 40 minutos de comprensión.
Mistral sostiene que Voxtral superior a otros modelos de IA como Whisper large-v3, GPT-4o mini Transcribe y Gemini 2.5 Flash en todos los benchmarks realizados en inglés. Los modelos han mostrado resultados impresionantes en el test de FLEURS, que evalúa idiomas europeos como el español, italiano, alemán, francés, portugués, holandés e inglés.
¿Cuáles son las funciones de Voxtral, la nueva IA de código abierto de Mistral?
Más allá de los números, Voxtral tiene diversas aplicaciones prácticas. Los usuarios pueden acceder a ella a través del modo de voz de Le Chat en la web o en dispositivos móviles, donde pueden grabar audio o subir notas de voz para transcribirlas o consultar sobre su contenido. Voxtral está basado en Mistral Small 3.1, asegurando así un buen rendimiento no solo en audio sino también en texto.
Mistral indica que sus modelos tienen aplicaciones en sectores como educación, salud, soporte técnico y más.
En un centro de atención al cliente, Voxtral puede transcribir llamadas en tiempo real en varios idiomas, resumir conversaciones o identificar las intenciones de los interlocutores para activar flujos de trabajo basados en comandos de voz. En un entorno hospitalario, la IA puede transcribir dictados médicos de hasta 30 minutos o responder a consultas sobre diagnósticos directamente desde notas de voz. En el ámbito académico, los estudiantes podrían grabar sus clases, transcribirlas y obtener resúmenes automáticos.
La nueva IA de Mistral está disponible en dos variantes: Voxtral 24B, utilizada para producciones a gran escala, y Voxtral Mini, que posee 3 mil millones de parámetros y se utiliza en aplicaciones locales. La compañía también ofrece una API denominada Voxtral Mini Transcribe, exclusiva para transcripciones.
Los modelos de Voxtral están disponibles para su descarga gratuita a través de Hugging Face y desde la aplicación de Le Chat. Mistral ha confirmado que esta última opción estará disponible en las próximas semanas para todos los usuarios.

Hola, soy Carlos, parte del equipo de MuyMac. Me apasiona compartir las últimas novedades en entretenimiento y conectarte con el mundo del cine, la música y la cultura pop.