Amazon presentó hoy Nova Sonic, un modelo avanzado de conversión de voz a voz que permite a los desarrolladores crear aplicaciones que pueden conversar con voces humanas en tiempo real. Amazon afirma que este nuevo modelo de audio ofrece una relación precio-rendimiento líder en la industria y baja latencia.
Normalmente, el desarrollo de una aplicación habilitada para voz requiere que los desarrolladores trabajen con múltiples modelos al mismo tiempo:
- Modelo de reconocimiento de voz para convertir audio en texto.
- Modelo de lenguaje grande (LLM) para comprender y generar respuestas.
- Modelo de texto a voz.
Este enfoque no sólo es complejo, sino que además a menudo pasa por alto contextos acústicos importantes como el tono, la prosodia y el estilo de habla.

Nova Sonic aborda este desafío integrando la comprensión y la generación de sonido en un único modelo. El enfoque unificado ayuda al modelo a capturar el tono, el estilo y la entrada de audio, creando un diálogo más natural. También determina el tiempo de respuesta adecuado y gestiona mejor las intrusiones.
Nova Sonic admite voces masculinas y femeninas con muchos acentos ingleses, como el americano y el británico. Los desarrolladores pueden acceder a los modelos a través de Amazon Bedrock utilizando una API de transmisión bidireccional que admite la llamada de funciones. Este modelo también viene con funciones de protección integradas como moderación de contenido y marca de agua.
En este sentido, el mes pasado OpenAI anunció una nueva generación de modelos de conversión de voz a texto (gpt-4o-transcribe y gpt-4o-mini-transcribe) con mejoras significativas en la tasa de error de palabras, el reconocimiento del idioma y la precisión en comparación con los modelos Whisper anteriores.