Las nuevas herramientas de Nvidia acercan las herramientas automáticas al ser humano a través de nuevos modelos de síntesis del habla, como ha anunciado la compañía y como presentará durante el evento Interspeech 2021 centrado en tecnologías de habla.
La tecnología de Nvidia se optimizó para que funcione de forma eficiente en las unidades gráficas (GPU) de la compañía, y además se ha desarrollado mediante las herramientas de código abierto del kit NeMo.
Para su desarrollo, la compañía consiguió que su IA lleve a cabo la narración de una serie de vídeos que tratan precisamente sobre el potencial de la tecnología, I am IA, y que originalmente estaba narrada por una persona real.
El sistema se basa en el uso de un modelo, RAD-TTS, que convierte el texto en habla utilizando para ello un audio de una persona hablando, convirtiendo el texto a la voz de la persona pero entonando de forma expresiva, como un actor de doblaje. Según Nvidia, las funciones del modelo pueden utilizarse también en los videojuegos para ayudar a las personas con discapacidad o para traducir la propia voz a otro idioma.
La compañía afirma que la tecnología incluso se puede reproducir la voz de personas cantando, no solo con la melodía sino también con su emoción a la hora de interpretar una canción.
Con información de Europa Press
Acerca de los comentarios
Hemos reformulado nuestra manera de mostrar comentarios, agregando tecnología de forma de que cada lector pueda decidir qué comentarios se le mostrarán en base a la valoración que tengan estos por parte de la comunidad. AMPLIAREsto es para poder mejorar el intercambio entre los usuarios y que sea un lugar que respete las normas de convivencia.
A su vez, habilitamos la casilla [email protected], para que los lectores puedan reportar comentarios que consideren fuera de lugar y que rompan las normas de convivencia.
Si querés leerlo hacé clic aquí[+]