in

VALL-E, la tecnología de Microsoft basada en IA capaz de imitar voces con audios de tres segundos

VALL-E, la tecnología de Microsoft basada en IA capaz de imitar voces con audios de tres segundos

Las empresas están apostando fuerte por tecnologías basadas en Inteligencia Artificial (IA). Microsoft, la multinacional estadounidense con sede en Redmond, es una de las más decididas. La tecnología está desarrollando VALL-E, una tecnología basada en que es capaz de aprender e imitar cualquier voz tomando como ejemplo una grabación de tres segundos.

No es la única novedad en este campo. La empresa fundada por Bill Gates también trabaja en proyectos para incorporar el chat desarrollado por OpenAI ChatGPT a sus buscadores y la suite Office, según informan varios medios estadounidenses. Entre otras cosas, integrará Word, PowerPoint y Outlook. También tiene previsto utilizarlo en su buscador Bing y así entrar en competencia con Google.

Capacidad

Imitar voces con naturalidad


Microsoft ha presentado su proyecto de IA VALL-E, un modelo de lenguaje Text-to-Speech (TTS, por sus siglas en inglés) capaz de sintetizar el texto para transformarlo en voz. «Especifiquemente, entrenamos un modelo de lenguaje de código neuronal utilizando códigos discretos derivados de un modelo de código de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior», explica el empresa en su web.


Leer también

Francesc Bracero

La maquina esta preparada a conciencia. Durante la etapa previa, se introdujeron los datos de entrenamiento de TTS a sesenta mil horas de habla en inglés, «centos de veces más grandes que los sistemas existentes».

La novedad de esta tecnología desarrollada por Microsoft es su capacidad de aprender en contexto que, a través de grabaciones de audio de tan solo tres segundos, es capaz de imitar las voces de dichas grabaciones.

“VALL-E emerge capacitas de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una registradora de tres segundos de un ablante invisible como un aviso acústico”, asegura. La multinacional americana se muestra muy satisfecha con los resultados, al entender que superan «de forma significativa al sistema TTS de última generación en términos de naturalidad y similitud de habla».

Sus desarrolladores también señalan que las muestras tomadas sugieren que VALL-E podría «preservar la emoción del hablante y el entorno acústico del mensaje».

Las novedades no se acaban aquí. VALL-E está siendo desarrollado para funcionar con «otros modelos generativos de IA», como GPT-3. En un futuro no muy lejano, esta característica ofrece la posibilidad de integrar VALL-E con otras tecnologías como ChatGPT.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Neville Ray y Barbara Baffer, presidente electo y tesorero de 5G Americas

Neville Ray y Barbara Baffer, presidente electo y tesorero de 5G Americas

Cómo ver el evento Samsung Galaxy Unpacked

Cómo ver el evento Samsung Galaxy Unpacked