Incluso mejor que cambiar tu voz: Hume AI usa un control deslizante para remodelar los límites de la voz de AI

La inteligencia artificial está remodelando los límites de la interacción entre humanos y computadoras a un ritmo sin precedentes. Nació la función de control por voz de Hume AI, trayendo una revolución tecnológica en la interacción de voz al mundo digital.

El principal avance de esta innovadora tecnología radica en su capacidad sin precedentes para ajustar el control por voz. Las voces de IA tradicionales a menudo se limitan a modos preestablecidos, mientras que Hume ofrece una nueva solución personalizada. Los usuarios pueden ajustar con precisión su voz en diez dimensiones, logrando una libertad de expresión de voz sin precedentes.

音频 声波

Nota sobre la fuente de la imagen: la imagen es generada por IA y la imagen está autorizada por el proveedor de servicios Midjourney

Estas diez dimensiones de voz ajustables son como una paleta completa de voces: desde masculinas y femeninas en características de género, hasta tímidas y fuertes en asertividad; desde bajas a ligeras en densidad de voz, hasta tímidas y firmes en niveles de confianza. Ya sea la calma y la emoción del entusiasmo, o la claridad y riqueza de las características nasales, los usuarios pueden ajustarlo al contenido de su corazón. Relajación, fluidez de la voz, nivel de energía y tensión de la voz, cada dimensión aporta a la voz posibilidades emocionales más ricas.

Lo más impactante es que todos estos complicados ajustes sean tan simples. Los usuarios no necesitan conocimientos de programación ni de diseño de audio profesional. Pueden ajustar las características de la voz en tiempo real mediante controles deslizantes intuitivos, como pintar libremente en una paleta.

Esta tecnología no surgió de la nada. El cofundador de la empresa y ex investigador de Google DeepMind, Alan Cowen, construyó este modelo de habla único estudiando en profundidad datos de habla interculturales y encuestas de emociones. Según el método de la ciencia emocional, el habla ya no es solo un sonido, sino también un portador y expresión de emociones.

Para los desarrolladores, esto significa adaptar avatares de voz únicos para robots de servicio al cliente, asistentes digitales, tutores en línea e incluso funciones de accesibilidad. La plataforma EVI2 ha demostrado el importante potencial de esta tecnología: el tiempo de respuesta se acorta en un 40 %, los costos se reducen en un 30 % y proporciona una experiencia interactiva más inteligente y natural para diversos escenarios de aplicaciones.

En comparación con las bibliotecas de voz preestablecidas de OpenAI y ElevenLabs, la solución de Hume es más flexible y fácil de usar. No sólo ofrece opciones listas para usar, sino que también brinda a los usuarios verdadera libertad creativa. Actualmente, los desarrolladores pueden experimentar esta función de forma gratuita en el entorno de prueba de la plataforma Hume. La compañía afirmó que continuará ampliando las dimensiones de voz ajustable en el futuro y seguirá mejorando la calidad y expresividad de la voz.

Este no es sólo un avance tecnológico, sino también un salto importante para que la inteligencia artificial sea más empática y más cercana a la interacción humana. Hume está utilizando la tecnología para redefinir las posibilidades de la interacción de voz y abrir un nuevo canal para la conexión entre la IA y las emociones humanas.