Encore mieux que de changer de voix : Hume AI utilise un curseur pour redéfinir les limites de la voix de l'IA

L’intelligence artificielle redéfinit les limites de l’interaction homme-machine à un rythme sans précédent. La fonction Voice Control de Hume AI a vu le jour, apportant une révolution technologique dans l'interaction vocale dans le monde numérique.

La principale avancée de cette technologie innovante réside dans sa capacité sans précédent à affiner la commande vocale. Les voix traditionnelles de l'IA sont souvent limitées à des modes prédéfinis, tandis que Hume propose une nouvelle solution personnalisée. Les utilisateurs peuvent ajuster précisément leur voix sur dix dimensions, obtenant ainsi une liberté d'expression vocale sans précédent.

音频 声波

Remarque sur la source de l'image : l'image est générée par l'IA et l'image est autorisée par le fournisseur de services Midjourney

Ces dix dimensions de voix réglables sont comme une palette complète de voix : de masculines et féminines dans les caractéristiques de genre, à timides et fortes en assurance ; de faibles à légères en termes de densité de voix, à timides et fermes en termes de confiance. Qu'il s'agisse du calme et de l'excitation de l'enthousiasme, ou de la clarté et de la richesse des caractéristiques nasales, les utilisateurs peuvent l'ajuster à leur guise. Détente, fluidité de la voix, niveau d'énergie et tension de la voix, chaque dimension donne à la voix des possibilités émotionnelles plus riches.

Le plus choquant, c’est que tous ces réglages compliqués soient si simples. Les utilisateurs n'ont besoin d'aucune compétence en programmation ou en conception audio professionnelle. Ils peuvent affiner les caractéristiques de la voix en temps réel grâce à des curseurs intuitifs, tout comme si vous peigniez librement sur une palette.

Cette technologie n’est pas sortie de nulle part. Alan Cowen, cofondateur de l'entreprise et ancien chercheur de Google DeepMind, a construit ce modèle de parole unique en étudiant en profondeur les données vocales interculturelles et les enquêtes sur les émotions. Basée sur la méthode de la science émotionnelle, la parole n'est plus seulement un son, mais aussi un vecteur et une expression d'émotion.

Pour les développeurs, cela signifie personnaliser des avatars vocaux uniques pour les robots du service client, les assistants numériques, les tuteurs en ligne et même les fonctionnalités d'accessibilité. La plateforme EVI2 a démontré le potentiel important de cette technologie : le temps de réponse est réduit de 40 %, les coûts sont réduits de 30 % et elle offre une expérience interactive plus intelligente et plus naturelle pour divers scénarios d'application.

Par rapport aux bibliothèques vocales prédéfinies d'OpenAI et d'ElevenLabs, la solution de Hume est plus flexible et conviviale. Il propose non seulement des options toutes faites, mais offre également aux utilisateurs une véritable liberté de création. Actuellement, les développeurs peuvent découvrir cette fonctionnalité gratuitement dans l'environnement de test de la plateforme Hume. La société a déclaré qu'elle continuerait à étendre les dimensions de voix réglables à l'avenir et à améliorer la qualité et l'expressivité de la voix.

Il s’agit non seulement d’une avancée technologique, mais aussi d’un pas important pour que l’intelligence artificielle devienne plus empathique et plus proche de l’interaction humaine. Hume utilise la technologie pour redéfinir les possibilités d’interaction vocale et ouvrir un nouveau canal pour la connexion entre l’IA et les émotions humaines.