인공 지능은 전례 없는 속도로 인간과 컴퓨터 상호 작용의 경계를 재편하고 있습니다. Hume AI의 음성 제어 기능이 탄생하여 디지털 세계에 음성 상호 작용의 기술 혁명을 가져왔습니다.
이 혁신적인 기술의 핵심 혁신은 음성 제어를 미세 조정할 수 있는 전례 없는 능력에 있습니다. 기존 AI 음성은 사전 설정된 모드로 제한되는 경우가 많은 반면, Hume은 새로운 맞춤형 솔루션을 제공합니다. 사용자는 10차원을 통해 자신의 음성을 정밀하게 조정할 수 있어 전례 없는 음성 표현의 자유를 누릴 수 있습니다.
사진 출처 참고: 사진은 AI에 의해 생성되었으며 사진은 서비스 제공업체 Midjourney의 승인을 받았습니다.
조정 가능한 이 10가지 음성 차원은 성별 특성의 남성적 및 여성적 목소리부터 소심하고 강한 목소리 밀도까지, 낮은 목소리부터 가벼운 목소리까지, 수줍음 많고 확고한 자신감 수준까지 모든 목소리의 팔레트와 같습니다. 열정의 고요함과 흥분, 콧소리의 선명함과 풍부함 등 사용자가 원하는 대로 조절할 수 있습니다. 이완, 음성 유창함, 에너지 수준 및 음성 긴장도 등 각 차원은 음성에 더욱 풍부한 감정적 가능성을 제공합니다.
가장 충격적인 점은 이 모든 복잡한 조정이 너무나 간단하다는 것입니다. 사용자는 프로그래밍이나 전문적인 오디오 디자인 기술이 필요하지 않으며 마치 팔레트에 자유롭게 그림을 그리는 것처럼 직관적인 슬라이더를 통해 실시간으로 음성 특성을 미세 조정할 수 있습니다.
이 기술은 갑자기 나온 것이 아닙니다. 회사 공동 창립자이자 전 Google DeepMind 연구원인 Alan Cowen은 문화 간 음성 데이터와 감정 설문 조사를 깊이 연구하여 이 독특한 음성 모델을 구축했습니다. 감성과학의 방법에 따르면, 말은 더 이상 단순한 소리가 아니라 감정의 전달자이자 표현이기도 합니다.
개발자에게 이는 고객 서비스 봇, 디지털 도우미, 온라인 교사 및 접근성 기능에 맞게 고유한 음성 아바타를 맞춤화하는 것을 의미합니다. EVI2 플랫폼은 이 기술의 상당한 잠재력을 입증했습니다. 응답 시간은 40% 단축되고 비용은 30% 절감되며 다양한 애플리케이션 시나리오에 대해 보다 스마트하고 자연스러운 대화형 경험을 제공합니다.
OpenAI 및 ElevenLabs의 사전 설정된 음성 라이브러리와 비교할 때 Hume의 솔루션은 더 유연하고 사용자 친화적입니다. 기성 옵션을 제공할 뿐만 아니라 사용자에게 진정한 창작의 자유도 제공합니다. 현재 개발자들은 Hume 플랫폼의 테스트 환경에서 이 기능을 무료로 경험할 수 있습니다. 회사는 앞으로도 조정 가능한 음성 크기를 지속적으로 확장하고 음성 품질과 표현력을 지속적으로 향상시킬 것이라고 밝혔습니다.
이는 기술적인 혁신일 뿐만 아니라 인공지능이 더욱 공감하고 인간의 상호작용에 더욱 가까워지는 중요한 도약입니다. Hume은 기술을 사용하여 음성 상호 작용의 가능성을 재정의하고 AI와 인간 감정 간의 연결을 위한 새로운 채널을 열고 있습니다.