Kecerdasan buatan mengubah batasan interaksi manusia-komputer dengan kecepatan yang belum pernah terjadi sebelumnya. Fungsi Kontrol Suara Hume AI hadir, membawa revolusi teknologi dalam interaksi suara ke dunia digital.
Terobosan inti dari teknologi inovatif ini terletak pada kemampuannya yang belum pernah ada sebelumnya dalam menyempurnakan kontrol suara. Suara AI tradisional seringkali terbatas pada mode preset, sementara Hume memberikan solusi baru yang dipersonalisasi. Pengguna dapat secara tepat menyesuaikan suaranya melalui sepuluh dimensi, mencapai kebebasan berekspresi suara yang belum pernah terjadi sebelumnya.
Catatan sumber gambar: Gambar dihasilkan oleh AI, dan gambar tersebut disahkan oleh penyedia layanan Midjourney
Sepuluh dimensi suara yang dapat disesuaikan ini seperti palet suara yang lengkap: dari karakteristik gender yang maskulin dan feminin, hingga yang pemalu dan kuat dalam ketegasan, dari rendah hingga ringan dalam kepadatan suara, hingga pemalu dan tegas dalam tingkat percaya diri; Entah itu ketenangan dan kegairahan semangat, atau kejernihan dan kekayaan ciri hidung, pengguna bisa menyesuaikannya sesuka hati. Relaksasi, kefasihan suara, tingkat energi, dan kekencangan suara, masing-masing dimensi memberikan kemungkinan emosional yang lebih kaya pada suara.
Hal yang paling mengejutkan adalah semua penyesuaian rumit ini sangat sederhana. Pengguna tidak memerlukan keahlian pemrograman atau desain audio profesional. Mereka dapat menyempurnakan karakteristik suara secara real time melalui penggeser intuitif, seperti melukis dengan bebas di palet.
Teknologi ini tidak muncul begitu saja. Salah satu pendiri perusahaan dan mantan peneliti Google DeepMind Alan Cowen membangun model ucapan unik ini dengan mempelajari secara mendalam data ucapan lintas budaya dan survei emosi. Berdasarkan metode ilmu emosi, tuturan tidak lagi sekedar bunyi, tetapi juga pembawa dan ekspresi emosi.
Bagi pengembang, ini berarti menyesuaikan avatar suara unik untuk bot layanan pelanggan, asisten digital, tutor online, dan bahkan fitur aksesibilitas. Platform EVI2 telah menunjukkan potensi signifikan dari teknologi ini: waktu respons dipersingkat sebesar 40%, biaya berkurang sebesar 30%, dan memberikan pengalaman interaktif yang lebih cerdas dan alami untuk berbagai skenario aplikasi.
Dibandingkan dengan perpustakaan suara preset OpenAI dan ElevenLabs, solusi Hume lebih fleksibel dan ramah pengguna. Ini tidak hanya memberikan opsi siap pakai, tetapi juga memberikan kebebasan berkreasi sejati kepada pengguna. Saat ini, pengembang dapat merasakan fitur ini secara gratis di lingkungan pengujian platform Hume. Perusahaan menyatakan akan terus memperluas dimensi suara yang dapat disesuaikan di masa depan dan terus meningkatkan kualitas dan ekspresi suara.
Ini bukan hanya sebuah terobosan teknologi, tetapi juga merupakan lompatan penting bagi kecerdasan buatan untuk menjadi lebih berempati dan lebih dekat dengan interaksi manusia. Hume menggunakan teknologi untuk mendefinisikan kembali kemungkinan interaksi suara dan membuka saluran baru untuk hubungan antara AI dan emosi manusia.