Das große Modell von ByteDance Beanbao unterstützt Sprachanrufe in Echtzeit: Sie können jederzeit unterbrochen und in Echtzeit beantwortet werden.

Heute gab Volcano Engine, eine Cloud-Service-Plattform von ByteDance, bekannt, dass das Beanbao-Modell die neue Funktion von Echtzeit-Sprachanrufen unterstützt.

Es wird berichtet, dass die von Volcano Engine bereitgestellte Konversations-KI-Echtzeitinteraktionslösung die große Modelldienstplattform Volcano Ark und das Spracherkennungs- und Synthesemodell von Doubao kombiniert, um den Prozess der Sprach-zu-Text- und Text-zu-Sprache-Konvertierung zu vereinfachen. Diese Lösung ermöglicht eine effiziente Erfassung, Verarbeitung und Übertragung von Sprachdaten und bietet hervorragende intelligente Dialog- und Verarbeitungsmöglichkeiten für natürliche Sprache.

Volcano Engine RTC basiert auf der Audio-3A-Verarbeitungstechnologie, die das Phänomen des „Doppelsprechens“ effektiv löst und die Genauigkeit und Echtzeitleistung der Spracherkennung gewährleistet. Gleichzeitig wird das WebRTC-Übertragungsnetzwerk verwendet, um weltweit Audio- und Videoübertragungsdienste mit extrem geringer Latenz sowie stabile und zuverlässige Echtzeit-Audio- und Videoübertragungsdienste zu erreichen.

Volcano Engine bietet außerdem flexible und vielfältige Zugangslösungen, einschließlich Selbstintegrationslösungen und Übertragungsnetzwerklösungen auf Basis des WebRTC-Standardprotokolls, um den spezifischen Anforderungen verschiedener Unternehmen gerecht zu werden.

Darüber hinaus hat der großformatige multimodale Echtzeit-Interaktionsdienst der Volcano Engine KI-Echtzeit-Sprachfunktionen für einige inländische KI-Chatanwendungen für virtuelle Charaktere auf Kopfebene bereitgestellt und so ein neues interaktives Erlebnis ermöglicht. Volcano Engine wird weiterhin hochwertige Audio- und Videofunktionen sowie KI-Funktionen bereitstellen, um Unternehmen dabei zu helfen, Innovationen im Bereich KI-Echtzeit-Audio und -Video zu erzielen.