Hoje, Volcano Engine, uma plataforma de serviço em nuvem de propriedade da ByteDance, anunciou que o modelo beanbao oferece suporte ao novo recurso de chamadas de voz em tempo real.
É relatado que a solução de interação em tempo real de IA conversacional fornecida pelo Volcano Engine combina a plataforma de serviço de modelo grande Volcano Ark e o modelo de reconhecimento e síntese de fala da Doubao para simplificar o processo de conversão de fala em texto e texto em fala. Esta solução alcança coleta, processamento e transmissão eficientes de dados de voz, proporcionando excelentes recursos de diálogo inteligente e processamento de linguagem natural.
O Volcano Engine RTC é baseado na tecnologia de processamento de áudio 3A, que resolve efetivamente o fenômeno de "fala dupla" e garante a precisão e o desempenho em tempo real do reconhecimento de fala. Ao mesmo tempo, a rede de transmissão WebRTC é usada para obter serviços de transmissão de áudio e vídeo em tempo real com latência ultrabaixa, estáveis e confiáveis em todo o mundo.
O Volcano Engine também oferece soluções de acesso flexíveis e diversas, incluindo soluções de autointegração e soluções de rede de transmissão baseadas no protocolo padrão WebRTC, para atender às necessidades específicas de diferentes empresas.
Além disso, o serviço interativo multimodal em tempo real de grande modelo do Volcano Engine forneceu recursos de voz em tempo real de IA para alguns aplicativos domésticos de bate-papo com personagens virtuais de IA no nível da cabeça, trazendo uma nova experiência interativa. O Volcano Engine continuará a fornecer recursos de áudio e vídeo de alta qualidade e recursos de IA para ajudar as empresas a alcançar inovação no campo de áudio e vídeo em tempo real de IA.