VibeVoice_微软开源的一个多角色、长对话语音合成框架

Web前端开发网

fly63.com

首页资源工具文章教程栏目

VibeVoice
分享
复制链接
新浪微博
QQ 好友
扫一扫分享

网站描述:微软开源的一个多角色、长对话语音合成框架

VibeVoice 是微软开源的一个多角色、长对话语音合成框架，它能把文本转换成自然流畅的多人对话音频，比如播客、有声书或虚拟会议录音。

超长语音生成：可合成长达 90 分钟的音频

多角色支持：最多可同时处理 4 个不同说话人

自然的对话感：能够保持说话人的一致性和自然的对话节奏

高效处理：采用 7.5Hz 的超低帧率处理，既保持音质又提升效率

VibeVoice 结合了两种核心技术：

大型语言模型 (LLM)：理解文本内容和对话流程

扩散模型：生成高保真度的声学细节

这种组合让它能够处理复杂的对话场景，同时保持声音质量。

VibeVoice-1.5B：支持 64K 上下文长度，可生成约 90 分钟音频

VibeVoice-7B-Preview：支持 32K 上下文长度，可生成约 45 分钟音频，稳定性更好

VibeVoice-0.5B-Streaming：即将推出的流式版本

播客制作：根据脚本自动生成多主持人对话

有声读物：为小说或非虚构作品创建多角色音频

语言学习：生成自然的多角色对话用于听力练习

内容创作：快速将文本转化为带有多个声音的音频内容

虚拟会议：模拟多参与者讨论

你可以通过以下方式体验 VibeVoice：

启动 Gradio 演示

python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

从文本文件生成音频

python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/2p_music.txt --speaker_names Alice Frank

使用英文标点符号 (逗号和句号) 即使在中文文本中也能提高稳定性

7B 模型比 1.5B 更稳定，特别是在处理中文或需要控制情绪时

如果觉得语速太快，可以尝试在文本中增加同角色的对话转折点

仅供个人学习参考/导航指引使用，具体请以第三方网站说明为准，本站不提供任何专业建议。如果地址失效或描述有误，请联系站长反馈～感谢您的理解与支持！