扫一扫分享
VibeVoice 是微软开源的一个多角色、长对话语音合成框架,它能把文本转换成自然流畅的多人对话音频,比如播客、有声书或虚拟会议录音。
超长语音生成:可合成长达 90 分钟的音频
多角色支持:最多可同时处理 4 个不同说话人
自然的对话感:能够保持说话人的一致性和自然的对话节奏
高效处理:采用 7.5Hz 的超低帧率处理,既保持音质又提升效率
VibeVoice 结合了两种核心技术:
大型语言模型 (LLM):理解文本内容和对话流程
扩散模型:生成高保真度的声学细节
这种组合让它能够处理复杂的对话场景,同时保持声音质量。
VibeVoice-1.5B:支持 64K 上下文长度,可生成约 90 分钟音频
VibeVoice-7B-Preview:支持 32K 上下文长度,可生成约 45 分钟音频,稳定性更好
VibeVoice-0.5B-Streaming:即将推出的流式版本
播客制作:根据脚本自动生成多主持人对话
有声读物:为小说或非虚构作品创建多角色音频
语言学习:生成自然的多角色对话用于听力练习
内容创作:快速将文本转化为带有多个声音的音频内容
虚拟会议:模拟多参与者讨论
你可以通过以下方式体验 VibeVoice:
启动 Gradio 演示
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
从文本文件生成音频
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/2p_music.txt --speaker_names Alice Frank
使用英文标点符号 (逗号和句号) 即使在中文文本中也能提高稳定性
7B 模型比 1.5B 更稳定,特别是在处理中文或需要控制情绪时
如果觉得语速太快,可以尝试在文本中增加同角色的对话转折点
仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!
手机预览