面壁智能发布 VoxCPM 1.5,面向高拟真语音生成的新型端到端 TTS 模型

面壁智能正式发布面向高保真语音合成的全新端到端 tts 模型——voxcpm 1.5 版本。

面壁智能发布 VoxCPM 1.5,面向高拟真语音生成的新型端到端 TTS 模型

面壁智能发布 VoxCPM 1.5,面向高拟真语音生成的新型端到端 TTS 模型

面壁智能发布 VoxCPM 1.5,面向高拟真语音生成的新型端到端 TTS 模型

本次升级核心特性如下:

  • 高保真音频克隆能力:AudioVAE 采样率由 16kHz 升级至 44.1kHz,显著提升音质还原度,使克隆语音更自然、细节更丰富;
  • 推理速度与质量双提升:在模型参数适度增长的基础上,VoxCPM 1.5 实现每秒音频仅需 6.25 个 token,生成效率相较前代提升 100%,同时音质更优;
  • 开发体验全面优化:内置 LoRA 微调与全参数微调脚本,便于开发者灵活适配个性化场景;
  • 合成稳定性增强:有效抑制音频失真与伪影,大幅改善长文本语音输出的连贯性与自然度。

该模型现已同步开源至 GitHub 与 Hugging Face 平台。

Hugging Face 地址:https://www.php.cn/link/c0074f76c59a537799cae0a48a1f9ed0
GitHub 地址:https://www.php.cn/link/56a5739ae918ad4bfbfac3cb50658476

源码下载链接:点击获取

关键词:gitgithub

网友留言(0 条)

发表评论