网站首页 文章专栏 面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍
面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍
发布 作者:汪淼 浏览量:1
面壁智能发布了VoxCPM 1.5版本的语音生成基座模型,该版本在音频克隆质量、生成效率、开发者友好性和稳定性方面进行了多项升级,并已在Github和Hugging Face开源。

12 月 10 日消息,面壁智能今日官宣,VoxCPM 1.5 版本正式上线,在持续优化开发者开发体验的同时,也带来了多项核心能力升级。

VoxCPM 是一个 0.5B 参数尺寸的语音生成基座模型,于今年 9 月首次发布。

IT之家附 VoxCPM 1.5 更新亮点:

  • **高采样音频克隆:**AudioVAE 采样率从 16kHz 提升至 44.1kHz,模型可根据高质量音频,克隆效果更佳、细节更丰富的声音;
  • **生成效率翻倍:**在模型参数有所增加的前提下,VoxCPM 1.5 仅需 6.25 个 token 即可生成 1 秒音频,较此前版本提高一倍,在保持速度的同时提升了音频生成质量;
  • **开发者友好:**新增 LoRA 和全量微调脚本,支持深度定制;
  • **增强稳定性:**减少音频伪影,优化长文本音频的生成效果。

目前,VoxCPM 1.5 模型已在 Github、Hugging Face 开源。

  • Huggingface:https://huggingface.co/openbmb/VoxCPM1.5
  • Github:https://github.com/OpenBMB/VoxCPM
loading