网站首页 文章专栏 阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言
通义大模型宣布开源两款'百聆'语音模型,并进行了多项升级。Fun-CosyVoice3模型支持9种语言、18种方言,3秒录音即可实现音色克隆和情感控制;Fun-ASR模型优化了噪声场景准确率和多语言识别能力。两款模型均支持本地部署和二次开发。
12 月 15 日消息,今天下午,通义大模型通过官方公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。根据介绍,其只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言,通通搞定。
IT之家从官方获悉,本次,Fun-CosyVoice3 大模型完成多项关键升级:
而开源的 Fun-CosyVoice3-0.5B 模型提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。
Fun-ASR 号称能让 AI “听得懂”。其基于数千万小时真实语音数据训练,已在钉钉“AI 听记”、视频会议等场景中大规模落地。官方表示,该模型重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字降低到 160ms。

Fun-CosyVoice3-0.5B 开源地址:
Fun-ASR-Nano-0.8B 开源地址:
