阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

通义大模型宣布开源两款'百聆'语音模型，并进行了多项升级。Fun-CosyVoice3模型支持9种语言、18种方言，3秒录音即可实现音色克隆和情感控制；Fun-ASR模型优化了噪声场景准确率和多语言识别能力。两款模型均支持本地部署和二次开发。

12 月 15 日消息，今天下午，通义大模型通过官方公众号宣布，两款“百聆”语音模型正式开源，两款模型迎来升级。根据介绍，其只需 3 秒录音，就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言，通通搞定。

升级

IT之家从官方获悉，本次，Fun-CosyVoice3 大模型完成多项关键升级：

而开源的 Fun-CosyVoice3-0.5B 模型提供了 zero-shot 音色克隆能力，只需要你提供一段 3 秒以上的参考音频，即可复刻其音色并合成新语音，并且支持本地部署和二次开发。

Fun-ASR 号称能让 AI “听得懂”。其基于数千万小时真实语音数据训练，已在钉钉“AI 听记”、视频会议等场景中大规模落地。官方表示，该模型重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力，并将流式识别模型的首字降低到 160ms。

Fun-CosyVoice3-0.5B 开源地址：

Fun-ASR-Nano-0.8B 开源地址：