阿里通义发布端到端语音交互模型 Fun-Audio-Chat，能猜出你的心情

阿里通义大模型发布了新一代端到端语音交互模型Fun-Audio-Chat，该模型在多个榜单上表现优异，综合性能超过同类产品。Fun-Audio-Chat采用端到端S2S架构，双分辨率设计，并经过百万小时多任务数据训练，能够感知用户情绪并完成复杂任务。

12 月 23 日消息，阿里通义大模型今日发布了新一代端到端语音交互模型 Fun-Audio-Chat。

阿里通义本次开源了 Fun-Audio-Chat 8B，该模型在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个榜单上“同尺寸模型排名第一”，综合性能超 GLM4-Voice、Kimi-Audio、Baichuan-Omni 等。

IT之家附 Fun-Audio-Chat 技术亮点如下：

阿里通义表示，Fun-Audio-Chat 可以提供“像朋友一样的对话体验”，感知用户的情绪，哪怕用户没直接说情绪，它也能从语气、语速、停顿里猜出心情，然后给出回应。

此外，Fun-Audio-Chat 可完成复杂任务，用户只需用自然语音下达指令，它就能自动调用函数。

IT之家附 Fun-Audio-Chat 8B 开源地址如下：