让大模型从“一问一答”走向“边看边说”，京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

6月22日，京东开源了实时视频视觉语言交互模型 JoyAI-VL-Interaction，称为全球首个全栈开源的 interaction 模型并获得 vLLM-Omni 的 day-0 原生支持。该模型能持续观察视频流、主动判断何时发声、实现实时响应，并支持前台持续观察与后台模型/Agent 委派、摄像头/直播/监控等多种视频输入、语音 I/O、长期记忆和模块化替换（ASR、TTS、可视化界面等），可用于安防预警、实时翻译、直播解说、操作指导、电商导购等场景。官方盲评显示在58个流式场景中对比豆包与 Gemini 的总体胜率分别为77.6%和87.9%。

6 月 22 日消息，京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，这也是全球首个全栈开源的 interaction 模型和系统，并获得 vLLM-Omni 的 day-0 原生支持。

官方表示，它让大模型从“一问一答”走向“边看边说”，开发者基于这套框架，可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。

据介绍，相比传统模型，JoyAI-VL-Interaction 有三重突破：

**主动判断，而非被动回答：**传统模型通常要等用户发起问题，才开始处理当前画面，而 JoyAI-VL-Interaction 可以持续观察视频流，自主判断什么时候该说话，什么时候该沉默。
**实时响应，而非事后总结：**传统视频理解更多是上传完整视频后再分析，但在安防预警、实时翻译、直播解说、操作指导等场景里，晚几秒，体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流，画面变化时就能响应。
**适时智能体委托，同时保持观察和交互：**JoyAI-VL-Interaction 具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时，可以交给后台大模型或 Agent。前台模型继续观察现场，后台模型处理复杂任务，结果返回后再自然接回对话。

官方表示，JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入，也支持语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块，都可以按需替换。

开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。它既可以用于研究，也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI 眼镜、无障碍辅助等实时 AI 助手。

在评测中，JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在这些与视觉触发的主动响应、实时性高度相关的 58 个真人盲评案例中，JoyAI-VL-Interaction 对比豆包视频通话助手，总体胜率 77.6%；对比 Gemini 视频通话助手，总体胜率 87.9%。

IT之家附相关链接如下：

**代码：**https://github.com/jd-opensource/JoyAI-VL-Interaction
**模型：**https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
**数据集：**https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction