DeepSeek 宣布其多模态“识图模式”已在网页和 App 端上线(App 端仍显示“图片理解功能内测中”),用户可上传图片让系统理解内容,能力超越简单文字提取。此前公司在今年4月公开了支撑该功能的多模态框架“Thinking with Visual Primitives”。
6 月 18 日消息,DeepSeek 多模态研究员 Xiaokang Chen 今日表示,DeepSeek 的识图模式已在网页和 App 端正式上线。

IT之家测试,目前 DeepSeek 的 App 端识图模式依然提示“图片理解功能内测中”,网页端没有这项提示。

“识图模式”与“快速模式”和“专家模式”并列,开启该模式后,用户可以直接上传图片让 DeepSeek“看”世界,其能力边界远超简单的文字提取。

伴随着识图模式的上线,DeepSeek 今年 4 月还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架。