行业首个：商汤发布并开源 NEO 原生多模态模型架构，实现视觉、语言深层统一

商汤科技与南洋理工大学 S-Lab 合作研发并开源了全新的多模态模型架构 NEO，该架构通过深层次的视觉与语言融合，实现了性能、效率和通用性的整体突破。NEO 采用原生图块嵌入、原生三维旋转位置编码和原生多头注意力等创新技术，解决了传统多模态模型在图像细节捕捉和复杂空间结构理解上的局限性。测试显示，NEO 在数据效率、性能和推理性价比方面均表现优异，并已在多项公开评测中取得高分。商汤已开源基于 NEO 架构的 2B 与 9B 两种规格模型。

12 月 2 日消息，商汤科技今日发布并开源了与南洋理工大学 S-Lab 合作研发的全新多模态模型架构 —— NEO，为日日新 SenseNova 多模态模型奠定了新一代架构的基石。

NEO 宣称是“行业首个可用的、实现深层次融合的原生多模态架构（Native VLM）”，从底层原理出发，打破了传统“模块化”范式的桎梏，以“专为多模态而生”的设计，通过核心架构层面的多模态深层融合，实现了性能、效率和通用性的整体突破。

商汤科技介绍称，当前业内主流的多模态模型大多遵循“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种基于大语言模型（LLM）的扩展方式，虽然实现了图像输入的兼容，但本质上仍以语言为中心，图像与语言的融合仅停留在数据层面。这种“拼凑”式的设计不仅学习效率低下，更限制了模型在复杂多模态场景下（比如涉及图像细节捕捉或复杂空间结构理解）的处理能力。

商汤推出了从零设计的 NEO 原生架构，通过在注意力机制、位置编码和语义映射三个维度的底层创新，让模型天生具备了统一处理视觉与语言的能力：

原生图块嵌入（Native Patch Embedding）： 摒弃了离散的图像 tokenizer，通过独创的 Patch Embedding Layer (PEL) 自底向上构建从像素到词元的连续映射。这种设计能更精细地捕捉图像细节，突破了主流模型的图像建模瓶颈。
**原生三维旋转位置编码（Native-RoPE）：**解耦了三维时空频率分配，视觉维度采用高频、文本维度采用低频，适配两种模态的自然结构。这使得 NEO 不仅能捕获图像的空间结构，更具备向视频处理、跨帧建模等复杂场景无缝扩展的潜力。
原生多头注 意力（Native Multi-Head Attention）： 针对不同模态特点，NEO 在统一框架下实现了文本 token 的自回归注意力和视觉 token 的双向注意力并存。这种设计提升了模型对空间结构关联的利用率，从而更好地支撑复杂的图文混合理解与推理。

此外，配合 Pre-Buffer & Post-LLM 双阶段融合训练策略，NEO 能够在吸收原始 LLM 完整语言推理能力的同时，从零构建视觉感知能力，解决了传统跨模态训练中语言能力受损的难题。

测试显示，NEO 实现了多方面的突破：

**数据效率：**仅需业界同等性能模型 1/10 的数据量（3.9 亿图像文本示例），NEO 便能开发出“顶尖的视觉感知能力”。无需依赖海量数据及额外视觉编码器，其架构便能在多项视觉理解任务中追平 Qwen2-VL、InternVL3 等顶级模块化旗舰模型。
**性能：**在 MMMU、MMB、MMStar、SEED-I、POPE 等多项公开评测中，NEO 架构均斩获高分。
**推理性价比：**特别是在 0.6B-8B 的参数区间内，NEO 在边缘部署方面优势显著。

商汤已正式开源基于 NEO 架构的 2B 与 9B 两种规格模型，IT之家附开源地址如下：