网站首页 文章专栏 行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
商汤科技与南洋理工大学 S-Lab 合作研发并开源了全新的多模态模型架构 NEO,该架构通过深层次的视觉与语言融合,实现了性能、效率和通用性的整体突破。NEO 采用原生图块嵌入、原生三维旋转位置编码和原生多头注意力等创新技术,解决了传统多模态模型在图像细节捕捉和复杂空间结构理解上的局限性。测试显示,NEO 在数据效率、性能和推理性价比方面均表现优异,并已在多项公开评测中取得高分。商汤已开源基于 NEO 架构的 2B 与 9B 两种规格模型。
12 月 2 日消息,商汤科技今日发布并开源了与南洋理工大学 S-Lab 合作研发的全新多模态模型架构 —— NEO,为日日新 SenseNova 多模态模型奠定了新一代架构的基石。

NEO 宣称是“行业首个可用的、实现深层次融合的原生多模态架构(Native VLM)”,从底层原理出发,打破了传统“模块化”范式的桎梏,以“专为多模态而生”的设计,通过核心架构层面的多模态深层融合,实现了性能、效率和通用性的整体突破。
商汤科技介绍称,当前业内主流的多模态模型大多遵循“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种基于大语言模型(LLM)的扩展方式,虽然实现了图像输入的兼容,但本质上仍以语言为中心,图像与语言的融合仅停留在数据层面。这种“拼凑”式的设计不仅学习效率低下,更限制了模型在复杂多模态场景下(比如涉及图像细节捕捉或复杂空间结构理解)的处理能力。

商汤推出了从零设计的 NEO 原生架构,通过在注意力机制、位置编码和语义映射三个维度的底层创新,让模型天生具备了统一处理视觉与语言的能力:

此外,配合 Pre-Buffer & Post-LLM 双阶段融合训练策略,NEO 能够在吸收原始 LLM 完整语言推理能力的同时,从零构建视觉感知能力,解决了传统跨模态训练中语言能力受损的难题。
测试显示,NEO 实现了多方面的突破:

商汤已正式开源基于 NEO 架构的 2B 与 9B 两种规格模型,IT之家附开源地址如下:
