小米汽车发布新一代 SU7,介绍其全系标配高规格辅助驾驶硬件(700TOPS Thor 芯片、激光雷达、4D 毫米波雷达、11 个高清摄像头、12 个超声波雷达)并升级 Xiaomi XLA 认知大模型。XLA 原生支持多模态输入,融合激光雷达、视觉、导航与声音等信息,引入潜空间推理(Latent CoT)以兼顾低时延与推理能力,同时保留可解释性,可解码为人类可读的推理过程。小米在架构中融合强化学习与世界模型技术,首个版本已实现语音控车、商场地库车位级领航等功能,并将通过 OTA 向首代 SU7 Pro/Max/Ultra 及 YU7 全系推送升级。
4 月 10 日消息,小米汽车官方昨日发文,详细介绍了新一代 SU7 的辅助驾驶能力和 Xiaomi XLA 认知大模型。小米汽车认为,辅助驾驶技术迭代的关键就是让机器具备「认知」。
- 新一代 SU7 全系「满配」高规格辅助驾驶硬件:700TOPS 算力 Thor 芯片,激光雷达、4D 毫米波雷达、11 个高清摄像头以及 12 个超声波雷达。
- 新一代 SU7 全系升级小米 XLA 认知大模型:具备更多模态、更高效、更可控三大特点,通过让系统开始具备理解世界的能力,从而持续扩展系统的能力边界。

据介绍,基于 Xiaomi Mimo-Embodied 具身基座大模型,小米辅助驾驶升级了全新的车端架构 —— Xiaomi XLA 认知大模型。
其中,X 代表着原生支持多模态的数据输入。XLA 架构可以将激光雷达的精准测距、视觉的丰富语义、导航的全局视野、声音的动态反馈、机器人物理 AI 交互数据进行有机融合。新一代 SU7 通过多模态输入能力,实现了语音控制辅助驾驶的行车、泊车功能。
小米还在 Xiaomi XLA 中引入了突破性的潜空间推理(Latent CoT)模式,兼顾系统低时延和推理能力。系统不再需要把思考过程翻译成人类语言,而是在潜空间中直接使用高维机器语言进行推演,从而提升思考速度。
不过,小米汽车为了避免「端到端」时代的黑盒问题,让 Xiaomi XLA 保留了整个推理过程的可解释性与可追溯性。在需要分析模型思考过程时,可以把「潜空间推理」解码成人类能看懂的语言。
关于未来的辅助驾驶应该选 VLA 还是世界模型路线?小米汽车认为,VLA 技术与世界模型技术并非非此即彼,而是可以相辅相成。在 Xiaomi XLA 架构中,小米无缝接入了「强化学习 + 世界模型」技术。
IT之家注意到,新一代 SU7 交付即搭载 Xiaomi XLA 认知大模型,并在第一个版本实现了语音控车、商场地库车位级领航等功能。同时小米汽车表示,会陆续为第一代 SU7 Pro / Max、SU7 Ultra、YU7 全系提供 OTA 升级。
