小米开源视觉-语言-动作(VLA)大模型 Xiaomi-Robotics-0,并在发布首月登上 HuggingFace 下载榜第六。公司今日发布该模型的真机后训练(Post-training)全流程,称仅用20小时任务数据即可让模型掌握“将耳机收纳进耳机盒”这一高难度动作,并能连续完成多次收纳。官方指出该任务考验亚毫米级空间感知和在表面粗糙(最低 Ra0.03μm)下的快速动作修正能力;文章并提供技术官网、技术报告、模型权重与开源代码等链接。
4 月 27 日消息,小米于今年 2 月对外发布并开源 VLA 模型 Xiaomi-Robotics-0,模型发布首月在 HuggingFace 全球 VLA 模型下载榜获第六名。
小米今日宣布,为了让其真正成为“开箱即用”的生产力利器,带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练(Post-training)全流程。
基于预训练基座,小米称仅利用 20 小时的任务数据进行真机后训练,便让 Xiaomi-Robotics-0 掌握了“将耳机收纳进耳机盒”这一高难度动作,并能够连续丝滑地完成多个耳机的收纳。

官方表示,该任务涉及两大核心挑战:
- 耳机与槽位间公差极小,模型必须达到亚毫米级的空间感知精度,才能完成精准对位。
- 耳机与盒体表面粗糙度最低至 Ra0.03μm,极易在触碰过程发生位移,模型必须能快速修正动作偏差,避免装配失败。
IT之家附相关链接如下:
- 技术官网:https://robotics.xiaomi.com
- 技术报告:https://arxiv.org/abs/2602.12684
- 项目网站:https://robotics.xiaomi.com/xiaomi-robotics-0.html
- 模型权重:https://huggingface.co/XiaomiRobotics
- 开源代码:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0