机器人连续收纳耳机，小米开源 VLA 大模型 Xiaomi-Robotics-0 后训练全流程

小米开源视觉-语言-动作(VLA)大模型 Xiaomi-Robotics-0，并在发布首月登上 HuggingFace 下载榜第六。公司今日发布该模型的真机后训练（Post-training）全流程，称仅用20小时任务数据即可让模型掌握“将耳机收纳进耳机盒”这一高难度动作，并能连续完成多次收纳。官方指出该任务考验亚毫米级空间感知和在表面粗糙（最低 Ra0.03μm）下的快速动作修正能力；文章并提供技术官网、技术报告、模型权重与开源代码等链接。

4 月 27 日消息，小米于今年 2 月对外发布并开源 VLA 模型 Xiaomi-Robotics-0，模型发布首月在 HuggingFace 全球 VLA 模型下载榜获第六名。

小米今日宣布，为了让其真正成为“开箱即用”的生产力利器，带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练（Post-training）全流程。

基于预训练基座，小米称仅利用 20 小时的任务数据进行真机后训练，便让 Xiaomi-Robotics-0 掌握了“将耳机收纳进耳机盒”这一高难度动作，并能够连续丝滑地完成多个耳机的收纳。

官方表示，该任务涉及两大核心挑战：

耳机与槽位间公差极小，模型必须达到亚毫米级的空间感知精度，才能完成精准对位。
耳机与盒体表面粗糙度最低至 Ra0.03μm，极易在触碰过程发生位移，模型必须能快速修正动作偏差，避免装配失败。

IT之家附相关链接如下：

技术官网：https://robotics.xiaomi.com
技术报告：https://arxiv.org/abs/2602.12684
项目网站：https://robotics.xiaomi.com/xiaomi-robotics-0.html
模型权重：https://huggingface.co/XiaomiRobotics
开源代码：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0