1 月 26 日消息,1 月 26 日,国家地方共建人形机器人创新中心(以下简称“国地中心”)联合上海纬钛科技有限公司(以下简称“纬钛机器人”)发布全球首个最大规模的跨本体视触觉(Vision-Based Tactile Sensor)多模态数据集:白虎-VTouch。
该数据集包含视触觉传感器数据、RGB-D 数据、关节位姿数据等,涵盖轮臂机器人(D-Wheel)、双足机器人(青龙)、手持智能终端等本体构型,数据集规模超 60000 分钟,第一批 6000 分钟开源数据已上线 OpenLoong 开源社区。

跨本体视触觉多模态数据集
据介绍,白虎-VTouch 数据集首创跨本体视触觉多模态真实交互数据采集新范式,系统破解具身智能机器人在真实物理交互数据稀缺、高保真触觉信息不足、跨机器人本体泛化能力弱三大核心瓶颈,是目前全球规模最大、模态最完整、任务结构最系统化的视触觉多模态机器人操作数据集。
白虎-VTouch 数据集补足了具身智能 Scaling Law 所缺失的“触觉与接触”维度,基于真实物理交互信息采集,填补了大规模真实视触觉交互数据的长期空白**,为构建真正具备物理理解与精细操控能力的具身基础模型提供关键语料与工程底座**,加速机器人从“能看”走向“能触、能控、能稳态泛化”的真实世界部署进程。
国地中心联合纬钛机器人在视 触觉传感器 **数采适配、任务构建、数据审核等方面开展了系统工作。**纬钛机器人起源于美国麻省理工学院,创始人李瑞博士与导师 Edward Adelson 教授共同开创了视触觉技术路线,发明了全球第一款分辨率超越人类手指的视触觉传感器 GelSight,被全球学术界公认为最先进的触觉技术路径。
“矩阵式”任务构建新范式
白虎-VTouch 数据集覆盖家居家政、工业制造、餐饮服务、特种作业等 4 大类真实场景、380+ 任务类型、100+ 原子技能、500+ 真实物品。
白虎-VTouch 数据集突破传统“单任务人工采集”的低效模式,提出“矩阵式”任务构建新 范式 **,**实现“数据规模化生成 + 能力结构化覆盖 + 泛化学习路径可控”的统一闭环,使机器人策略模型能够在精细触觉感知、闭环力控交互与复杂双臂协作等关键能力上实现系统性提升,而非依赖零散任务堆叠。

维度一:双臂协同结构,覆盖机器人双臂协作的基础逻辑,包含对称协同、非对称协同、主从协同、并行协同 4 类子项,适配不同场景下的双臂分工需求。
维度二:原子操作类型,机器人操作的基础动作单元,包含抓取、插入、旋转、放置等 100+ 原子任务,覆盖 90% 的日常与工业操作。
维度三:接触与触觉模式,捕捉物理交互的关键特征,包含软接触、硬接触、滑动接触等子项,通过视触觉传感器记录不同接触模式下的压力分布、形变数据。
跨本体规模化数采平台
我们构建了面向机器人操作任务的跨本体规模化数采解决方案,支撑多机高带宽同步大规模数据采集,具有六大技术特点。
- **高性能:**多进程架构,实现 100MB/s+ 实时采集
- **多模态:**同时支持视觉 / 触觉 / 力觉 / 位姿等 10+ 种传感器
- **精确同步:**双时间戳设计保证多传感器时序对齐
- **低成本:**发挥多机架构性能优势,分布式处理数据采集,显著降低系统成本
- **高可靠:**队列缓冲 + 进程监控
- **易用性:**Web 控制面板提供实时监控与一键录制
跨层次交互理解具身标注体系
基于真实物理交互与多模态感知数据,我们构建了跨层次交互理解具身标注体系,通过视觉、语言、动作与触觉等多模态语义的联合建模与对齐,实现跨模态表征学习与统一理解,为下一代具身 VTLA 提供数据标准。白虎-VTouch 数据标注体系将分批次开源。
- **抽象思维层:理解“为什么”。**通过将任务抽象意图推演成通用化维度交叉思维链,模型直接学习背后的思维链规律组合。
- **动作逻辑层:明白“怎么做”。**创建完备独立的原子动作元语,结合自然语言指令将复杂长流程任务操作拆解为动作步骤序列,涵盖操作逻辑与步骤内涵。
- **物理状态层:感受“做什么”。**通过视触觉增强的物理交互信息深化智能体对自身状态的掌握,同时确保物理真实一致性和多模态同步对齐。
支撑真机模型训推的统一算法框架
团队构建了面向真实机器人部署的统一训–推算法框架,**实现从多模态数据处理到模型训练与在线推理的完整闭环。**该框架兼容多种数据格式与控制方式,支持多类主流策略模型的统一训练与一键切换,显著提升模型开发与验证效率。通过标准化数据处理与一致性的训练–推理流程,系统保障了模型在真实机器人上的稳定执行与安全控制。
在多类扩散策略与模仿学习算法验证中,数据集与框架组合显著提高了任务完成率与跨模型泛化能力,构建了数据通用、算法统一、部署高效、执行可靠的具身智能开发平台。
白虎-VTouch 数据集所采用的视触觉传感器支持最高 640×480 分辨率与 120Hz 刷新率,在物体接触过程可稳定记录细粒度接触变化,包含视触觉接触图像约 9072 万对真实物体接触样本。视触觉接触数据占本数据集规模的比重为 57%,显著扩展了真实物理交互场景的接触范围。
在任务层面,视触觉信息重点覆盖 260+ 接触密集型任务,其中,68% 的任务在引入视触觉感知后获得了更完整、连续的接触状态描述,为精细操作、力控调整与失败恢复等关键环节提供了直接增益,充分体现了视触觉数据在提升复杂操作任务成功率方面的实际价值。

助力下一代具身 VTLA 与训练场标准建设
基于白虎-VTouch 数据集,国地中心将联合生态单位持续推进具身 VTLA 模型研究,深度绑定矩阵式任务设计、多层次语义标注与统一算法框架,充分释放数据集价值,构建从数据到决策、从理解到执行的完整具身智能生态,推动机器人在真实复杂场景中的能力跃迁。白虎-VTouch 数据集的使用说明、相关研究成果 Pre-print 预印本也将陆续发布。
白虎-VTouch 数据集也是国地中心围绕全国首个具身智能领域国家级标准化试点“上海虚实融合具身智能训练场标准化试点”建设。
IT之家附网址:
