深企逐际动力发布具身机器人操作算法

深圳特区报记者 吴亚男
02-19 20:06

深圳特区报

深圳市委机关报,改革开放的窗口

摘要

近日,深圳机器人企业逐际动力公布具身智能操作最新突破,发布了基于视频生成大模型的具身操作算法(简称LimX VGM)。该算法通过人类操作视频数据对现有的视频生成大模型进行后训练,仅需将场景图片和操作任务指令作为提示,即可实现任务理解与拆分、物体操作轨迹生成以及机器人操作执行的全流程,全过程零真机样本数据,并且可实现多平台泛化。这是国内首次实现将人类操作数据直接应用于机器人操作。

具身智能的目标是替代人类完成改变物理世界的任务,为此需要大量、多样化且高质量的数据进行训练,数据来源包括真实数据、仿真数据和互联网数据。相较于需要耗费巨额成本获取的真机及仿真数据,互联网及视频大模型中已有海量的人类操作视频,获取成本最低,且包含丰富的物理常识、行为轨迹及操作决策路径。

然而,如何把这些数据用起来,行业仍然在寻找行之有效的方法。主要挑战包括人类操作视频无法直接应用于机器人操作,大模型虽然能够根据这些视频生成行为轨迹和操作数据,但往往存在精度不足、偏离物理规律、存在幻觉等缺陷,即使数据准确,仍然无法直接应用于机器人操作。

“LimX VGM背后是逐际动力三大具身技术核心创新点,即人类操作视频到机器人操作策略及行为的桥接、空间智能的引入、算法与机器人本体的解耦。” 逐际动力方面介绍,LimX VGM的工作流程包括训练阶段、推理阶段、执行阶段三个关键步骤。通过LimX VGM,逐际动力实现了对人类操作视频中操作任务本质的理解和信息提取,从而弥合了人类操作与机器人操作之间的巨大差异,并创造性地提出了“数据-性能ROI”这一数据效率评估方法。

LimX VGM工作流程

据介绍,LimX VGM是逐际动力探索具身操作落地崭新的开始,也是关键一步。逐际动力将以数据驱动为核心,继续优化LimX VGM的能力,推动算法适配Cosmos等更多先进的视频大模型,并优化算法推理效率,逐步实现实时视频生成。同时,进一步优化空间智能的模块性能,提升操作执行的精准性。

编辑 刘彦 审读 吴剑林 二审 桂桐 三审 赵明

(作者:深圳特区报记者 吴亚男)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读

读特热榜

IN视频

鹏友圈

首页