阅读时间大约7分钟(2496字)
出品:机器人技术笔记
VLA、世界模型、机器人基础模型、强化学习策略,这些当然重要。但具身智能不是把一个大模型接到机械臂上就结束了。真正落地时,问题会从“模型能力强不强”变成一连串具体工程问题:机器人能不能理解指令,能不能生成可执行的运动,能不能在真实接触中稳定完成任务。
所以具身智能落地不能只按模型路线来安排。一个从零到一的项目,应该同时抓住三件事:模型、数据和本体。
模型决定机器人怎样理解任务、生成动作。数据决定模型从哪里获得经验,见过多少真实变化。本体决定这些动作能不能在物理世界里稳定执行。
更工程化地说,具身智能项目的基本链路是:
感知输入 → 模型理解与决策 → 动作生成 → 本体执行 → 环境反馈 → 数据回流
这条链路里,任何一段太弱,都会表现成机器人不稳定。模型再强,如果数据是乱的,到现场就容易失效。数据再多,如果本体传感器漂、夹爪松、控制抖,采出来的数据也会很脏。本体再先进,如果模型不能理解任务,也只能完成有限的固定动作。
从零到一安排项目,建议不要先问用哪个大模型,而是先问这台机器人要在什么场景里稳定完成哪几类任务。比如桌面整理、货架取放、实验室巡检、简单装配、家庭物品搬运。任务边界越清楚,模型、数据和本体才越容易对齐。
第一步,先定本体和任务边界
本体是整个系统的地基,不能等到后面再补。
如果任务主要是桌面抓取,稳定机械臂、可靠两指夹爪、固定相机或腕部相机,往往比一上来追求灵巧手更稳。先把手眼标定、末端定位、夹爪闭合、轨迹平滑和急停链路跑通,项目才有继续迭代的基础。
如果任务需要移动到不同位置,就要先算清楚底盘定位、避障、停靠精度和机械臂工作空间。移动机械臂很多问题并不出在抓取算法,而是底盘定位精度差了几厘米,机械臂后面所有动作都变难。
人形机器人和灵巧手有想象空间,但早期会把控制、维护、数据采集和安全问题同时放大。除非任务明确需要双腿、双臂或复杂手内操作,否则更稳的路线是先用一个没那么炫但可靠的本体,把任务闭环做出来。
看本体时,重点不在参数堆得多高,而在几个指标能不能支撑任务:末端工具是否适合物体,自由度是否够用,控制器算力是否能支撑视觉和运动控制,传感器精度是否够用,底层运动控制是否平滑可靠。
第二步,先搭数据管线,再谈大模型
数据是具身智能最容易被低估的部分。
普通视觉模型的数据可以是图片和标签,语言模型的数据可以是文本。机器人数据更麻烦,因为它要把传感器、机器人状态、任务、动作和结果放在同一条时间线上。
一条有价值的机器人数据里,通常要有图像、深度、关节角度、末端位姿、夹爪状态、控制指令、任务文本、时间戳和执行结果。这里有一个很经典的教训:garbage in, garbage out。数据如果是错的、乱的、时间不同步的,模型再好也只能学到混乱经验。
从零到一阶段,最重要的是尽早搭起遥操作系统。哪怕一开始很粗糙,也要让人能稳定控制真实机器人完成任务,并把图像、状态、动作和结果记录下来。遥操作数据和目标本体天然对齐,特别适合训练机器人模仿动作。
部署现场的自主执行日志、脚本策略采集、拖动示教和评测数据也要保留下来。egocentric 第一视角视频、互联网视频和仿真数据同样有价值,但用途不同。第一视角和互联网视频适合补任务常识,比如人怎么观察、怎么安排步骤、怎么处理物体;仿真适合规模化、低风险地生成场景变化,尤其适合强化学习和危险动作测试。但这些数据最终还要回到目标本体上校准。
数据管线里最容易被低估的是清洗和标注。成功样本要不要全收,失败样本怎么分类,操作者犹豫的动作要不要保留,夹爪碰到物体但没抓稳算什么状态,这些问题会直接影响模型学到什么。数据质量如果没人负责,后面每一次训练都会带着同一个坑。
第三步,模型先追求可迭代
模型路线可以分层安排。
上层模型负责理解语言、图像和任务目标,常见路线是 VLA,也就是视觉-语言-动作模型。它可以输出动作序列、末端位姿、关节目标或动作 token。世界模型更关注动作之后会发生什么,适合做预测和方案选择。强化学习更适合足式、灵巧手、动态平衡和复杂接触任务。
但在落地早期,不建议把全部希望押在一个端到端大模型上。更现实的做法,是先用分层架构跑通:上层模型负责理解指令和拆任务,下层策略负责抓取、移动、放置等技能,传统规划和控制模块负责安全约束、轨迹生成和硬件执行。
这样做不够酷,但好调试。机器人抓错物体,可以查视觉和任务理解;抓对了但夹不住,可以查抓取姿态、末端工具和力控;轨迹生成正常但机器人抖,就查控制频率、驱动器和机械结构。
训练也要分阶段。单任务策略或小模型微调,可以先用几十到几百条高质量示教数据做起来。一张 RTX 4090、RTX 6000 Ada、L40S 或 A6000 级别显卡,已经能完成不少 ACT、Diffusion Policy 或小型策略实验。多任务 VLA 微调会明显吃更多数据和显存,通常需要 A100、H100 这类大显存训练卡;如果用 LoRA等参数高效微调,几张 GPU 也能做实验,但全量训练或大 batch训练会很快上到多机多卡。机器人基础模型预训练则是另一个量级,往往需要接近百万级机器人轨迹,再叠加视频、仿真和多本体数据,并使用更大的 GPU 集群。
对大多数从零到一项目来说,早期真正应该追求的是让一个具体任务每天稳定进步,而不是一开始训练通用基础模型。
第四步,用闭环指标替代演示成功率
具身智能项目不能只看一次 demo 成不成功。演示视频可以只保留成功瞬间,但真实应用要面对每一次失败。
更有价值的指标是连续 100 次任务里成功多少次,失败集中在哪一步,失败以后能不能自动恢复,需要人工接管多少次,换一批物体以后成功率掉多少,单次任务平均耗时多少。
现阶段的主要挑战,也可以按模型、数据、本体来看。
模型难在动作表示和失败恢复。输出末端位姿要解决逆解、碰撞和控制,输出关节动作又容易绑定具体本体,输出动作 token 看起来统一,但映射到不同机器人仍然麻烦。更难的是失败恢复,机器人不能只会从标准初始状态执行流程,还要知道当前偏到了哪里,下一步怎么补救。
数据难在贵、散、脏。真实机器人采集需要设备、人和时间,遥操作会持续占用熟练操作员。不同机器人、不同实验室、不同格式的数据很难统一。真实数据里还有抖动、延迟、遮挡、失败和不完整标注。
本体难在稳定性和维护成本。线缆拉扯、标定漂移、驱动器发热,这些看似无关紧要的问题会把项目拖进难以交付的泥潭。一个每天都要修的机器人,会拖垮模型和数据团队的节奏。
所以从零到一做具身智能项目,真正要盯住的是三个环节能不能互相接上。模型输出的动作,数据里要能记录和复现;数据里暴露的失败,本体要能支持修正;本体的能力边界,模型也要知道不能越过去。
如果一个项目每周都能把失败样本收回来,更新数据,调整策略,再让机器人在同一个任务上更稳定一点,它就是在往落地方向走。反过来,如果模型换了一版又一版,机器人还是只能在固定角度、固定物体、固定光照下完成一次演示,那离真正落地还很远。具身智能最后拼的是机器人能不能在真实变化里反复把事情做成,而不只是一次漂亮动作。
