阅读时间大约7分钟（2496字）

2026-05-25 具身智能落地三大环节：模型、数据和本体

来源：豆包

具身智能项目落不了地，大部分原因是只盯着模型是不是高大上。

出品:机器人技术笔记

VLA、世界模型、机器人基础模型、强化学习策略，这些当然重要。但具身智能不是把一个大模型接到机械臂上就结束了。真正落地时，问题会从“模型能力强不强”变成一连串具体工程问题：机器人能不能理解指令，能不能生成可执行的运动，能不能在真实接触中稳定完成任务。

所以具身智能落地不能只按模型路线来安排。一个从零到一的项目，应该同时抓住三件事：模型、数据和本体。

模型决定机器人怎样理解任务、生成动作。数据决定模型从哪里获得经验，见过多少真实变化。本体决定这些动作能不能在物理世界里稳定执行。

更工程化地说，具身智能项目的基本链路是：

感知输入 → 模型理解与决策 → 动作生成 → 本体执行 → 环境反馈 → 数据回流

这条链路里，任何一段太弱，都会表现成机器人不稳定。模型再强，如果数据是乱的，到现场就容易失效。数据再多，如果本体传感器漂、夹爪松、控制抖，采出来的数据也会很脏。本体再先进，如果模型不能理解任务，也只能完成有限的固定动作。

从零到一安排项目，建议不要先问用哪个大模型，而是先问这台机器人要在什么场景里稳定完成哪几类任务。比如桌面整理、货架取放、实验室巡检、简单装配、家庭物品搬运。任务边界越清楚，模型、数据和本体才越容易对齐。

第一步，先定本体和任务边界

本体是整个系统的地基，不能等到后面再补。

如果任务主要是桌面抓取，稳定机械臂、可靠两指夹爪、固定相机或腕部相机，往往比一上来追求灵巧手更稳。先把手眼标定、末端定位、夹爪闭合、轨迹平滑和急停链路跑通，项目才有继续迭代的基础。

如果任务需要移动到不同位置，就要先算清楚底盘定位、避障、停靠精度和机械臂工作空间。移动机械臂很多问题并不出在抓取算法，而是底盘定位精度差了几厘米，机械臂后面所有动作都变难。

人形机器人和灵巧手有想象空间，但早期会把控制、维护、数据采集和安全问题同时放大。除非任务明确需要双腿、双臂或复杂手内操作，否则更稳的路线是先用一个没那么炫但可靠的本体，把任务闭环做出来。

看本体时，重点不在参数堆得多高，而在几个指标能不能支撑任务：末端工具是否适合物体，自由度是否够用，控制器算力是否能支撑视觉和运动控制，传感器精度是否够用，底层运动控制是否平滑可靠。

第二步，先搭数据管线，再谈大模型

数据是具身智能最容易被低估的部分。

普通视觉模型的数据可以是图片和标签，语言模型的数据可以是文本。机器人数据更麻烦，因为它要把传感器、机器人状态、任务、动作和结果放在同一条时间线上。

一条有价值的机器人数据里，通常要有图像、深度、关节角度、末端位姿、夹爪状态、控制指令、任务文本、时间戳和执行结果。这里有一个很经典的教训：garbage in, garbage out。数据如果是错的、乱的、时间不同步的，模型再好也只能学到混乱经验。

从零到一阶段，最重要的是尽早搭起遥操作系统。哪怕一开始很粗糙，也要让人能稳定控制真实机器人完成任务，并把图像、状态、动作和结果记录下来。遥操作数据和目标本体天然对齐，特别适合训练机器人模仿动作。

部署现场的自主执行日志、脚本策略采集、拖动示教和评测数据也要保留下来。egocentric 第一视角视频、互联网视频和仿真数据同样有价值，但用途不同。第一视角和互联网视频适合补任务常识，比如人怎么观察、怎么安排步骤、怎么处理物体；仿真适合规模化、低风险地生成场景变化，尤其适合强化学习和危险动作测试。但这些数据最终还要回到目标本体上校准。

数据管线里最容易被低估的是清洗和标注。成功样本要不要全收，失败样本怎么分类，操作者犹豫的动作要不要保留，夹爪碰到物体但没抓稳算什么状态，这些问题会直接影响模型学到什么。数据质量如果没人负责，后面每一次训练都会带着同一个坑。

第三步，模型先追求可迭代

模型路线可以分层安排。

上层模型负责理解语言、图像和任务目标，常见路线是 VLA，也就是视觉-语言-动作模型。它可以输出动作序列、末端位姿、关节目标或动作 token。世界模型更关注动作之后会发生什么，适合做预测和方案选择。强化学习更适合足式、灵巧手、动态平衡和复杂接触任务。

但在落地早期，不建议把全部希望押在一个端到端大模型上。更现实的做法，是先用分层架构跑通：上层模型负责理解指令和拆任务，下层策略负责抓取、移动、放置等技能，传统规划和控制模块负责安全约束、轨迹生成和硬件执行。

这样做不够酷，但好调试。机器人抓错物体，可以查视觉和任务理解；抓对了但夹不住，可以查抓取姿态、末端工具和力控；轨迹生成正常但机器人抖，就查控制频率、驱动器和机械结构。

训练也要分阶段。单任务策略或小模型微调，可以先用几十到几百条高质量示教数据做起来。一张 RTX 4090、RTX 6000 Ada、L40S 或 A6000 级别显卡，已经能完成不少 ACT、Diffusion Policy 或小型策略实验。多任务 VLA 微调会明显吃更多数据和显存，通常需要 A100、H100 这类大显存训练卡；如果用 LoRA等参数高效微调，几张 GPU 也能做实验，但全量训练或大 batch训练会很快上到多机多卡。机器人基础模型预训练则是另一个量级，往往需要接近百万级机器人轨迹，再叠加视频、仿真和多本体数据，并使用更大的 GPU 集群。

对大多数从零到一项目来说，早期真正应该追求的是让一个具体任务每天稳定进步，而不是一开始训练通用基础模型。

第四步，用闭环指标替代演示成功率

具身智能项目不能只看一次 demo 成不成功。演示视频可以只保留成功瞬间，但真实应用要面对每一次失败。

更有价值的指标是连续 100 次任务里成功多少次，失败集中在哪一步，失败以后能不能自动恢复，需要人工接管多少次，换一批物体以后成功率掉多少，单次任务平均耗时多少。

现阶段的主要挑战，也可以按模型、数据、本体来看。

模型难在动作表示和失败恢复。输出末端位姿要解决逆解、碰撞和控制，输出关节动作又容易绑定具体本体，输出动作 token 看起来统一，但映射到不同机器人仍然麻烦。更难的是失败恢复，机器人不能只会从标准初始状态执行流程，还要知道当前偏到了哪里，下一步怎么补救。

数据难在贵、散、脏。真实机器人采集需要设备、人和时间，遥操作会持续占用熟练操作员。不同机器人、不同实验室、不同格式的数据很难统一。真实数据里还有抖动、延迟、遮挡、失败和不完整标注。

本体难在稳定性和维护成本。线缆拉扯、标定漂移、驱动器发热，这些看似无关紧要的问题会把项目拖进难以交付的泥潭。一个每天都要修的机器人，会拖垮模型和数据团队的节奏。

所以从零到一做具身智能项目，真正要盯住的是三个环节能不能互相接上。模型输出的动作，数据里要能记录和复现；数据里暴露的失败，本体要能支持修正；本体的能力边界，模型也要知道不能越过去。

如果一个项目每周都能把失败样本收回来，更新数据，调整策略，再让机器人在同一个任务上更稳定一点，它就是在往落地方向走。反过来，如果模型换了一版又一版，机器人还是只能在固定角度、固定物体、固定光照下完成一次演示，那离真正落地还很远。具身智能最后拼的是机器人能不能在真实变化里反复把事情做成，而不只是一次漂亮动作。