Genesis World 1.0重磅开源：把机器人评估成本降到零的基础设施来了！

阅读时间大约10分钟以上（4040字）

2026-05-29 Genesis World 1.0重磅开源：把机器人评估成本降到零的基础设施来了！

来源：豆包

Genesis World不是一个仿真器，是一个完整的评估和迭代系统

作者：李鑫出品：具身智能大讲堂

2026年，机器人基础模型的竞争已经从“谁的数据更多”转向“谁能更快迭代”。Genesis AI用一年时间重构了整个仿真技术栈，给出了一个明确答案：仿真的核心价值不是生成训练数据，而是成为评估和迭代的加速器。当Physical Intelligence、BeingBeyond们在真机上跑demo时，Genesis在做一件看起来“更慢”的事——把仿真做到89%的真实相关性。这个数字意味着什么？意味着你可以在虚拟环境里完成99%的验证工作，只在最后1%时才需要碰硬件。这是一个关于基础设施的故事。数据飞轮提供了原料，但没有高效的评估系统，再多数据也只是堆积。Genesis World从一个物理求解器整合框架，进化成了一个完整的“机器人开发操作系统”。它的价值不在于制造爆款demo，而在于让其他人能够持续制造爆款。

PART 01

评估瓶颈：硬件成本与统计需求的矛盾

机器人基础模型的评估成本高得离谱。一个模型必须跨任务、跨对象、跨条件运行，还要发现故障模式来指导数据收集。这要求评估系统同时具备可扩展性和闭环性：可扩展性覆盖任务和条件的组合空间，闭环性完整执行从感知到行动的流程，而不是依赖静态数据集上的离线指标。

自动驾驶行业早就认识到这一点。Waymo几年前就开始每天进行约2000万英里的模拟驾驶，通用汽车在公共道路测试前每天模拟约100年的人类驾驶里程。构建可扩展闭环评估流程的团队脱颖而出，因为他们把开发周期从“等硬件排期”的时间问题，转化为“加算力”的计算问题。

机器人技术目前缺乏成熟的大规模仿真评估基础设施。即使配备了自动重置基础设施、VLM批评者和尽可能少的人为干预，现实世界的评估仍然受限于硬件可用性、物理空间和机器人运行成本。成本高昂、在不同站点和时间段产生噪声，并且在机械上无法达到基础模型所需的广度。

Genesis的典型模型评估流程包含数百个任务，每个任务重复数百次。在实际应用中，仅一次评估就需要一名操作员和一个机器人工作站连续运行超过200小时。要进行具有统计学意义的跨检查点比较，需要多次这样的评估。

在仿真中，同样的数万起事件：运行时间不到0.5小时，比现实世界快两个数量级；无需人工或硬件参与；确保每次运行结果都具有精确一致性。这就是为什么仿真不是可选项，而是必需品。

PART 02

从真实到虚拟的89%：如何缩小sim-to-real gap

传统仿真的问题不是“不够真”，而是“不知道哪里不真”。Genesis构建了一套实时并排运行系统：物理机器人和仿真器从相同初始状态出发，每个传感器输入都可以独立切换来源。策略输入的来源——摄像头帧和本体感觉——可以来自仿真器、机器人，或者两者的可调混合。

这种设计让他们能够精确定位sim-to-real gap的来源。通过每次替换一个组件并观察差异出现的位置，可以将差距归因于特定层面：物理、渲染、通信或控制，而不是简化为单一的二元成功/失败结果。

视觉层：材质属性、光照模型和相机特性均经过调整，以匹配真实的感官流程。这不是简单的参数拟合，而是对整个渲染管线的系统性校准。

物理层：关节行为、摩擦和接触的精确建模。Genesis扩展了libuipc，添加了外部关节约束，将关节空间动力学直接嵌入到IPC的优化过程中。对于一个具有m个关节的关节系统，刚体求解器预测关节位移并计算关节空间有效质量矩阵，将其作为外部关节动能注入到IPC中。IPC联合最小化此映射，同时考虑接触障碍、摩擦和关节约束。无接触时，求解器能够精确恢复关节预测；有接触时，求解器会根据有效质量进行加权，使较重的连杆对修正的阻力更大。

控制层：忠实地复制运行在硬件上的实际控制器，包括计时、延迟和通信特性。这是最容易被忽视但影响最大的一层。

经过这项工作，仿真评估与硬件部署的相关性达到89%。他们评估了三种不同规模和架构的模型，选择了14个任务，在真实世界和仿真环境中各运行200个回合。然后计算相关性指标，并应用100万次自助法迭代来估计置信区间。实验结果显示仿真器能够保持不同模型的性能排名。

更关键的是，这套评估完全基于真实世界数据训练的策略，没有用任何仿真数据。这保证了训练和评估流程的解耦，避免了“为仿真优化”的陷阱。当模型在仿真和实际环境中的行为和性能相匹配时，两者之间的差距就足够小，可以信赖该模型。

根据FID分数衡量，Genesis的现实差距比次优替代模拟器小45%。这不是渐进式改进，而是质的飞跃。

PART 03

零成本的压力测试：系统性探测策略边界

有了高保真仿真，评估就可以做现实世界测试无法做到的事：以现实世界硬件无法支持的规模和频率，沿着鲁棒性的每个维度探测策略。

有效的评估不仅仅是一个标量数字。在标准基准测试中获得80%分数的策略，在光照变化、摄像机位置移动或指令措辞改变的情况下，仍然可能失效。Genesis将评估构建为正交扰动轴的分类体系，每个轴都旨在对特定类别的模型理解进行压力测试：

视觉维度：光照条件、相机扰动、背景变化。这些因素在真实世界中难以控制，但在仿真中可以精确调节。

行为维度：未见组合、物体放置、机器人配置。测试模型的泛化能力，而不是记忆能力。

语义维度：语言重述、子任务排序、摄像机视角。同一个任务的不同表达方式，模型是否真正理解了意图。

对于每个轴，只改变一个参数，同时保持其他所有参数在其标称值不变。这些失效模式直接指导数据收集的优先级。如果模型在光照变化时失效，就知道需要收集更多不同光照条件下的数据。

Genesis还使用此框架来比较模型。将给定轴上的鲁棒性定义为在扰动下相对于标称未扰动设置的性能保持率。测量每个轴的鲁棒性曲线，并跟踪这些曲线如何随累积训练FLOPs的变化而演变。

这些分析揭示了模型间能力差异，而这些差异仅靠汇总的成功率无法体现。它们还指出了哪些维度需要额外数据收集以提高模型的鲁棒性。这种扰动方法在多个模型尺度上遍历训练检查点，每个数据点需要数千次评估，因此只有在评估成本几乎为零的情况下才可行。

一个在标准基准上80%成功率的策略，可能在光照变化时完全失效。传统方法只能看到最终分数，Genesis能看到策略在哪个维度脆弱、随训练FLOPs增加如何演化。这种分析需要数千次评估，只有在评估成本接近零时才可行。

PART 04

统一物理引擎的技术突破

要做到高频评估，需要极致的性能。Genesis重写了整个物理引擎，在三个方向上取得突破：

标准IPC使用对数障碍强制执行非穿透约束，这既导致Hessian矩阵在紧密接触情况下病态，又由于过滤线搜索而减慢了活动集的探索速度。Genesis用自定义的增强拉格朗日函数替换了该障碍：连续碰撞检测返回的每个必需接触对立即进入活动集，并且约束满足由自适应拉格朗日乘子更新驱动，而不是通过增加惩罚刚度。

对于每个具有当前线性化穿透深度的接触对，首先引入一个松弛变量，将非穿透不等式约束转换为等式约束。然后定义每步目标，其中包含增量势、主动接触约束集和增广拉格朗日项。每次原始求解后，交替更新拉格朗日乘数和活动集，使其在保持紧凑性的同时有效。

即使应力增加，Hessian矩阵仍然保持良好条件，并且在复杂场景中，接触密集型基准测试的运行速度比传统IPC快103倍，同时仍然保证没有交叉点。这不是理论上的改进，而是实测的性能提升。

线搜索中的协同线程、分解求解中的GPU图、分块Hessian分解、宽阶段优化、仅寄存器Cholesky变换和求解器分块，以及针对最小线程发散和最大GPU核心利用率优化的窄阶段。复杂场景的刚体模拟速度显著提升，并行模拟扩展到可变形物体和路径规划，许多以前仅限CUDA的优化现在也支持其他GPU后端。

惯性轴对齐用于自由关节稳定性，自动校准求解器容差，安全GJK回退，无滑移/漂移抑制，以及跨分解式和整体式求解器的统一线搜索路径。已解决USD/MJCF/URDF解析、复合关节雅可比矩阵、盒-盒碰撞和MPR碰撞、IK四元数奇异性以及平台稳定性等长期存在的极端情况。

除了统一物理学之外，Genesis还扩展了覆盖范围。除了现有的FOTS弹性体位移传感器、磁力计-IMU和接触式探针套件外，现在还支持点云触觉传感器、温度网格传感器和接近传感器。扩展了求解器集，加入了隐式有限元法和线性共旋弹性体。资源支持范围现已扩展至URDF xacro、MuJoCo通用执行器、复合/模拟关节以及等式/焊接约束。

这些技术细节的共同目标是：让仿真成为开发周期的瓶颈消除器，而不是新的瓶颈。

PART 05

从数据生成器到迭代引擎

Genesis对仿真的定位发生了根本转变。过去几年，行业把仿真当作“廉价数据工厂”——生成大量轨迹喂给模型。但这个范式有个致命问题：sim-to-real gap会污染训练数据，模型学到的是仿真器的偏差，而不是真实世界的物理规律。

具身智能领域正在经历自己的“巴别塔时刻”。在大语言模型中，人类的“文本Token”是那个完美的抽象模态——它洗去了声音、口音、字体的物理噪音，纯粹地承载了逻辑与语义。但在具身智能领域，这个统一的、属于物理世界的“抽象模态”尚未完全收敛。

数据源已经变了。GEN-1的基础预训练完全不依赖机器人数据，核心数据来源是低成本UMI设备采集的人类日常活动，数据量从Gen-0的27万走到了50万小时。Being-H0.7引入多样化30+跨本体数据，从H0.5的约1万小时人类中心预训练数据扩到20万小时，15倍的提升。GR00T N1.7引入了超过2万小时的人类操作视频作为基座预训练的核心燃料。

数据量本身不再成为瓶颈。但大量异构数据——机器人平台的遥操作轨迹、人类第一视角视频、互联网图文、失败片段混在一起，质量参差、模态各异，如何消化成能驱动动作的统一表征？

Genesis的答案是：仿真不参与训练，只负责评估。策略用真实数据训练，在仿真中以现实世界无法企及的规模和频率验证。这把开发周期从“等硬件排期”的时间问题，转化为“加算力”的计算问题。

这个转变的前提是仿真必须足够准确。89%的相关性是及格线，不是终点。Genesis还在持续缩小那11%的差距，目标是让仿真评估成为硬件测试的完全替代品。

当开环评估指标（R平方值和固定数据集上动作预测的平均绝对误差）落在一个狭窄的范围内时，模型之间的差异在开环方面就变得无法区分，而闭环指标则变得更有信息量。开环指标对于捕捉峰值和进行健全性检查很有用，但一旦它们收敛，就需要闭环评估来真正区分模型能力。

PART 06

基础设施决定迭代速度

机器人基础模型的竞争，本质是迭代速度的竞争。数据、算法、硬件都重要，但真正的杠杆在基础设施——它决定了你能多快验证一个想法、多快发现问题、多快修复并重新验证。

Genesis World不是一个仿真器，是一个完整的评估和迭代系统：

Nyx：专为机器人应用从零开始设计的实时照片级渲染引擎。不是通用渲染器的改装版，而是针对机器人视觉需求定制的。

Quadrants：面向高性能基础设施的跨平台编译器。同一套物理计算流程必须在机器人的机载计算机、工程师的MacBook以及GPU集群上运行，且不能针对不同目标平台分别生成代码。Quadrants专为GPU级工作负载开发，让这一切成为可能。

Genesis World：高保真统一刚性和可变形物理模拟器。不是多个求解器的拼凑，而是从底层统一设计的物理引擎。

仿真接口：使引擎易于下游应用使用的工具。基于此构建了跨实体仿真环境，涵盖Wuji、Sharpa、Genesis手和Pika夹爪，支持软体和刚体操作任务。

每个组件都为同一个目标优化：让机器人研究者能像软件工程师调试代码一样快速迭代策略。

当别人还在为“这个demo为什么在真机上失败了”而困惑时，Genesis的用户已经在仿真里跑完了1000种变体，精确定位了失效的维度，并验证了修复方案。这就是基础设施的力量。它不制造爆款demo，但它决定了谁能持续制造爆款。开源地址：https://github.com/Genesis-Embodied-AI/quadrants