阅读时间大约9分钟（3477字）

3小时前从三维视觉到模型轻量化，一位青年学者的具身智能观察|专访中国传媒大学杨琳琳

来源：豆包

让论文里的技术，真正走到产业场景里去。

作者：赵鹏程编辑：晋芳博出品：机器人产业应用

前言

当具身智能的讨论集中在大模型路线、人形机器人本体时，有两项底层技术正在默默决定着行业的落地上限 —— 三维机器视觉与模型轻量化。前者决定机器人 “看得有多准”，后者决定机器人 “跑得有多稳”。

中国传媒大学助理教授杨琳琳，正是这两个领域的深耕者。从北航自动化本科踏入人工智能领域，到德国波恩大学攻读博士深耕三维手部姿态估计，再到新加坡博后期间拓展轻量化与具身方向，他的学术路径始终沿着 “交叉” 与 “落地” 两条线延伸。

选择入职中传，是他经过深思熟虑的决定：依托学校文工艺交叉的独特氛围，在这所拥有国家级重点实验室的院校里，沉下心做更具探索性的研究。“当老师的好处就是有无限可能，可以深耕科研，可以探索产业落地，也可以做科普教育。”

近日，【机器人产业应用】对杨琳琳教授进行了专访请教，从三维视觉的底层逻辑聊到模型轻量化的产业价值，也为正值高考志愿填报季、毕业季的年轻人，给出了来自一线研究者的真诚建议。

三维机器视觉：给机器人一双能读懂空间的眼睛

在具身智能的技术体系里，感知是所有决策与动作的前提，而三维机器视觉正是感知端的核心支柱。

很多人对三维视觉的朴素认知是 “比 2D 多了深度信息”，这个理解恰好点中了二者的本质差异。杨琳琳解释，人类感知到的真实世界是包含时间维度的 “4D 信息”，当画面通过透视投影到平面屏幕上时，深度维度就在这个不可逆的转换中丢失了，由此产生了 2D 视觉无法彻底解决的问题 —— 深度歧义。

他举了一个经典的例子：镜头前飞过一只鸽子，远处站着一个人，在 2D 画面里鸽子的成像尺寸可能远大于人，单靠平面像素无法判断真实的大小与空间距离。而三维视觉的核心价值，就是还原这份丢失的空间信息，让机器拥有和人眼类似的深度感知能力。

“很多时候我们用 2D 图像也能反推三维信息，靠的是先验知识 —— 比如我们默认鸽子一定比人小，从而反推距离。但先验不总是靠谱，在陌生场景下就可能会失效。” 在他看来，三维视觉就是要有效的探索和利用先验，让机器准确估计真实的空间坐标与物体结构信息。

他的博士研究方向 ——手部表面重建与姿态估计（Hand Mesh Recovery and Pose Estimation），正是三维视觉的垂直细分领域。这项技术最初的落地场景是 VR/AR 设备：通过视觉识别手部的三维位姿，实现无手柄的沉浸式交互，对精度要求极高。而随着具身智能的兴起，这项技术自然延伸到了机器人灵巧手领域 —— 机器人要精准抓取物体、完成复杂操作，本质上和人手的交互逻辑高度一致，位姿误差会直接导致任务失败。

对于具身智能而言，三维视觉的价值远不止 “看见”。杨琳琳认为，三维感知是机器人与环境交互的基础：不管是工厂里拧螺丝的机械臂，还是家庭里收拾桌面的服务机器人，首先都要感知空间内的物体分布、判断距离与位置，再规划移动与操作路径。第一人称视角的移动视觉、动态场景下的三维重建，都是机器人完成交互任务的前提。 “没有空间感知的机器人，就像闭着眼睛干活，再聪明的大脑也无从发力。”

模型轻量化：具身智能落地的 “必答题”

如果说三维视觉解决的是机器人 “看得准” 的问题，模型轻量化解决的就是机器人 “跑得动、反应快、续航久” 的问题。

杨琳琳的另一个核心研究方向是模型量化。他解释，深度学习模型为了更好地拟合数据，训练阶段往往会设计得非常庞大，权重存在大量冗余；而轻量化的核心目标，就是在性能基本满足要求的前提下，尽可能压缩模型体积与计算量，让模型能在资源有限的设备上稳定运行。

模型量化直观来说：就是将原本 32bit或者16bit的权重或激活等数据，压缩到 8bit、4bit甚至1bit，通过降低信息表征的精度来极致压缩模型体积。

在他看来，轻量化对具身智能的产业价值。体现在四个核心维度：

第一是降低功耗：机器人的电池容量有限，功耗直接决定续航时长。“能连续工作 8 小时和 2 小时就要充电，对商用场景来说是天壤之别。”

第二是减少内存与显存占用：大模型动辄需要数张显卡才能运行，硬件成本居高不下；经过轻量化压缩后，单卡甚至嵌入式芯片就能运行，大幅拉低落地门槛。

第三是实现端侧离线运行：“总不能家里断网，机器人就直接罢工了吧？” 在他看来，云端协同是长期趋势，但端侧必须具备基础的决策与处理能力，不能完全依赖网络，否则延迟与断网风险会让交互体验彻底失效。

第四是降低交互延迟：抓取一个杯子，0.5 秒响应和 2 秒响应，给人的交互感受完全不同。轻量化模型推理速度更快，能有效降低端到端延迟，提升交互流畅度。

但轻量化并不等于 “一味做小”。杨琳琳强调，性能损失是必然的，核心是在场景需求中找到平衡 —— 简单的目标检测任务，小模型就能胜任，不必事事都上大模型；复杂的通用交互任务，可以通过大小模型协同、Agent 调度的方式，兼顾性能与效率。

面向未来，他认为软硬协同优化是最终的最优解：算法层面的轻量化要和专用芯片的设计结合起来，为具身场景定制算力硬件，而不是简单把 PC 级 GPU 搬到机器人上。“尤其是小型服务机器人，电池不可能无限大，低功耗的专用芯片一定是落地的关键。”

入行指南：兴趣为引，软硬兼修

正值高考志愿填报与高校毕业季，越来越多学生开始关注具身智能赛道，想要踏入这个蓬勃发展的领域。我们也向杨琳琳进行了请教，作为一线教学与科研工作者，他对想要入局具身的同学们有哪些建议：

首先他明确表达了对行业的长期乐观：从国家战略层面的规划导向，到产业端从无人机、机器狗到人形机器人的快速迭代，整个赛道的发展潜力肉眼可见。“去年春晚的机器人动作还很僵硬，今年就能完成复杂的舞蹈编排，行业进步的速度非常快。”

更重要的是，现在的入行门槛比过去低了很多。他回忆自己入行时，具身这个概念还未普及，工具链极不完善；而现在深度学习框架成熟，AI 辅助工具丰富，初学者入门的难度大幅降低，是非常好的入场时机。

但门槛低不代表可以浮躁。他给想入行的年轻人提了两个核心建议：第一，沉下心打基础，不要陷入 “为发论文而做科研” 的误区。 他提到，现在很多学生急于求成，靠拼接现有工作快速产出论文，但并没有吃透底层原理。他更鼓励学生做 “探究性研究”：把一篇经典论文彻底吃透，理解它为什么有效、潜在问题是什么，这个过程比拼凑浅层次的论文更有收获。“发论文不是目的，培养发现问题、解决问题的能力才是。”

第二，建立软硬结合的思维，走全栈发展路线。 很多做 CV（计算机视觉）、做算法的同学完全不接触硬件，在他看来会严重限制长期发展。具身智能是典型的交叉领域，算法最终要落地到硬件上。哪怕不精通硬件设计，也要建立基本的硬件思维，知道算法的边界在哪里、硬件的约束是什么，这样做出来的研究才更有落地价值。 “我读博的时候导师就说，博士阶段不是发几篇论文就完事，而是要能从头到尾完整做成一件事，从问题发现到落地实现都要有认知。全栈能力，才是未来的核心竞争力。”

产业展望：三重卡点下的融合

最后，站在 2026 年的节点，我们也向杨琳琳请教了对未来几年具身智能产业的一些看法。他向我们分享了自己的观点——行业正处在快速上升期，但距离真正的大规模落地，仍有三座大山需要翻越。

第一座大山是数据端。三维多模态数据的稀缺是行业共性痛点：互联网上的二维视频数据海量，但带深度、带物理信息的三维数据非常少。目前行业的解法是 “真实数据 + 仿真数据” 结合，仿真数据可以无限生成，但存在 “仿真到真实” 的域迁移问题，模型很容易在仿真里找到错误的捷径，到真实场景就失效。在他看来，未来数据的方向一定是多模态融合 —— 视觉、触觉、听觉共同作为输入，只靠视觉不可能解决所有交互问题。“拿杯子用了多大劲，光靠看是看不出来的，触觉信息必不可少。”

第二座大山是模型端。现在行业普遍沿用 Transformer 架构，但它是不是具身智能的最优解？杨琳琳持保留态度。具身智能的其中一个核心是物理规律嵌入（Physical Grounding），而 Transformer 在这方面并没有天然优势。未来可能出现更适配物理建模的新架构，不管是基于 Transformer 的迭代，还是全新的网络结构，都是行业需要探索的方向。对于当下热议的 VLA、世界模型、WAM 等技术路线，他认为没有绝对的优劣，各自侧重不同：VLA侧重感知、指令和动作的三者协同，世界模型侧重物理世界的建模以及未来的预演，而WAM则侧重物理世界与动作的耦合，从而实现预演及规划。 “未来一定是走向融合，取长补短，而不是非此即彼。”

在模型之外，他也特别强调具身智能的安全性和可靠性。和大模型的 “幻觉” 只是文本错误不同，具身机器人的失误会造成真实的物理伤害。这也是他关注 “多样性” 研究的原因：让模型输出多种可行方案，而不是只有单一解，再结合当时环境和人机交互，完成输出。这样遇到突发状况时才有调整的空间，从算法层面提升安全冗余。

第三座大山是软硬协同的落地端。目前很多机器人方案还是功耗高、体积大，远不是最优解。专用的具身算力芯片、成熟的端侧部署方案，都是产业落地必须补齐的短板。

而谈及具体的产业方向，他尤其看好灵巧手赛道。“人类用十根手指构建了整个现代世界的工具与环境，适配人手形态的灵巧手，在泛化性上有天然优势。” 在他看来，专用场景可以用专用末端执行器，但要做通用具身智能，拟人灵巧手是绕不开的方向，再叠加触觉传感的迭代，会成为未来几年的核心增长点。

最后他也提到，产研结合是必然趋势。高校有基础研究的优势，但缺乏大规模数据与工程落地能力；企业有场景与数据，但基础研究储备不足。双方结合，用产业的真问题驱动科研，用科研的成果反哺产业，才是双赢的路径。这也是他自己正在探索的方向 —— 让论文里的技术，真正走到产业场景里去。

在这个技术快速迭代的赛道上，既有产业的热闹喧嚣，也有基础研究的默默耕耘。而像杨琳琳这样扎根交叉领域的研究者和分享者，正是连接学术与产业的重要桥梁。