阅读时间大约9分钟(3477字)
作者:赵鹏程 编辑:晋芳博 出品:机器人产业应用
前言
当具身智能的讨论集中在大模型路线、人形机器人本体时,有两项底层技术正在默默决定着行业的落地上限 —— 三维机器视觉与模型轻量化。前者决定机器人 “看得有多准”,后者决定机器人 “跑得有多稳”。
中国传媒大学助理教授杨琳琳,正是这两个领域的深耕者。从北航自动化本科踏入人工智能领域,到德国波恩大学攻读博士深耕三维手部姿态估计,再到新加坡博后期间拓展轻量化与具身方向,他的学术路径始终沿着 “交叉” 与 “落地” 两条线延伸。
选择入职中传,是他经过深思熟虑的决定:依托学校文工艺交叉的独特氛围,在这所拥有国家级重点实验室的院校里,沉下心做更具探索性的研究。“当老师的好处就是有无限可能,可以深耕科研,可以探索产业落地,也可以做科普教育。”
近日,【机器人产业应用】对杨琳琳教授进行了专访请教,从三维视觉的底层逻辑聊到模型轻量化的产业价值,也为正值高考志愿填报季、毕业季的年轻人,给出了来自一线研究者的真诚建议。

01
三维机器视觉:给机器人一双能读懂空间的眼睛

在具身智能的技术体系里,感知是所有决策与动作的前提,而三维机器视觉正是感知端的核心支柱。
很多人对三维视觉的朴素认知是 “比 2D 多了深度信息”,这个理解恰好点中了二者的本质差异。杨琳琳解释,人类感知到的真实世界是包含时间维度的 “4D 信息”,当画面通过透视投影到平面屏幕上时,深度维度就在这个不可逆的转换中丢失了,由此产生了 2D 视觉无法彻底解决的问题 —— 深度歧义。
他举了一个经典的例子:镜头前飞过一只鸽子,远处站着一个人,在 2D 画面里鸽子的成像尺寸可能远大于人,单靠平面像素无法判断真实的大小与空间距离。而三维视觉的核心价值,就是还原这份丢失的空间信息,让机器拥有和人眼类似的深度感知能力。
“很多时候我们用 2D 图像也能反推三维信息,靠的是先验知识 —— 比如我们默认鸽子一定比人小,从而反推距离。但先验不总是靠谱,在陌生场景下就可能会失效。” 在他看来,三维视觉就是要有效的探索和利用先验,让机器准确估计真实的空间坐标与物体结构信息。
他的博士研究方向 ——手部表面重建与姿态估计(Hand Mesh Recovery and Pose Estimation),正是三维视觉的垂直细分领域。这项技术最初的落地场景是 VR/AR 设备:通过视觉识别手部的三维位姿,实现无手柄的沉浸式交互,对精度要求极高。而随着具身智能的兴起,这项技术自然延伸到了机器人灵巧手领域 —— 机器人要精准抓取物体、完成复杂操作,本质上和人手的交互逻辑高度一致,位姿误差会直接导致任务失败。
对于具身智能而言,三维视觉的价值远不止 “看见”。杨琳琳认为,三维感知是机器人与环境交互的基础:不管是工厂里拧螺丝的机械臂,还是家庭里收拾桌面的服务机器人,首先都要感知空间内的物体分布、判断距离与位置,再规划移动与操作路径。第一人称视角的移动视觉、动态场景下的三维重建,都是机器人完成交互任务的前提。 “没有空间感知的机器人,就像闭着眼睛干活,再聪明的大脑也无从发力。”
02
模型轻量化:具身智能落地的 “必答题”

如果说三维视觉解决的是机器人 “看得准” 的问题,模型轻量化解决的就是机器人 “跑得动、反应快、续航久” 的问题。
杨琳琳的另一个核心研究方向是模型量化。他解释,深度学习模型为了更好地拟合数据,训练阶段往往会设计得非常庞大,权重存在大量冗余;而轻量化的核心目标,就是在性能基本满足要求的前提下,尽可能压缩模型体积与计算量,让模型能在资源有限的设备上稳定运行。
模型量化直观来说:就是将原本 32bit或者16bit的权重或激活等数据,压缩到 8bit、4bit甚至1bit,通过降低信息表征的精度来极致压缩模型体积。
在他看来,轻量化对具身智能的产业价值。体现在四个核心维度:
第一是降低功耗:机器人的电池容量有限,功耗直接决定续航时长。“能连续工作 8 小时和 2 小时就要充电,对商用场景来说是天壤之别。”
第二是减少内存与显存占用:大模型动辄需要数张显卡才能运行,硬件成本居高不下;经过轻量化压缩后,单卡甚至嵌入式芯片就能运行,大幅拉低落地门槛。
第三是实现端侧离线运行:“总不能家里断网,机器人就直接罢工了吧?” 在他看来,云端协同是长期趋势,但端侧必须具备基础的决策与处理能力,不能完全依赖网络,否则延迟与断网风险会让交互体验彻底失效。
第四是降低交互延迟:抓取一个杯子,0.5 秒响应和 2 秒响应,给人的交互感受完全不同。轻量化模型推理速度更快,能有效降低端到端延迟,提升交互流畅度。
但轻量化并不等于 “一味做小”。杨琳琳强调,性能损失是必然的,核心是在场景需求中找到平衡 —— 简单的目标检测任务,小模型就能胜任,不必事事都上大模型;复杂的通用交互任务,可以通过大小模型协同、Agent 调度的方式,兼顾性能与效率。
面向未来,他认为软硬协同优化是最终的最优解:算法层面的轻量化要和专用芯片的设计结合起来,为具身场景定制算力硬件,而不是简单把 PC 级 GPU 搬到机器人上。“尤其是小型服务机器人,电池不可能无限大,低功耗的专用芯片一定是落地的关键。”
03
入行指南:兴趣为引,软硬兼修
正值高考志愿填报与高校毕业季,越来越多学生开始关注具身智能赛道,想要踏入这个蓬勃发展的领域。我们也向杨琳琳进行了请教,作为一线教学与科研工作者,他对想要入局具身的同学们有哪些建议:
首先他明确表达了对行业的长期乐观:从国家战略层面的规划导向,到产业端从无人机、机器狗到人形机器人的快速迭代,整个赛道的发展潜力肉眼可见。“去年春晚的机器人动作还很僵硬,今年就能完成复杂的舞蹈编排,行业进步的速度非常快。”
更重要的是,现在的入行门槛比过去低了很多。他回忆自己入行时,具身这个概念还未普及,工具链极不完善;而现在深度学习框架成熟,AI 辅助工具丰富,初学者入门的难度大幅降低,是非常好的入场时机。
但门槛低不代表可以浮躁。他给想入行的年轻人提了两个核心建议:第一,沉下心打基础,不要陷入 “为发论文而做科研” 的误区。 他提到,现在很多学生急于求成,靠拼接现有工作快速产出论文,但并没有吃透底层原理。他更鼓励学生做 “探究性研究”:把一篇经典论文彻底吃透,理解它为什么有效、潜在问题是什么,这个过程比拼凑浅层次的论文更有收获。“发论文不是目的,培养发现问题、解决问题的能力才是。”
第二,建立软硬结合的思维,走全栈发展路线。 很多做 CV(计算机视觉)、做算法的同学完全不接触硬件,在他看来会严重限制长期发展。具身智能是典型的交叉领域,算法最终要落地到硬件上。哪怕不精通硬件设计,也要建立基本的硬件思维,知道算法的边界在哪里、硬件的约束是什么,这样做出来的研究才更有落地价值。 “我读博的时候导师就说,博士阶段不是发几篇论文就完事,而是要能从头到尾完整做成一件事,从问题发现到落地实现都要有认知。全栈能力,才是未来的核心竞争力。”
04
产业展望:三重卡点下的融合

最后,站在 2026 年的节点,我们也向杨琳琳请教了对未来几年具身智能产业的一些看法。他向我们分享了自己的观点——行业正处在快速上升期,但距离真正的大规模落地,仍有三座大山需要翻越。
第一座大山是数据端。三维多模态数据的稀缺是行业共性痛点:互联网上的二维视频数据海量,但带深度、带物理信息的三维数据非常少。目前行业的解法是 “真实数据 + 仿真数据” 结合,仿真数据可以无限生成,但存在 “仿真到真实” 的域迁移问题,模型很容易在仿真里找到错误的捷径,到真实场景就失效。 在他看来,未来数据的方向一定是多模态融合 —— 视觉、触觉、听觉共同作为输入,只靠视觉不可能解决所有交互问题。“拿杯子用了多大劲,光靠看是看不出来的,触觉信息必不可少。”
第二座大山是模型端。现在行业普遍沿用 Transformer 架构,但它是不是具身智能的最优解?杨琳琳持保留态度。具身智能的其中一个核心是物理规律嵌入(Physical Grounding),而 Transformer 在这方面并没有天然优势。未来可能出现更适配物理建模的新架构,不管是基于 Transformer 的迭代,还是全新的网络结构,都是行业需要探索的方向。 对于当下热议的 VLA、世界模型、WAM 等技术路线,他认为没有绝对的优劣,各自侧重不同:VLA侧重感知、指令和动作的三者协同,世界模型侧重物理世界的建模以及未来的预演,而WAM则侧重物理世界与动作的耦合,从而实现预演及规划。 “未来一定是走向融合,取长补短,而不是非此即彼。”
在模型之外,他也特别强调具身智能的安全性和可靠性。和大模型的 “幻觉” 只是文本错误不同,具身机器人的失误会造成真实的物理伤害。这也是他关注 “多样性” 研究的原因:让模型输出多种可行方案,而不是只有单一解,再结合当时环境和人机交互,完成输出。这样遇到突发状况时才有调整的空间,从算法层面提升安全冗余。
第三座大山是软硬协同的落地端。目前很多机器人方案还是功耗高、体积大,远不是最优解。专用的具身算力芯片、成熟的端侧部署方案,都是产业落地必须补齐的短板。
而谈及具体的产业方向,他尤其看好灵巧手赛道。“人类用十根手指构建了整个现代世界的工具与环境,适配人手形态的灵巧手,在泛化性上有天然优势。” 在他看来,专用场景可以用专用末端执行器,但要做通用具身智能,拟人灵巧手是绕不开的方向,再叠加触觉传感的迭代,会成为未来几年的核心增长点。
最后他也提到,产研结合是必然趋势。高校有基础研究的优势,但缺乏大规模数据与工程落地能力;企业有场景与数据,但基础研究储备不足。双方结合,用产业的真问题驱动科研,用科研的成果反哺产业,才是双赢的路径。这也是他自己正在探索的方向 —— 让论文里的技术,真正走到产业场景里去。
在这个技术快速迭代的赛道上,既有产业的热闹喧嚣,也有基础研究的默默耕耘。而像杨琳琳这样扎根交叉领域的研究者和分享者,正是连接学术与产业的重要桥梁。
