又一家清华系具身智能企业浮出水面。
「甲子光年」独家获悉,清华系具身智能企业灵御智能已完成数千万元天使轮融资。本轮融资由银河创新资本领投,国海创新资本、天鹰资本、厦门思明科创基金跟投,老股东英诺天使基金、华映资本、远镜创投持续加注。Maple Pledge枫承资本长期出任私募股权融资顾问。截至目前,灵御智能累计融资近亿元。
灵御智能联合创始人兼首席科学家莫一林是清华大学自动化系长聘副教授。莫一林师从美国工程院院士、机器人操作领域先驱Richard. M. Murray教授,谷歌学术引用超1万次,2021-2025连续五年获得Elsevier中国高被引用学者,在优化、控制、机器人领域发表高水平论文100余篇。
灵御智能联合创始人兼CEO金戈是清华大学自动化系学士、清华大学经济管理学院MBA,曾任远镜创投管理合伙人、奥量光子副总裁,在高科技领域有着多年的创业投资和企业管理经验。

莫一林(图左)与金戈(图右),图片来源:受访者
在具身智能领域,已有多家清华系企业崭露头角,包括星动纪元、星海图、千诀科技、自变量、松延动力、加速进化、流形空间、极佳视界等,业务和研究涵盖了机器人本体、具身智能模型、世界模型等。
灵御智能从清华走出,立足海淀开始创业,他们把业务和研究重点放在了数据上。在他们看来,具身智能卡在“数据荒”上,尤其是“高质量、长序列”的复杂操作数据十分缺乏。尽管这条路看起来有些“朴实”,但莫一林的观点是,具身智能能领域真正决定胜负的变量是——数据。
「甲子光年」认为,决定机器人能力的不只是本体、模型和算力,更重要的是一套新的基础设施——具身数据 Infra,这是一套用于规模化生产、管理和利用真实世界机器人交互数据的基础设施体系。谁能更高效地生产真实世界数据,谁就更有可能推动机器人智能的跃迁。
而灵御智能要打造的就是具身数据Infra。
1.大规模、高质量的数据从哪里来?
如果说AI Infra是计算工厂,那么具身数据Infra就是数据工厂。
具身数据 Infra离不开数据采集母机,这指的是专门用于规模化采集真实机器人操作数据的“生产设备”或“数据工厂机器”。
它可以理解为一套能够持续、标准化、高效率地产生机器人操作数据的机器人系统平台,其核心使命就是为具身智能模型提供大规模、高质量的真实世界数据。
在大模型时代,人们习惯把“算力、算法、数据”视为AI的三大要素。但当AI进入物理世界,这个公式发生了微妙变化。对于具身智能而言,数据不再只是训练材料,而正在演变为一种新的基础设施。
原因很简单,大语言模型可以从互联网获得海量文本,而机器人需要学习的,是现实世界中人与物体交互的细节——抓取的角度、力的大小、物体的重量、失败后的调整路径。这些信息无法从网络抓取,只能通过真实机器人反复执行任务产生。
这也意味着,具身智能的数据生产方式与互联网AI完全不同。它不再依赖“数据爬虫”,而依赖数据采集母机。
灵御智能构建具身数据Infra的思路是研发TeleAvatar(本体)和TeleDroid(系统)。

TeleAvatar,图片来源:灵御智能
TeleAvatar专为遥操设计,具备多样化操作模式,可以应对不同复杂环境和任务需求,同时还支持与多种外部设备进行交互。在端侧,实时运动控制内核可以保证毫秒级响应与安全力控。
TeleDroid是一套软硬云一体化系统,其具备智能数据分析能力,可为用户提供深入的洞察和决策,同时确保数据在采集、传输和存储过程中的安全。这套系统部署在云侧,用户通过完整的数据采集、清晰、自动化标注平台,可实现数据资产的闭环管理。
两者合在一起,用户就可以持续沉淀真机数据,再用数据反哺模型、逐步提升自主能力,形成“部署即采集、采集即训练”的数据飞轮。
灵御智能的判断是,真正能驱动模型涌现的高质量数据,还是要从真实物理世界中磨出来。
“这也是过去特斯拉、‘蔚小理’、华为走过的道路。只有通过这种方式,才能采集到足够量的数据,而这些数据才能把AI真正‘喂养’出来。”金戈告诉「甲子光年」。

灵御智能参加第二届中关村具身智能机器人应用大赛,图片来源:灵御智能
虽然具身智能数据采集和自动驾驶数据采集存在一定的相似性,但是莫一林认为,两者之间是数量级的鸿沟。
自动驾驶本质上是一个二维空间、2自由度的问题,数据能被动采集,目前已积累超过百亿小时。但具身智能面对的是三维空间、20+自由度的操作问题,对重量、形状、摩擦、软硬等物理属性高度敏感,仿真难度大,现有开源数据集质量参差不齐,总量仅在十万小时级。
“如果我们认定机器人需要的数据量也在百亿到千亿小时级,今天业内处于严重的数据稀缺的情况下。尤其是机器人上肢操作的数据最为缺失,还不能依赖自建数采中心来填补,因为量级差太远了。”莫一林告诉「甲子光年」。
当前具身智能行业获取数据,主要有四种方式。
第一种是仿真数据,即在模拟环境中生成机器人操作数据,优点是成本低、规模几乎无限,可以快速训练模型的基础能力,但最大问题是“虚实鸿沟”:仿真环境很难准确还原现实世界的物理细节,例如摩擦、柔性物体、传感器噪声等,导致模型在仿真中表现良好,到了真实机器人上却容易失效。
第二类是人类行为数据,数据来源主要是视频,通过学习人类操作来训练机器人。这类数据规模巨大,但由于人类身体结构与机器人机械结构存在差异,往往难以直接映射到机器人动作,因此存在所谓的“构型鸿沟”。
第三类是人类示教数据,例如通过手持设备、动捕系统或拖动机械臂进行操作示教,这种方式可以获得较高质量的操作轨迹,但依然存在人类运动与机器人关节约束不完全一致的问题,同时采集效率有限。
第四类是真机遥操作数据,即由人类远程控制机器人完成任务并记录操作过程,可靠性强、训练效果好,但代价是采集成本高,需要大量设备、场地和操作人员,数据规模很难迅速扩展。
灵御智能瞄准的就是真机遥操作数据。
2.真远程遥操
机器人遥操作并不是一个新概念,但是遥操作并没有那么简单,也没有那么成熟。
跨越物理距离让机器“动起来”是一回事,但要让它做到顺滑、精准、低延迟且具备力控能力,则是另一回事。
具体难在哪里?
首先是延迟。
目前,行业通用的图像延迟普遍在150到200毫秒之间。虽然部分厂商标称能做到150毫秒,但莫一林指出,各家对延迟的定义和测量口径往往大相径庭。
为了挤掉水分,灵御采用的是G2G延迟(Glass-to-Glass Latency)标准。从光信号进入机器人摄像头,到最终呈现在操作员VR头显屏幕上的完整耗时,其图传延迟控制在100毫秒以内。动作控制端,人机之间的力/位混合控制响应被压缩至30毫秒以下,操作员与机器人的动作同步基本达到肉眼无感。
莫一林告诉「甲子光年」:“我们把这些延迟都已经压到最低了。”
第二个难点是处理空间维度上双臂高自由度的控制映射。
车辆遥操作本质上属于2自由度控制,往往只需在远端复制一套方向盘即可实现。相比之下,人体上肢7自由度远超车辆,两者的控制映射难度完全不在同一量级。
第三个难点是真远程。
目前行业大多数遥操作方案仍属于近场视距遥控:操作员须站在机器人身后1至2米处,以肉眼观察机器人动作,人必须到场,既无法实现跨地域劳动力套利,也无法支持一人多机的分时调度。
莫一林说:“大部分同行的遥操作更多是为了数据采集,操作者还是站在机器人旁边用眼睛看。而我们做的是另一件事——远程遥操,操作员在控制室,让机器人在2000公里外的现场。”
他和团队曾花大量了时间做不同遥操作方案的尝试和比较,最终团队研发出了TeleAvatar。
TeleAvatar本身是专为遥操作设计,配合软硬云一体化系统TeleDroid,端侧负责实时运动控制和安全力控,云侧负责数据采集、清洗和自动化标注,共同组成了“高效的数据采集母机”。