品牌  【直播】  50强   整机  ​【联盟】  机构  【视界】  展会  招聘  云服务          微博   公众号AIrobot518 
【​今日焦点
【行业动态】
NEWS / 新闻中心
直击智源大会|蚂蚁灵波朱兴:直面物理世界三大挑战,打造机器人时代的智能基座
来源:蚂蚁灵波 | 作者:蚂蚁灵波 | 发布时间: 今天 | 35 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:

第二点是随着模型范式、训练方式的演进,不同类别的数据会动态的放到不同的训练阶段。这一点上,其实每家的做法都不一样。目前基模的主流做法可能是分为预训练和后训练两个阶段,基于蚂蚁灵波的实践经验,我们是把模型训练分为预训练、中间训练和后训练三个阶段,并把构型泛化问题放在中间训练解决。

面向未来,我们坚定认为以人为中心的、且多模态对齐(视觉、触觉等)的数据极其重要。当物理数据达到一定程度,一定会催生属于物理智能自己的具身原生基础模型。具身原生也是灵波下一轮技术迭代的重点方向,全栈 2.0 预计会在下个月和大家见面。

三、从实验室到生活场:产业落地的渐进节奏

模型的迭代除了科学 Benchmark 牵引,蚂蚁灵波同步在积极推动商业试点落地,并将真实落地挑战带回到模型的训练迭代。

我们会做一些主动探索,探索方向主要是生活服务,因为我们的长期愿景是希望机器人能进入家庭的。在进入家庭之前,我们一方面会做一些沿途下蛋的工作,另一方面也会做一些跟生活服务无关的工作,后者的形式主要是把我们的模型给到生态伙伴去用。

另外,由于现在的具身模型能力非常不足,所以我们还是会从比较单一的任务入手。具体而言,就是从比较封闭的空间,环境泛化少一点的场景开始。目前来看,哪怕是这种单一的任务,也需要模型和运控有较好的配合才能满足效率需求。不过我们仍然坚信,未来的模型能够从辅助作用变成主导作用。

我们将模型落地的产业节奏分为三个阶段,从整个阶段的角度来讲,再结合我们自己的 Know-how,我们觉得目前还是处在第一层阶梯的阶段。

在生活服务场景,我们最近在做一个药房零售门店场景的测试,在进行测试时,原则上我们不会对药房物理空间做出改动,因为我们希望机器人进入药房后,能够真正和人互相合作,并且帮助到人。我们之所以要探索药房场景,是因为药房的环境和对机器人的一些能力要求是可以延伸到家庭场景的,比如透明、反光、窄过道通过性、抓取操作的泛化性、跟人的安全接触等等。

除了我们自身的主动探索,我们也会跟一些合作伙伴一起探索。目前,蚂蚁灵波的基模也已输送给乐聚等本体生态伙伴厂商。

四、商业落地的真实挑战:效率、成本与硬件的三重博弈

无论是我们自营的探索,还是跟生态伙伴联合的探索,都存在四个共性问题:模型预训练和后训练场景落地存在 Gap、场景复制成本高、后训练技术门槛高、硬件一致性与稳定性问题。

首先谈谈模型预训练和后训练场景落地存在 Gap 的问题,我认为这个问题的本质是模型能力不行。后训练之所以落得很痛苦,究其本质还是因为预训练太陌生了。

第二个,场景复制成本很高。以我们自己做的药房场景为例,虽然药房看上去都大差不差,但其实每家药房还是不一样的,这就引出了很多环境泛化问题,大大抬高了复制成本。

第三个,后训练技术门槛高。无论是我们自己的药房场景,还是和合作伙伴一起去做他们的场景,我们发现后训练的技术门槛都比较高。这一点尤其体现在数据上,比如怎么更好地采数据、怎么采到合理的数据并标好、训练过程中怎么很好地补数据等问题。这里特别提一下长尾成功率,把成功率推到 90% 很容易,但要怎么推到 98%?这是一个很大的问题。在药房场景实践中,我们除了动用一般的强化方法之外,还使用了包括真机强化在内的很多其他措施,但同样很难再把长尾成功率往上推,和生态伙伴合作的落地过程也是如此。除此以外,后训练结束后,模型还需要部署,这时算力也是一个制约因素,算力会导致模型在部署的过程中出现能力损耗。

第四个,也就是硬件的一致性和稳定性问题。虽然过去几年里硬件发展很快,但是目前来看,硬件性能还不太能满足需求。当我们把硬件推到场景里去干活时,我们是希望能保持比较高的重复成功率的,然而不管是末端执行器还是本体,其一致性和稳定性都无法满足需求。

总结一下,商业落地还是要回到商业本身,做任务的时候还是要比成功率、节拍等等,因为它直接影响客户的成本。

五、直面交互与安全挑战,探索具身智能的上限

我们认为,探索具身智能上限的过程中有三个重要的要素,分别是交互、操作和安全。前面讲了那么多大脑方面的挑战,本质上还是围绕操作来展开的,接下来我们谈谈交互和安全这两个要素。我们都希望机器人能够更早进入家庭,从这个以终为始的角度来说,交互和安全这两个问题是过去一年我们一直在解的,但是说实话没有大的突破。

首先是真正意义上的交互,我们希望机器人在开始操作前能够和人类有更高效的交互,因为在真实世界里,人和人、人和环境以及人和其他动物之间原生的多模态交互其实是非常高效的。

接下来是安全,在机器人操作过程中,我们希望机器人大脑能够理解“安全”这个概念。对人来说,安全是一个内生的、非常高阶的智能,大部分人对死亡都是恐惧的,对危险可能会有先验感觉。我们希望让机器人大脑、让模型学会理解“安全”。过去一段时间里,我们也在很辛苦地在探索“安全”怎么跟预训练结合,但是目前还没有大的进展。除此以外,我们也在摸索如何构建安全与危险的相关数据,我们也希望整个行业能够更加关注交互和安全问题。

免责声明:所载内容及图片来源于互联网、微信公众号、企业投稿等公开渠道,本文转载仅供参考、交流。转载的稿件版权归原作者和机构所有,如有侵权,请联系我们及时删除。

​​​​2026“全国移动机器人行业活动”合作商招募中

​报名热线:400-0756-518​​​​、13512726426  微信

活动时间:2025-08-01至08-31

  • 海康机器人智行视界2026 | 深圳首站告捷,今年有何不同?
  • 喜报丨蚂蚁侠科技荣膺2025年度汽车电子科学技术奖“新锐企业奖”!
  • 喜报 | 智千智能荣获中国仓协“仓储数智化应用类”奖,以数字化整厂解决方案赋能智造升级!
  • 卓誉科技亮相美国 AUTOMATE 2026,展示机器人核心驱动件自研实力
  • 沪上启新程,扬帆拓四方I 合肥搬易通(MiMA米玛)上海营销服务中心开业盛典暨超窄通道叉车交流会圆满举行!
  • 直击智源大会|蚂蚁灵波朱兴:直面物理世界三大挑战,打造机器人时代的智能基座
  • 慧眼识微,智行无界 | 华睿科技邀您莅临上海AMTS汽车制造展
  • Arvato × 海柔创新|欧洲美妆巨头全渠道智慧仓储实践