通向AGI之路｜大模型加持下，机器人即将迎来新世代

品牌　　【直播】　　50强　　整机　　【联盟】　　机构　　【视界】　　展会　　【招聘】　　云服务　　微博　　公众号AIrobot518　

AGV/IGV

机械手

软件/系统

服务机器人

无人车

【今日焦点】

【行业动态】

物流机器人: 潜入式AGV; 全向轮AGV; 重载式AGV; 牵引式AGV; 分拣AGV; 料箱机器人; 穿梭车; 复合机器人; 龙门机器人

工业机器人: 多关节机器人; 水平关节机器人; 并联机器人; 坐标机器人; 焊接机器人; 喷涂机器人; 码垛机器人; 协作机器人

[行业新闻] 上海市经信委：争取年内实现浦东自动驾驶全域......

2025-07-31
[行业新闻] 宁安市投入2辆无人驾驶投递车

2025-07-30
[行业新闻] 朔州：首辆快递无人车投用

2025-07-29
[行业新闻] 中国首个乡村无人驾驶接驳，落地浙江安吉余村

2025-07-29
[行业新闻] 菜鸟将推出高载重定制款无人车型

2025-07-23
[行业新闻] 京东、美团纷纷布局机器人：行业变革还是新一......

2025-07-23
[行业新闻] 京东连投三家机器人企业

2025-07-23
[行业新闻] 深圳机器人产业产值和机器人企业总数均为全国......

2025-07-23
[行业新闻] 天机充携手南京交控打造智慧充电新标杆助力......

2025-07-22
[行业新闻] 我国开源550万条人形机器人训练数据

2025-07-22

[518原创] APIE2025第6届亚太国际智能装......

2025-07-18
[518原创] 上海AMTS汽车展和2025中国国际......

2025-07-10
[518原创] 聚焦6月移动机器人新品：中力、蓝芯、......

2025-07-01
[518原创] 【行业活动】8月，第八期移动机器人行......

2025-06-07

NEWS / 新闻中心

通向AGI之路｜大模型加持下，机器人即将迎来新世代

来源:蓝驰创投 | 作者:蓝驰创投 | 发布时间: 808天前 | 3787 次浏览 | 分享到:

机器人、XR等硬件产品本质上都具备智能系统属性，这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后，AI在理解人、和人交互方面的能力上将再进一步，不再只依赖语言和文本，而是可以更好地识别肢体语言、面部表情、语气等。

但未来在AI的辅助下，深度神经网络可以对前端的外界声音输入信号进行处理，辅以全向声音技术，让大脑听到的声音接近自然听觉，并且大幅降低声音延迟（6-8ms）。甚至还可以针对用户所处的不同环境，进行个性化的声音还原适配，进一步提升用户的听觉体验。

还有一直容易忽略的数据感知。像机器狗的四条腿上都有电机，它的四条腿在地上走时，一方面测量每一条腿和地面之间的高度，获取高度数据；另一方面确定地面和狗的小爪处于什么样的摩擦状态。机器狗收集这些数据，这些数据又会帮助机器狗决策路径，规划如何行动。

02

与控制、决策和交互系统的结合

控制

大模型对于机器控制上的提升将是非常明显的。

程天科技是非常有意思的一个案例，作为一个外部集群系统，含有完整的感知-控制-决策。它收集的IMU数据、压力传感器数据、力控数据在帮助患者康复时每一步的步幅、速度、步态周期以及肌肉力量的力矩输出。这个过程中，所有数据都会从感知端收集到计算处理平台，通过AI算法、根据每一个患者的康复状态，给出步态建议。

在这个场景当中，固定的预训练模型是不够的，需要基于最新的数据。因为人的康复状态每天都在变化，为了达到最优的治疗效果，每一次的方案都可能变化。这里就有Transformer的用武之地：传统的rule base并没有充分发挥机器人的决策系统价值，而是引导式的动作体系，基于Transformer的机器人能够根据rule的引导以及result的反馈进行result的迭代，并深化rule的框架，让result更优。

一直以来rule base的机器人解决的都是简单的商业场景，无法解决复杂场景，是因为rule base无法预判，需要有强行业know-how的人持续给机器叠加rule，开发周期很长。假如未来算力以及Transformer模型足够强，或许会出现这样的场景：只要把复杂环境的数据喂给机器人，短周期就能开发出来。

谷歌做的Robot Transformer就是运用大量的多维数据，完成机械驱动后，会生成相应的标签体系和评价机制，去优化机器人的效果。Robot Transformer对机器人最直接的提升是解决灵巧手的问题，整个算力以及前置模型都大量地简化，成本会急剧降低。也不需要基于大的算力平台，放在一般的终端也能用。灵巧手今后的方向就是小型化、能耗降低、逻辑简单，具备自学习能力。

与此同时，大模型驱动的机器人会在安全柔性和容错可适应性方面有更高发展。在智能机器人进一步贴近普通用户，甚至在按摩理疗、人机辅助等场景下直接产生物理接触等强交互的情况下，机器人操作臂和末端执行器的绝对安全性和对突发事件的适应性就变得至关重要。

以万勋科技Pliabot技术为代表的柔韧机器臂为例，通过采用多闭环控制，万勋Nimbo系列柔韧臂可以实现超过自身自重的末端负载、和匹配视觉定位的亚毫米级末端精度，在安全性、作业能力和经济性之间形成了新的平衡点。借助大模型生成的基于多模态融合的规划命令，柔韧臂在准确有力的执行操作命令的同时，可以在最贴近用户的执行端提供安全性与适应性的最后一道屏障。

此外，大模型加上以柔韧臂为代表的轻量化柔性硬件，将催生一系列软硬件综合方案，完成机器人从理解、拆解、规划、驱动、到执行的完整闭环，这就相当于给大模型驱动的智能“大脑”匹配了灵活、有力、安全、可负担的“身体”，从而快速推动多场景下的落地应用。

OpenAI的最新模型在机器人领域的落地有很多场景：五指手、摔跤比赛、开源的深度强化学习平台、自适应的机器人控制系统、以及机器人的仿真。但是这些能力提升是否能够在产业侧和场景侧帮助我们打磨出好产品，还是一个问号，产业落地还是要回到团队对场景痛点和难点的理解。

规划与决策

在规划层，大模型可以比现有技术方案更好的植入多种先验知识库，与现场随机性相结合，进行多模态智能融合，最终获得兼顾了历史经验积累和现场随机变化的可执行机器人规划命令。这将极大的推动机器人在通用智能方向上的快速发展，让智能机器人更快的理解和适应开放式的环境和用户命令，完成愈发丰富的任务。

在决策层，本身有单体智能和群体智能的区别。单体智能是一个围绕结果的智能决策，群体智能就像将一个工厂智能化，看起来是很多单站集合而成的，但从本质上来讲，工厂本身就是一个巨型机器人，优化的目标只有一个。

它要考虑的因子包括机械臂或设备是否疲劳、过热，是否需要休息；生产不同批次、品种的产品时如何基于每一个品种工序和中间的衔接去做不同的调度；怎么样确保订单的具体质量，并在最后检验环节能够有真正质量的闭环，达成基于群体决策最优整合目标。

目前单体决策是比较成熟的，但从控制走向工艺这一侧，其实还有很大的优化空间。传统基于工艺的决策是将工人对工艺的认知经验通过算法或工艺参数要求导入到机器人单体，AI的优势是能够基于工艺要求框架，结合工艺场景的大量数据模型，持续形成基于工艺要求的自训练算法并持续优化，从而形成更精准的决策系统。

交互

Transformer所代表的Learning-based方法会给机器人的人机交互界面层带来全新的范式。在多模态大模型出现后，人与机器人的交互会有新的可能：未来没有任何机器人编程经验的普通用户可以用自然语言和开放式命令来直接操作机器人，给机器人下达复杂、模糊，甚至是问询式的指令，由大模型驱动的交互引擎来理解分析用户目标，获得准确的可执行目的，进行任务拆解并后台分发转移给机器人规划层进行任务规划和执行。