通向AGI之路｜大模型加持下，机器人即将迎来新世代

品牌　　【直播】　　50强　　整机　　【联盟】　　机构　　【视界】　　展会　　【招聘】　　云服务　　微博　　公众号AIrobot518　

AGV/IGV

机械手

软件/系统

服务机器人

无人车

【今日焦点】

【行业动态】

物流机器人: 潜入式AGV; 全向轮AGV; 重载式AGV; 牵引式AGV; 分拣AGV; 料箱机器人; 穿梭车; 复合机器人; 龙门机器人

工业机器人: 多关节机器人; 水平关节机器人; 并联机器人; 坐标机器人; 焊接机器人; 喷涂机器人; 码垛机器人; 协作机器人

[行业新闻] 上海市经信委：争取年内实现浦东自动驾驶全域......

2025-07-31
[行业新闻] 宁安市投入2辆无人驾驶投递车

2025-07-30
[行业新闻] 朔州：首辆快递无人车投用

2025-07-29
[行业新闻] 中国首个乡村无人驾驶接驳，落地浙江安吉余村

2025-07-29
[行业新闻] 菜鸟将推出高载重定制款无人车型

2025-07-23
[行业新闻] 京东、美团纷纷布局机器人：行业变革还是新一......

2025-07-23
[行业新闻] 京东连投三家机器人企业

2025-07-23
[行业新闻] 深圳机器人产业产值和机器人企业总数均为全国......

2025-07-23
[行业新闻] 天机充携手南京交控打造智慧充电新标杆助力......

2025-07-22
[行业新闻] 我国开源550万条人形机器人训练数据

2025-07-22

[518原创] APIE2025第6届亚太国际智能装......

2025-07-18
[518原创] 上海AMTS汽车展和2025中国国际......

2025-07-10
[518原创] 聚焦6月移动机器人新品：中力、蓝芯、......

2025-07-01
[518原创] 【行业活动】8月，第八期移动机器人行......

2025-06-07

NEWS / 新闻中心

通向AGI之路｜大模型加持下，机器人即将迎来新世代

来源:蓝驰创投 | 作者:蓝驰创投 | 发布时间: 807天前 | 3778 次浏览 | 分享到:

机器人、XR等硬件产品本质上都具备智能系统属性，这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后，AI在理解人、和人交互方面的能力上将再进一步，不再只依赖语言和文本，而是可以更好地识别肢体语言、面部表情、语气等。

多模态大模型正在给智能硬件带来革新契机。

机器人、XR等硬件产品本质上都具备智能系统属性，这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后，AI在理解人、和人交互方面的能力上将再进一步，不再只依赖语言和文本，而是可以更好地识别肢体语言、面部表情、语气等。

有研究显示，面对同样的任务，数据维度单一的小模型的运行成功率只有20%-50%；而如果用大模型去运行，成功率可以高达75%以上。这证明在多模态数据结合大模型加持下，机器人的感知、决策、人机交互、家庭复杂场景内自主移动、复杂任务成功率等各方面能力有望全面提升。

虽然多模态大模型对机器人性能将有所提升已成共识，但具体而言，新一代AI会为智能系统解决哪些悬而未决的问题？在多模态大模型的加持下，智能系统将生长出哪些能力？笼统的判断意义不大，过去几个月我们尝试推演了其中的技术突围和产业落地可能。本期「通向AGI之路」中，蓝驰创投合伙人曹巍将与我们共同想象新一代AI在智能系统的感知、控制、决策、交互等环节上的进化可能。

01

感知系统

未来，多模态数据的采集与全新的AI模型架构结合，将实现更高效的多维数据并行处理，从而更好地感知复杂、动态的外部环境及理解任务。为什么要强调复杂、动态的外部环境？现阶段，机器人广泛应用的工厂场景实际上是简单、边界信息固定的场景，在这种场景里大模型能提升的效率有限，传统的定向分析模型已经很足够；所以大模型最令人兴奋的是帮助机器人打入复杂、开放、与人交互的探索性场景。

在具体的感知层面，多模态大模型有可能在以下三个方向带来提升——

进一步降低前端硬件设备要求

XR、机器人给感知系统的边界条件是相对苛刻的，而前端的能源和算力又有限，这是智能硬件目前面对的重要瓶颈。未来，AI在感知层可持续降低前端硬件设备的要求，提供感知适应范围（抗干扰，抗噪），提高鲁棒性和泛化性。

降低前端硬件设备要求需要考虑的问题有两个：一是怎么做得更小更灵活，二是算力怎么在云端和边缘端分配。当前的边缘侧缺乏AI能力，所以将算力都集中给了云端。如果未来AI能直接赋能边缘侧，云端算力的压力将减轻。但是云端与边缘侧如何分配最优，取决于边缘的运算量级及边缘侧AI能赋予的技术深度。

边缘端会发生部分实时的端到端闭环训练，比如感知侧收回来的数据标好标签后放到云里。但未来可能是云端的大模型基于大量机器人的实时训练进行推断，云边端的算力配合会更加一体化，更新速度可能会非常快。

在工业场景下，移动机器人降低前端硬件设备要求的方式还有一个：采用3D视觉感知技术。以蓝芯科技为例，这家公司的产品搭载蓝芯-移动机器人深度视觉系统LX-MRDVS，使机器人具备基于3D视觉的定位导航、避障、对接、抓取功能。相对于磁条、二维码、反射板等标记，3D视觉感知能力使得蓝芯的产品能做到便捷部署、智能建图，不依赖人工标记，也不受密集的人流、物流影响。

能够理解图像的多模态大模型无疑会给3D视觉感知技术更大的助力。在未来，基于3D视觉感知技术的移动机器人或许能实现语义理解，机器人的环境识别和理解能力也能得到增强。这样现有单线激光雷达导航机器人就能被逐渐替代，从而普及基于3D视觉感知的AMR。

未来的车、机器人等智能系统会越来越像人，不再需要配备一堆传感器。最优秀的系统其实就是人体，只不过目前还做不到。

进一步降低人工标注成本

数据的标注和训练成本问题是自动驾驶场景中非常具有挑战性的问题。训练车收集来的原始数据是没有标记的，需要由第三方标记员、或者标记软件在辅助或半辅助的情况下去完成。

但随着AI的发展，未来可能会有实时感知和实时自动标记技术，会有一套更优秀的算法去解决数据采集的成本、质量、效率问题，同时把实时采集的数据打标签后喂到自动驾驶模型中。借助AI模型，将采集到的数据在感知侧，直接完成标注，而无需将海量原始数据传输到CPU、GPU来完成标注，大幅节省了算力开销且降低延时。

革新感知的方式

目前“注视点算法”是非常明确地将被应用到XR领域的AI算法模型。人眼在凝视时分成三个部分：中心区域、低分辨率区、周边区域。大约30-40 度左右的区域是分辨率最高的，周边的地方偏模糊，人脑在处理信息的时也分层次。这一点会影响人眼在XR设备中看到的画面。

注视点算法的作用就是基于注视点跟踪和眼动追踪，去判断用户在虚拟世界里看什么，目光的焦点会渲染得清晰一些，没有看到的地方就会渲染得模糊一些。

以睿视科技为例，这是一家以AR光学和数字离焦技术为核心的儿童近视防控平台公司，主要的产品是一台具备离焦功能的光学屏幕，当儿童通过屏幕上网课、看动画时，屏幕内独特的光路设计使光线在视网膜成像时实现近视离焦的效果，从而达到近视防控的目的。而在感知侧引入眼动追踪设备，实时追踪到用户在看什么，就可以针对视线焦点的部分内容进行光学离焦以及画面渲染，而不需要对全局进行离焦和渲染，从而降低了对前端设备的算力要求，即使是小算力的硬件设备也能够实现良好的使用效果。

AI对感知系统的提升还可能让智能硬件、健康设备在感知的同时就形成闭环。比如助听器，目前绝大部分产品只是简单粗暴地将所有声音分类为言语声和噪声，保留言语声并且抑制其他声音，因此声音显得不自然，且有10ms以上的延迟，听感不佳。