​​​​​​​智能装备行业门户网
品牌 活动 访谈】  50强   整机 ​【联盟】 机构 【视界 展会 招聘 云服务   微博     关注公众号
咨询热线400-0756-518
今日焦点
​​​金陵智造AGV舵轮
智慧物流,移动机器人全媒体,为更有效传播
​​​INEWS / 新闻中心
通向AGI之路|大模型加持下,机器人即将迎来新世代
来源:蓝驰创投 | 作者:蓝驰创投 | 发布时间: 715天前 | 3377 次浏览 | 分享到:
机器人、XR等硬件产品本质上都具备智能系统属性,这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后,AI在理解人、和人交互方面的能力上将再进一步,不再只依赖语言和文本,而是可以更好地识别肢体语言、面部表情、语气等。

多模态大模型正在给智能硬件带来革新契机。

机器人、XR等硬件产品本质上都具备智能系统属性,这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后,AI在理解人、和人交互方面的能力上将再进一步,不再只依赖语言和文本,而是可以更好地识别肢体语言、面部表情、语气等。

有研究显示,面对同样的任务,数据维度单一的小模型的运行成功率只有20%-50%;而如果用大模型去运行,成功率可以高达75%以上。这证明在多模态数据结合大模型加持下,机器人的感知、决策、人机交互、家庭复杂场景内自主移动、复杂任务成功率等各方面能力有望全面提升。

虽然多模态大模型对机器人性能将有所提升已成共识,但具体而言,新一代AI会为智能系统解决哪些悬而未决的问题?在多模态大模型的加持下,智能系统将生长出哪些能力?笼统的判断意义不大,过去几个月我们尝试推演了其中的技术突围和产业落地可能。本期「通向AGI之路」中,蓝驰创投合伙人曹巍将与我们共同想象新一代AI在智能系统的感知、控制、决策、交互等环节上的进化可能。

01

感知系统

未来,多模态数据的采集与全新的AI模型架构结合,将实现更高效的多维数据并行处理,从而更好地感知复杂、动态的外部环境及理解任务。为什么要强调复杂、动态的外部环境?现阶段,机器人广泛应用的工厂场景实际上是简单、边界信息固定的场景,在这种场景里大模型能提升的效率有限,传统的定向分析模型已经很足够;所以大模型最令人兴奋的是帮助机器人打入复杂、开放、与人交互的探索性场景。

在具体的感知层面,多模态大模型有可能在以下三个方向带来提升——

进一步降低前端硬件设备要求

XR、机器人给感知系统的边界条件是相对苛刻的,而前端的能源和算力又有限,这是智能硬件目前面对的重要瓶颈。未来,AI在感知层可持续降低前端硬件设备的要求,提供感知适应范围(抗干扰,抗噪),提高鲁棒性和泛化性。

降低前端硬件设备要求需要考虑的问题有两个:一是怎么做得更小更灵活,二是算力怎么在云端和边缘端分配。当前的边缘侧缺乏AI能力,所以将算力都集中给了云端。如果未来AI能直接赋能边缘侧,云端算力的压力将减轻。但是云端与边缘侧如何分配最优,取决于边缘的运算量级及边缘侧AI能赋予的技术深度。

边缘端会发生部分实时的端到端闭环训练,比如感知侧收回来的数据标好标签后放到云里。但未来可能是云端的大模型基于大量机器人的实时训练进行推断,云边端的算力配合会更加一体化,更新速度可能会非常快。

在工业场景下,移动机器人降低前端硬件设备要求的方式还有一个:采用3D视觉感知技术。以蓝芯科技为例,这家公司的产品搭载蓝芯-移动机器人深度视觉系统LX-MRDVS,使机器人具备基于3D视觉的定位导航、避障、对接、抓取功能。相对于磁条、二维码、反射板等标记,3D视觉感知能力使得蓝芯的产品能做到便捷部署、智能建图,不依赖人工标记,也不受密集的人流、物流影响。

能够理解图像的多模态大模型无疑会给3D视觉感知技术更大的助力。在未来,基于3D视觉感知技术的移动机器人或许能实现语义理解,机器人的环境识别和理解能力也能得到增强。这样现有单线激光雷达导航机器人就能被逐渐替代,从而普及基于3D视觉感知的AMR。

未来的车、机器人等智能系统会越来越像人,不再需要配备一堆传感器。最优秀的系统其实就是人体,只不过目前还做不到。

进一步降低人工标注成本

数据的标注和训练成本问题是自动驾驶场景中非常具有挑战性的问题。训练车收集来的原始数据是没有标记的,需要由第三方标记员、或者标记软件在辅助或半辅助的情况下去完成。

但随着AI的发展,未来可能会有实时感知和实时自动标记技术,会有一套更优秀的算法去解决数据采集的成本、质量、效率问题,同时把实时采集的数据打标签后喂到自动驾驶模型中。借助AI模型,将采集到的数据在感知侧,直接完成标注,而无需将海量原始数据传输到CPU、GPU来完成标注,大幅节省了算力开销且降低延时。

革新感知的方式

目前“注视点算法”是非常明确地将被应用到XR领域的AI算法模型。人眼在凝视时分成三个部分:中心区域、低分辨率区、周边区域。大约30-40 度左右的区域是分辨率最高的,周边的地方偏模糊,人脑在处理信息的时也分层次。这一点会影响人眼在XR设备中看到的画面。

注视点算法的作用就是基于注视点跟踪和眼动追踪,去判断用户在虚拟世界里看什么,目光的焦点会渲染得清晰一些,没有看到的地方就会渲染得模糊一些。

以睿视科技为例,这是一家以AR光学和数字离焦技术为核心的儿童近视防控平台公司,主要的产品是一台具备离焦功能的光学屏幕,当儿童通过屏幕上网课、看动画时,屏幕内独特的光路设计使光线在视网膜成像时实现近视离焦的效果,从而达到近视防控的目的。而在感知侧引入眼动追踪设备,实时追踪到用户在看什么,就可以针对视线焦点的部分内容进行光学离焦以及画面渲染,而不需要对全局进行离焦和渲染,从而降低了对前端设备的算力要求,即使是小算力的硬件设备也能够实现良好的使用效果。

AI对感知系统的提升还可能让智能硬件、健康设备在感知的同时就形成闭环。比如助听器,目前绝大部分产品只是简单粗暴地将所有声音分类为言语声和噪声,保留言语声并且抑制其他声音,因此声音显得不自然,且有10ms以上的延迟,听感不佳。

但未来在AI的辅助下,深度神经网络可以对前端的外界声音输入信号进行处理,辅以全向声音技术,让大脑听到的声音接近自然听觉,并且大幅降低声音延迟(6-8ms)。甚至还可以针对用户所处的不同环境,进行个性化的声音还原适配,进一步提升用户的听觉体验。

还有一直容易忽略的数据感知。像机器狗的四条腿上都有电机,它的四条腿在地上走时,一方面测量每一条腿和地面之间的高度,获取高度数据;另一方面确定地面和狗的小爪处于什么样的摩擦状态。机器狗收集这些数据,这些数据又会帮助机器狗决策路径,规划如何行动。

02

与控制、决策和交互系统的结合

控制

大模型对于机器控制上的提升将是非常明显的。

程天科技是非常有意思的一个案例,作为一个外部集群系统,含有完整的感知-控制-决策。它收集的IMU数据、压力传感器数据、力控数据在帮助患者康复时每一步的步幅、速度、步态周期以及肌肉力量的力矩输出。这个过程中,所有数据都会从感知端收集到计算处理平台,通过AI算法、根据每一个患者的康复状态,给出步态建议。

在这个场景当中,固定的预训练模型是不够的,需要基于最新的数据。因为人的康复状态每天都在变化,为了达到最优的治疗效果,每一次的方案都可能变化。这里就有Transformer的用武之地:传统的rule base并没有充分发挥机器人的决策系统价值,而是引导式的动作体系,基于Transformer的机器人能够根据rule的引导以及result的反馈进行result的迭代,并深化rule的框架,让result更优。

一直以来rule base的机器人解决的都是简单的商业场景,无法解决复杂场景,是因为rule base无法预判,需要有强行业know-how的人持续给机器叠加rule,开发周期很长。假如未来算力以及Transformer模型足够强,或许会出现这样的场景:只要把复杂环境的数据喂给机器人,短周期就能开发出来。

谷歌做的Robot Transformer就是运用大量的多维数据,完成机械驱动后,会生成相应的标签体系和评价机制,去优化机器人的效果。Robot Transformer对机器人最直接的提升是解决灵巧手的问题,整个算力以及前置模型都大量地简化,成本会急剧降低。也不需要基于大的算力平台,放在一般的终端也能用。灵巧手今后的方向就是小型化、能耗降低、逻辑简单,具备自学习能力。

联系我们:135-1272-6426    188-0319-7535

座机:0319-7596975