​​​​​​​智能装备行业门户网
品牌 活动 访谈】  50强   整机 ​【联盟】 机构 【视界 展会 招聘 云服务   微博     关注公众号
咨询热线400-0756-518
今日焦点
​​​金陵智造AGV舵轮
智慧物流,移动机器人全媒体,为更有效传播
​​​INEWS / 新闻中心
通向AGI之路|大模型加持下,机器人即将迎来新世代
来源:蓝驰创投 | 作者:蓝驰创投 | 发布时间: 715天前 | 3380 次浏览 | 分享到:
机器人、XR等硬件产品本质上都具备智能系统属性,这些智能系统的感知、控制、决策等底层能力都来自AI。而在多模态大模型出现后,AI在理解人、和人交互方面的能力上将再进一步,不再只依赖语言和文本,而是可以更好地识别肢体语言、面部表情、语气等。

与此同时,大模型驱动的机器人会在安全柔性和容错可适应性方面有更高发展。在智能机器人进一步贴近普通用户,甚至在按摩理疗、人机辅助等场景下直接产生物理接触等强交互的情况下,机器人操作臂和末端执行器的绝对安全性和对突发事件的适应性就变得至关重要。

以万勋科技Pliabot技术为代表的柔韧机器臂为例,通过采用多闭环控制,万勋Nimbo系列柔韧臂可以实现超过自身自重的末端负载、和匹配视觉定位的亚毫米级末端精度,在安全性、作业能力和经济性之间形成了新的平衡点。借助大模型生成的基于多模态融合的规划命令,柔韧臂在准确有力的执行操作命令的同时,可以在最贴近用户的执行端提供安全性与适应性的最后一道屏障。

此外,大模型加上以柔韧臂为代表的轻量化柔性硬件,将催生一系列软硬件综合方案,完成机器人从理解、拆解、规划、驱动、到执行的完整闭环,这就相当于给大模型驱动的智能“大脑”匹配了灵活、有力、安全、可负担的“身体”,从而快速推动多场景下的落地应用。

OpenAI的最新模型在机器人领域的落地有很多场景:五指手、摔跤比赛、开源的深度强化学习平台、自适应的机器人控制系统、以及机器人的仿真。但是这些能力提升是否能够在产业侧和场景侧帮助我们打磨出好产品,还是一个问号,产业落地还是要回到团队对场景痛点和难点的理解。

规划与决策

在规划层,大模型可以比现有技术方案更好的植入多种先验知识库,与现场随机性相结合,进行多模态智能融合,最终获得兼顾了历史经验积累和现场随机变化的可执行机器人规划命令。这将极大的推动机器人在通用智能方向上的快速发展,让智能机器人更快的理解和适应开放式的环境和用户命令,完成愈发丰富的任务。

在决策层,本身有单体智能和群体智能的区别。单体智能是一个围绕结果的智能决策,群体智能就像将一个工厂智能化,看起来是很多单站集合而成的,但从本质上来讲,工厂本身就是一个巨型机器人,优化的目标只有一个。

它要考虑的因子包括机械臂或设备是否疲劳、过热,是否需要休息;生产不同批次、品种的产品时如何基于每一个品种工序和中间的衔接去做不同的调度;怎么样确保订单的具体质量,并在最后检验环节能够有真正质量的闭环,达成基于群体决策最优整合目标。

目前单体决策是比较成熟的,但从控制走向工艺这一侧,其实还有很大的优化空间。传统基于工艺的决策是将工人对工艺的认知经验通过算法或工艺参数要求导入到机器人单体,AI的优势是能够基于工艺要求框架,结合工艺场景的大量数据模型,持续形成基于工艺要求的自训练算法并持续优化,从而形成更精准的决策系统。

交互

Transformer所代表的Learning-based方法会给机器人的人机交互界面层带来全新的范式。在多模态大模型出现后,人与机器人的交互会有新的可能:未来没有任何机器人编程经验的普通用户可以用自然语言和开放式命令来直接操作机器人,给机器人下达复杂、模糊,甚至是问询式的指令,由大模型驱动的交互引擎来理解分析用户目标,获得准确的可执行目的,进行任务拆解并后台分发转移给机器人规划层进行任务规划和执行。

在交互领域有比较重要的两个可能。一个是神经辐射场(NeRF),NeRF使用2D图像训练神经网络,预测全新视角下的图像,从而完成场景渲染,是一种场景3D信息的隐式表达方式。NeRF带来了新的3D交互方式,也为3D内容的生成提供了新的可能性。即使其目前在训练/推理效率、处理动态物体等方面存在一定缺陷,但它带来的全新应用场景的可能性也值得我们期待。

另一个就是LLM(大语言模型),它会助力AR眼镜成为随身的AI助理。AR眼镜具备第一视角的近眼显示能力,在ChatGPT等大模型的赋能下,可以实现语音交互、实时翻译、导航、购物建议等功能。

算力平台

在算力方面我们得出结论是:不同的平台,不同的场景,一定会有对应的算力平台。比如说眼镜对应XR2,车对应Orin,云端对应A100。未来基本上就是这样的架构,不会出现一款芯片或者是计算产品解决所有的问题。因为在不同场景下的功耗是不同的,针对电源、系统能量的管理是不同的,任务的复杂度和场景的状态也不一样。

03

工业场景的提升

我们一直在想象,未来的工业场景能否把底层系统打通在一个平台上,上层可以直接调用ChatGPT跟它自然交互,再去挖掘问题所在?

此前工业互联网的收效有限,一个核心原因是他们不是信息化Native,还是要靠外装设备。如果数据来自硬件自带的AI系统,能自己形成分析反馈,将可以实现有价值的预测分析,这对实现工厂的单站智能非常重要;通过这些智能单站连成线之后,可以形成闭环的整厂数据链路,从而可以构架出整厂的AI模型数据。如果无法拿到原生数据,能用后装传感器抓到数据也可以,吉利汽车有一个特别厉害的自动化产线,已经在用Transformer和类ChatGPT模型去理解工厂的问题在哪里。

AI对工厂预测性维护的提升还是有限,因为工业里面环环相扣的工艺很多,产品生产过程琐碎。最重要的是如何做到自适应工厂单工艺以及全局的复杂状态。工业互联网的痛点是设备的每个参数都要单独测试,一个设备只能干一件事,超出这个场景,设备算法就不一样。所以我们一直在设想未来的机器人应该就像流水线一样,能非常快地对齐认知,这就需要AI既能掌控单工艺制造过程,又具备全局大脑决策功能。

特斯拉工厂其实就是一个大机器人。整个传感器数据是全栈、全链条、全体系共享。但底层都有传感器,有智能化、数字化基础。这些都需要原生数据,打补丁是做不到的。



联系我们:135-1272-6426    188-0319-7535

座机:0319-7596975