日前,由美国谷歌公司和德国柏林工业大学的人工智能研究团队推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620 亿(GPT-3的参数量为 1750亿)。作为一种视觉语言模型,PaLM-E不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练;同时,它还展示出了强大的涌现能力。可见,大型语言模型(LLM)可让机器人更自主。
据称,当得到一个高级命令,如“把抽屉里的薯片拿给我”,PaLM-E可为带有手臂的移动机器人平台(由谷歌公司开发)生成一个行动计划,并自行执行这些行动。PaLM-E通过分析来自机器人摄像头的数据来实现这一目标,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,使机器人控制更加自主。
PaLM-E还很有弹性,能对环境做出反应。例如,PaLM-E模型可引导机器人从厨房里拿一袋薯片,由于 PaLM-E集成到了控制回路中,它对任务中可能发生的中断有了抵抗力。在一个视频例子中,一名研究人员从机器人手中抓起薯片并移动它们,但机器人找到了薯片并再次抓起它们。
近日,美国微软公司的研究团队发表了一篇名为《机器人ChatGPT:设计原则和模型能力》论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。该文称,这项研究的目标是观察ChatGPT是否可超越文本思考,并对物理世界进行推理来帮助完成机器人任务。
ChatGPT是一种基于大量文本和人类交互语料库而训练的语言模型,使其能够对各种提示和问题生成连贯且语法正确的响应。人类目前仍然严重依赖手写代码来控制机器人。微软研究团队一直在探索如何改变这一现实,并使用ChatGPT来实现自然的人机交互。
研究人员希望ChatGPT能帮助人们更轻松地与机器人互动,而无需学习复杂的编程语言或有关机器人系统的详细信息。ChatGPT解锁了一种新的机器人范式,并允许潜在的非技术用户在循环中,在监控机器人性能的同时向LLM提供高级反馈。
作为人工智能技术产品,PaLM-E和ChatGPT将会越来越多地应用到机器人学领域中。正如国际知名学者周海中先生在20世纪90年代初所言:“随着科技进步,人工智能时代即将到来;届时,人工智能技术将广泛应用到各学科领域,会产生意想不到的效果。”
文/陆行健(作者系德国柏林工业大学博士后)