前段时间,米哈游联合复旦NLP组,发布一篇关于行业大型语言模型智能体的综述论文。
论文名为《The Rise and Potential of Large Language Model Based Agents: A Survey》(暂译为:基于大型语言模型的智能体的崛起与潜力:综述)(下述:论文),全面梳理了基于大语言模型的智能体的起源和发展,原文共86页(含参考文献页数),由近30名作者共同撰写。
受追捧的智能体,成为人工智能发展的重要方向之一
智能体是人工智能领域中一个重要概念。
智能体,顾名思义,就是具有智能的实体,英文名是Agent,以云为基础,以AI为核心,构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统(来源:百度百科)。
其中,论文摘要中写到:
长久以来,人类一直在追求等同或超越人类的人工智能,而智能体被认为是实现这一追求的有效手段。智能体是能够感知环境、做出决策并采取行动的人工智能实体。
自20世纪中期以来,人们已经做了许多努力来开发智能体。然而,这些努力主要集中在算法或训练策略的进步上,以增强特定任务上的特定能力或表现。实际上,我们缺乏的是一个充分且强大的模型来作为开发可适应各种不同场景的智能体的基础。
具有多样且卓越能力的大语言模型,则被视为通向通用人工智能的必经之路,也为构建通用智能体提供了希望。我们看到,许多利用大语言模型为基础来构建智能体的研究,取得了显著进展。
最近几个月,在大型语言模型爆火的助推下,智能体成为各大科技巨头押注的新风口。
比如谷歌Deepmind展示了用于机器人的AI智能体“RoboCat”;亚马逊云科技推出了Amazon Bedrock Agents,可以自动分解企业AI应用开发任务;AI独角兽Inflection为个人打造AI助理Pi等等。
特别是今年8月,斯坦福与谷歌搭建的名为《Smallville》的虚拟小镇开源了。25 个 AI 智能体在小镇上生活,他们有工作、会八卦、能组织社交,结交新朋友,甚至举办情人节派对,每个「小镇居民」都有独特的个性和背景故事。
《Smallville》虚拟小镇同时设置了许多公共场景,如咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。小镇居民可以在虚拟小镇里随处走动,进入或离开一个场所,也可以和另一个小镇居民打招呼。
英伟达高级AI科学家Jim Fan在X平台(原Twitter)写到:“《Smallville》是2023 年最鼓舞人心的人工智能体实验之一。我们经常谈论单个LLM的新兴能力,但多智能体在规模上可能会更加复杂迷人。一群人工智能可以推动整个文明的进化。”
同时,他认为,“未来有无限新的可能性,游戏行业将率先感受到其影响。”
在论文的开篇“介绍”部分,也提到了 一个由智能体组成的设想社会场景 :在厨房里,一个智能体正在点餐,而另一个智能体负责计划和解决烹饪任务;在音乐会上,三个智能体正在协作表演乐队;在户外,两个智能体正在讨论制作灯笼,通过选择和使用工具来计划所需的材料和财务。而用户可以参与这些社交活动的任何阶段。
一个由智能体组成的设想社会
米哈游牵手复旦NLP组,详拆“智能体”的发展历程和发展前景
该论文全面梳理了“智能体”的发展历程,探讨智能体未来的发展方向和潜力,给行业系统了解智能体提供了很好的指引。
首先,该论文探讨了智能体的背景, 从其哲学起源谈到其在人工智能领域的发展,比如,论文中提到:“智能体不同于被动接受输入的非智能对象,更强调主体的自主性、目标性、主动性和社交性等方面的能动特征。”
“近些年深度学习和深度强化学习的融合为智能体带来更好的感知学习能力。Alpha Go的成功就是一个典型例子。随着大数据和计算能力的提升,大型神经语言模型也日渐成熟,为构建新一代智能体提供了巨大动力。”
同时,本章也解释为什么大语言模型适合作为智能体的基础,“相比传统方法,大语言模型具有语言理解生成、知识学习、复杂推理、自主学习等人工智能必需的核心能力。”
其次,他们为基于大语言模型的智能体提供了一个概念框架,包括大脑(Brain)、感知(Perception)和行动(Action)三部分。
基于大语言模型的智能体框架,包含三个组件:大脑、感知和行动
其中,大脑模块作为控制器,承担记忆、思考和决策等基本任务;感知模块感知并处理来自外部环境的多模态信息;行动模块使用工具执行,并影响周围环境。
举一个例子来说明此工作流程:当一个人问是否会下雨时,感知模块会将指令转换成LLM可以理解的表示;然后,大脑模块根据当前天气和互联网上的天气预报进行推理;最后,行动模块做出响应,并将雨伞递给人。通过重复上述过程,智能体可以持续获取反馈并与环境互动。
第三,他们探索了智能体实践应用,探讨了单一智能体、多个智能体,以及人机协同这三大场景的广泛应用。
基于大语言模型的智能体应用场景
单一智能体具有多种能力,可以在各种应用方向上展示出色的任务解决表现。
单个基于大语言模型的智能体在不同场景中的实际应用
在任务导向任务中(比如找到雨伞),智能体帮助人类用户解决日常任务,他们需要具备基本的指令理解和任务分解能力;在创新导向任务中(比如创造一种新药),智能体展示了在科学领域自主探索的潜力;在生命周期导向任务中(比如维持长期生存),智能体具有持续探索、学习和利用新技能的能力,并确保在开放的世界中长期生存。
当多个智能体进行交互时,它们可以通过合作或对抗的交互实现进步。
多个基于大语言模型的智能体的交互场景
在合作交互中(Cooperative Engagement),智能体以无序(disordered)或有序(ordered)的方式协作实现共同目标;在对抗交互中(Adversarial Interactions),智能体以轮流方式竞争,以提高各自的表现。
在人机协同中,人类反馈可以使智能体更有效、更安全地执行任务,而智能体也可以为人类提供更好的服务。
人机交互的两种范式
在指导者-执行者范式(Instructor-Executor Paradigm)中,人类提供指令或反馈,而智能体充当执行者。在平等伙伴范式(Equal Partnership Paradigm)中,智能体类似人类,能够进行移情的对话,并与人类一起参与协作任务。
第四,他们深入研究了智能体社会,探索了智能体的行为属性,以及它们形成社会时出现的现象。
模拟智能体社会
论文中提到了一个模拟智能体社会,这一社会分为两个部分:智能体和环境。从上图中可以观察到:
(1) 左边:在个体层面上,一个智能体表现出规划、推理和反思等内化行为。同时,它还体现出认知、情感和性格等内在个性特征。
(2) 中间:一个智能体和其他智能体可以形成群体,展示出合作等群体行为。
(3) 右边:环境。无论是虚拟的还是物理的,包含人类参与者和所有可用资源。对单个智能体来说,其他智能体也是环境的一部分。
(4) 智能体能够通过感知和行动与环境进行交互。
论文最后还讨论了该领域内的一系列关键主题和开放性问题,如安全性、伦理等问题。
智能体的发展,让米哈游“10亿人的虚拟世界”更具想象空间
智能体究竟能发挥出多大潜力,相信很多人都无法预测。
正如Jim Fan评论该论文:“如果《 Smallville》(生成式智能体)能够扩大到《原神》或其他大型 MMORPG 的玩家基础,那将是一个非常值得一看的奇观。人类和智能体都将有我无法预测的非凡的行为。”
尽管未来充满无限可能,但是他也指出,“目前效率和成本是阻碍这种大规模部署的关键挑战。”
米哈游将会扮演开拓者的角色。
众所周知,米哈游有一个愿景——2030 年打造出10 亿人的元宇宙虚拟世界。他们为此集中力量和资源来攻坚难题,如组建AI科学家逆熵团队、自研Avatar鹿鸣、探索脑机接口。
近期米哈游高层变动——蔡浩宇卸任董事长,同时不再担任法定代表人,同样证实了这一点。根据官方回复:“蔡浩宇将专注研发,会投入更多的精力在前沿科技的研究与应用、新项目研发,以及串联国内与海外研发资源上。”
科技的发展,离不开开拓者。类似《SmallVille》的尝试,让我们窥见了智能体发展的冰山一角。随着更多科技巨头和大公司的重金投入,智能体赛道将迎来高速发展,而类似米哈游的“10亿人的虚拟世界”也将会越来越清晰。