状态、算子和结果(SOAR,State,Operator And Result)
目录 |
SOAR是由纽威尔等人于1986年开发的称之为“通用智能的一种框架”,SOAR的字母意思为状态、算子和结果,简单来说就是应用算子改变状态和产生结果。SOAR主要讨论知识、思考、智力和记忆等问题,是一个应用范围非常广的认知结构。SOAR模型是通用的问题求解程序,以知识块理论为基础,利用基于规则的记忆,获取搜索控制知识和操作符,即能从经验中学习,能记住自己是如何解决问题的,并把这种经验和知识用于以后的问题求解过程之中,实现通用问题求解。
SOAR模型目前已经走过34年的发展。2014年6月16日,密歇根大学安娜堡分校举办了第三十四届SAOR研习会,经过不断完善,目前的版本已经到了v9.3.2,并且可以自行下载。该模型目前最新的应用是iPhone的一款名为“Liar's Dice”的游戏。SOAR最初版本的模型结构如图1所示。
SOAR仅由被编码为产生式规则的单一的长期记忆,以及编码为符号图结构的工作记忆组成。基于符号的工作记忆存储了智能体对当前环境及情况的评估,利用长期记忆里回忆相关知识,经过输入、状态描述、提议算子、比较算子、选择算子、算子应用、输出这样的决策循环选择下一步操作,直到达到目标状态。
经过三十多年的发展与改进,许多科研团体为SOAR加入新的功能模块,但还没有统一的系统包含所有的模块,使它们一起协调工作。后来的版本包含了语义记忆、情景记忆和强化学习三部分。加入所有拓展模块的模型结构如图2所示
现对各个模块进行简要说明:
受ACT—R启发,我们给SOAR的工作记忆添加了“活跃度”参数。活跃度提供了一种元数据,描述了工作记忆元的最近相关程度,其数值是工作记忆元与被激活的规则匹配时计算出来的。这个信息不仅仅用来决定今后激活哪个规则,它还作为部分情景记忆的内容存储起来,以使提取的情景是与目前情况最相关的。将来,希望工作记忆活跃度会用在语义记忆和情感里。
一方面,强化学习调整动作的选择机制以使获得的反馈效益最大化。在早期的SOAR里,所有选择算子的优先权都是符号描述的,现在有了数字化的优先系数。在算子选择阶段,所有的优先系数都被绑定在一起,通过一个小整数贪婪算法选择下一个算子。算子应用后,所有为该算子产生优先系数的规则都将被更新。另一方面,强化学习与成块学习有所不同。强化学习应用在每个算子选择、决策循环里,甚至用在困境发生时;而成块学习机制只通过困境学习。此外,强化学习通过改变优先系数来对规则进行修改,而成块只是单纯地添加新规则。实际上强化学习和成块学习互为补充,因为当没有可选择的规则时,困境产生,且在子目标里的问题求解可以先为约束算子产生初始化优先系数,然后成块创建规则,为将来创建初始系数,最后强化学习将值转化为经验积累值。
情感在功能和计算上的作用正在被激烈讨论,在过去的二十年里展开了大量的有关情感的研究。有些理论表明智能体不断地评价情形并最终产生情感。这种评价可以影响到各个方面:目标相关性(当前情况对于目标来说是否重要);目标推断(这个情景对于达到目标有好的影响还是坏的影响),等等。在SOAR里,这种情感将产生一种数值,作为强化学习的反馈参数(奖励/惩罚),进而大大提高学习速度。将来的一个工作就是研究情感、情绪和感觉与其他模块协调工作。
除了被编码为规则的过程性知识,还有陈述性知识。陈述性知识可以分为事实和情景经验。语义记忆提供了对世界陈述性事实的存储和提取。在SOAR里,语义记忆由工作记忆里的结构组成,语义记忆里的某部分结构通过在工作记忆产生的线索被提取。这个线索用于搜索语 义记忆里的最佳匹配,然后将匹配结果送回到工作记忆。研究发现,用成块机制从语义记忆里提取知识是可能的,但执行起来相当困难。
语义记忆存储的知识与具体的时间地点无关,而情景记忆里存储的是有关经验的记忆,与时间息息相关。情景记忆存储在工作记忆里出现的结构实例,有提取过去经验的能力。情景通过一个线索提取,一旦线索创建,最佳匹配就会被发现。
虽然相似的机制在基于案例的推理中被学习过,情景记忆有自己的特点—— 与任务无关,因此对每个问题都可用,这是其他机制不能达到的。情景学习很简单但是很值得研究,它的加入加强了认知能力,比如内部预测,推理和学习等。
之前的扩展都是基于SOAR已有的符号工作记忆,表达智能体对目前情况的理解。但对于一些情况其它的表示方法会更有效。其中一种方法是可视化成像。在SOAR里添加了一些模块与进程支持可视化成像:构建和操作图像的工作记忆;存放可被工作记忆提取的图像的长期记忆;操作工作记忆里图像的进程和从可视化图像产生符号结构的进程。因为使用了更少的过程性知识,因此解决空间推理问题更快,或者一些过程只用符号是根本完成不了的。
基于Richard Granger的研究添加了这个新模块。聚团机制能自动总结隐含在问题空间中的知识,并改善以后问题求解,使得学习与求解相辅相成。它能够自动产生新符号,使外界的感知可以由概念进行分类。其算法由丘脑皮层在大脑的循环启发而来。虽然还没有将其应用在SOAR的所有感知类型,但已经使用聚类产生新符号结构使状态描述更丰富,同时也提高强化学习的效率。