目录 |
智能搜索引擎是根据目前搜索引擎的发展趋势,除提供传统的全网快速检索、相关度排序等基本功能外,还提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能,为用户提供一个真正智能化、个性化的网络信息搜集工具。智能搜索引擎利用神经网络、关联规则、范例推理、模糊聚类、决策树、粗糙集、隐马尔科夫模型等技术实现分布式并行检索,以数据挖掘与知识发现为主要手段,加上自然语言理解、智能搜索代理、多媒体信息检索等技术的应用,进一步提高系统性能和检索的精度与效果。
(一)智能化
智能搜索引擎的搜索器可针对特定站点或者遍历整个互联网自动完成在线信息的索引,再采取最有效的搜索策略,选择最佳时机获取从互联网上自动收集、整理的信息。智能搜索引擎可以将多个引擎的搜索结果整合,作为一个整体存放在数据库中,确保找到最全面的信息,并且兼顾信息的关联性。
(二)个性化
智能搜索引擎可以满足用户的个性化需求,协助用户在海量信息中找到所需的信息,同时为用户提供方便安全的信息获取和保存机制,建立用户虚拟个人资料库,通过有效分类为用户提供个性化的服务。
(三)移动化
智能搜索引擎可以通过电子邮件、电话、传真、移动电话等方式与用户取得联系,不再局限于互联网上。还可以根据用户特定时刻的位置信息,选择最恰当的方法与用户通信。
(四)主动性
智能搜索引擎通过观察用户的行为,主动获取用户的专业、风格、知识水平、行为习惯、兴趣爱好等相关背景信息,通过不断的训练学习,增长智能;同时通过用户对返回信息的评价,调整自己的行为。
(五)交互性
智能搜索引擎可以通过自然语言与用户进行交互,实现交互性搜索,以逻辑判断实现对搜索主题的快速分析,根据用户的查询内容,展开多组相关的主题,帮助用户快速找到相关搜索结果。
下面介绍智能搜索引擎所涉及的关键技术。
(一)自然语言理解技术
自然语言就是人们日常生活中使用的各种通俗语言。中国汉语中存在大量的歧义现象,对一个词有多种理解。汉语的语音、语调、轻重音及停顿等,一经书面表达就有可能产生歧义;汉语虚词多,组词灵活,字在词语中的位置变化也可能产生歧义。所以自然语言理解的任务就是建立一种能够像人一样理解、分析并回答自然语言结果的计算机模型。智能搜索引擎的关键技术就是对自然语言的理解,将信息检索从目前基于关键词层面提高到基于知识层面,对知识必须具有一定的理解和处理能力。其中要使用到汉语分词技术、短语识别技术、同义词处理技术等。
1.汉语分词技术。关键词查询的前提是将查询条件分解成若干个关键词,再以一些关键词来表示文档。汉语分词技术可以根据语言资料库进行汇总,获取每个关键词出现的概率以及词与词之间的关联信息,再使用正向与逆向最大匹配法进行细分,排除歧义,提高关键词的准确性。
2.短语识别技术。关键词之间的关系不是孤立的,而是互相关联的,它们联合起来作为一个短语共同表达一个完整的含义。短语识别技术就是利用词与词之间的特点搭配和汉语语法规则,有效地兼顾关键词与它们之间的关系,更加准确地表述查询请求和文档信息。例如,传统的搜索引擎查询广西有哪些好玩的地方,输入“广西”和“好玩”这两个关键字实施查询,结果会显示上万个网址,其中绝大多数是无关的信息。而智能搜索引擎中,通过短语识别技术,显示的则是有关广西旅游景点和娱乐场所的网站信息。
3.同义词处理技术。通过人工构造同义词表,建立同义词数据库、蕴含词库等,在语言资料库中自动获取同义词关系,结合查询的关键词,主动关联到与其同义或意思相近的词语,提高信息匹配的准确度。
(二)智能搜索代理技术
智能搜索代理技术是智能搜索引擎的核心部件,它根据预定的策略和用户的查询需求主动地完成信息检索、筛选和管理,免去了用户被动搜索的困扰。一方面,智能搜索代理为搜集到的信息建立索引,通过检索器按照用户的查询要求输入检索索引库,并将查询结果反馈给用户;另一方面,智能搜索代理根据掌握到的用户信息对用户的查询计划、兴趣、意图等进行推理和预测,并根据搜索环境的变化及时调整工作计划,为用户提供快速有效的查询结果。
(三)多媒体信息检索技术
多媒体信息是文本、图像、视频和音频的混合体。多媒体信息检索是一种基于内容特征的检索,是对媒体对象的内容及上下语义环境进行的检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本检索技术的检索,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行快速检索,可以满足用户多层次的需求。
随着社会的日益信息化,智能搜索引擎已成为一个新的研究、开发领域,它越来越引起人们的重视。智能搜索引擎的发展主要表现在以下几个方面。
(一)提高信息查询结果的精度,提高检索的有效性
用户使用搜索引擎进行信息查询,并不关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。智能搜索引擎通过以下三种方法解决查询结果过多的现象:一是通过各种方法获得用户没有在查询语句中表达出来的真正用意,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关程度),通过多次交互逐步求精。二是用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或相近内容类聚,减少信息返回的总量。
(二)提供基于智能搜索代理的信息过滤和个性化服务
智能搜索代理具有解决问题所需的丰富知识、策略和相关数据,能够进行相关的推理和智能计算,可以在用户没有给出十分明确的需求时推测出用户的意图、兴趣或爱好,并按最佳的方式完成任务,将用户感兴趣的、对用户有用的信息反馈给用户。智能搜索代理具有不断学习、适应信息和用户兴趣动态变化的能力,能自动过滤一些不合理或可能给用户带来危害的要求,并且根据环境适当地进行自我调节,提高问题的处理能力,从而提供个性化的服务。
(三)丰富知识资源库,改进知识搜索引擎技术
知识搜索是在搜索引擎发展进入智能化阶段的过程,是建立在明确的知识来源基础上,根据用户的身份与诉求,回馈恰当知识结果的搜索引擎。而知识资源库的丰富程度决定着知识检索程度的高低,它是实现智能搜索的基础和核心。目前知识搜索引擎的代表网站主要有:中国知网,它是目前最大的基于互联网出版的学术知识搜索引擎。通过丰富知识资源库和改进知识搜索引擎技术,更为强调知识的准确、标准,强调通过互动机制如评价、交流、修改、维护等进行搜索结果的自我学习,对信息进行接受、判断、提取、分析和概括之后形成自己的知识,保存后成为下一次分析、概括的依据和基础,从中检索出对用户最有价值的信息,以达到知识搜索的智能化。
(四)采用分布式体系结构提高系统规模和效能
智能搜索引擎的实现可以采用集中式体系结构和分布式体系结构。但是当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统效能。分布式搜索引擎在架构和管理上采用“分布和集中相结合”的模式,具有集中式搜索引擎无法比拟的优势。通过充分利用服务器集群的各类资源,达到提高服务器性能、提升集群总体服务质量的目的。