目录 |
个性化元搜索引擎是元搜索引擎和个性化技术的结合,它一方面能够提高搜索引擎的查全率,用户不用同时查询多个搜索引擎:另一方面它能为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而达到主动推荐的目的。个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的访问者。[1]
目前元搜索引擎的种类有很多,其中以操作平台来区分,则分为基于系统软件的桌面型元搜索引擎和基于互联网的元搜索引擎,个性化元搜索引擎主要是用户利用多个独立搜索引擎进行网络搜索的一个中介,在检索前,元搜索引擎会通过和用户进行互动来动态获取用户的检索请求,这种方式将能够准确的获取用户的信息,然后再调用相应的独立搜索引擎进行搜索,然后个性化元搜索引擎利用自身的技术改进,在模糊查询以及相关智能算法技术方面的改进,从而更好的进行索引,筛选和排列,甚至能够屏蔽一些垃圾网站信息,现在谷歌的熊猫算法就是一种典型的个性化搜索引擎技术。从提问到结果反馈的这个过程中,个性化搜索引擎将会遵循下面三个机制进行运行。
1.个性化元搜索的选择机制
个性化元搜索引擎在执行对关键词的查询之前,会对搜索引擎列表进行初始化,然后结合动态获取的用户需求信息来调用相应的独立搜索引擎,目前选择的方式有两种,分别是系统选择和用户选择,系统性选择主要是依靠个性化元搜索对各种独立搜索引擎的功能效率的评价,元搜索引擎系统会自动匹配功效最佳的独立搜索引擎,而用户选择则是用户通过浏览搜索引擎列表的方式来实现自主性选择,但是对于用户来说,独立搜索引擎相对比较复杂,用户往往无从选择,不过现在已经有了检索时间和结果数量等选择,且具有一定的记忆性,对于这些较为简单的个性化选择基本上已经实现。
2.个性化元搜索的转换机制
这里主要包括两部分的内容,第一要把用户的查询需求转化成符合各独立搜索引擎的标砖查询语言格式,第二要把个独立元搜索的查询结果转化成统一的输出格式,因为每一种独立搜索引擎的检索算法和数据库的结构都会存在相应的差异,不同的独立搜索引擎的布尔检索,截词检索的算法和复杂度是不一样的,而且有的独立搜索引擎还能够支持自然语言的查询,所以这些不同的检索算法会产生不一样的格式,个性化元搜索引擎不仅仅要精确的掌握它们调用CGI的格式,还具备了自然语言等高级查询能力,对各种独立搜索引擎的检索结果进行二次排序,筛重,从而提供给用户匹配度更好的搜索结果。
3.个性化元搜索引擎的排列机制
我们知道从百度和谷歌上查询的结果都是以一定顺序排列的,这些排列顺序会根据网站权重,网站关联度等决定的,现在也有了针对优化网站排名的SE0职业,这说明元搜索引擎的排序都是遵循着一定的机制原则,只有符合这类机制才能够让网站获得更好的排名,目前个性化元搜索技术对检索结果的排序分为引用排列和重新排列两种方式,引用排列指的是直接引用独立搜索引擎检索结果进行排序,会根据不同的来源将结果显示出来,这种方式不需要对结果筛重,只需要将格式转化过来就可以了,这种方式存在一个缺陷,就是容易将和用户查询结果相关度不大的反而排在了相关度大的前面,让用户错过了正确的结果,因此个性化元搜索技术还配置了对结果进行重新排列,同时对结果进行更多的处理,根据更好的自然语言的查询技术,优化了结果的排序,让用户更容易准确的找到相应的内容。
个性化元搜索的核心就是能够提供个性化准确的服务,要解决如何调用其他搜索引擎索引数据库,如何获取通过个性化互动获取的关键词在其他搜索引擎中的查询结果,以及对这些结果的评价排序和显示,解决这类问题,目前主要是通过下而四种关键技术来实现的。
1.个性化的用户搜索转化
个性化元搜索引擎将对单一的搜索框进行革新,会有更多的互动内容让用户选择,而且搜索词也不再是单一的词汇或者一个长尾关键词,而是由更多的词汇组成,当用户将自己的需求通过个性化的搜索界面输入之后,元搜索引擎就会对这些词汇进行语言上的转换,变成独立搜索引擎可以检索的查询语言表达式,因为不同的独立搜索引擎会有不同的检索语法和操作符,因此个性化元搜索还需要对用户的需求进行相应的转换,而且这种转化是智能匹配的,对于用户来说并不会感到这一点。
2.检索机制设计和优化技术
对于个性化搜索引擎的初始化方式,以及各个独立搜索引擎结果平衡的处理等,都需要在检索机制的设计初期进行规划,这时候主要会受到检索的速度以及用户对检索结果的满意度的影响,目前个性化搜索一切宁的初始化主要包括用户参与,系统智能化确认以及智能随机处理等方式。而检索的结果处理则要衡量不同搜索引擎结果之间的相关程度,目前个性化搜索引擎的处理主要是以记录为单位,然后通过判定某一个记录在多个独立搜索引擎中的评价指数,如果多个独立搜索引擎都推选这个结果,那么这个记录就应该排在结果的前面,实际上利用到了物以群分人以类聚的原则,当别人都认为这个结果好,那么这个结果就应该优先出现,从而实现更加准确的匹配。
3.检索结果的显示
这实际上是利用了个性化元搜索的排列机制,目前个性化元搜索基本摈弃了传统元搜索技术的简单模式,比如直接引用多个独立搜索引擎的结果,造成很多页面的重复,而是结合了直接引用和动态调整两个方面技术,当一些重要的结果,往往会采用多方引用,这就是为什么我们能够在搜素引擎上依然能够看到相同内容的原因,另外就是个性化元搜索引擎会对结果进行更多的加工,主要包括两种方式,一种是对记录的筛选,对于很多重复的数据记录进行删除,这就是为什么我们能够看到互联网垃圾网站采集的数据很多,为什么这些垃圾网站的数据并不能够通过搜索引擎显示出来的主要原因,另一种就是对结果进行再次排序,这时候个性化元搜索引擎会结合对结果的再次智能化的判断,识别这些内容网站的本身权重和用户体验度,从而进行优先显示,这就是为什么很多用户体验度好,搜索引擎友好度好的网站内容往往能够获得更好的排列的原因所在。
4.分布式数据库的调用技术
这是个性化元搜索技术的核心,也是非常重要的一部分,因为独立搜索引擎的数据库分布在不同的地域,而且数据的结构也是不一样的,这时候只能够依靠分布式数据调用的技术将这些数据库的查询结果索引到分布式数据库中,而个性化元搜索引擎将会利用分布对象技术来对索引数据库进行访问查询和排序,正是如此,如果某些网站的响应速度慢的话,往往就不会获得更好的排名,因为不同数据库的掉用时间的不同,将会影响到显示的结果。