目录 |
Web搜索是指采用自动或半自动的方式,遵循一定的策略在Web上搜集和发现信息。实现Web搜索的技术统称为Web搜索技术,主要包括制定搜索策略、对网页超链接结构进行分析、评价Web信息资源的质量、分析信息资源的内容以及计算Web信息资源与搜索查询的相关程度等。
用Web搜索技术建立起来的系统称为Web搜索系统,搜索引擎(Search Engine)是一种典型的Web搜索系统,也是Web搜索技术发展的重要源头之一,它主要对发布在Web上的信息资源进行搜集、整理、组织,形成一个信息资源指引库,并通过检索界面将最符合用户要求的网站或网页信息提供给用户,用户据此单击相应的网站或网页地址,从而被导航至相应的网页。除了搜索引擎之外,还有一些专门的系统,也要用搜索技术来搜集网络上的信息,例如,竞争情报系统为监测竞争对手和竞争环境而在网络上搜集相关信息,专题门户网站要搜集网络上的相关专题信息等,都要用到搜索技术,这类系统或它们实现搜索功能的子系统,都属于Web搜索系统。
目前,对Web搜索类型的划分尚无统一的标准,常用的基本划分方法有依据搜索的自动化程度进行分类、按搜索策略进行分类和依据搜索对象进行分类等。
根据自动化程度的不同,可以将Web搜索分为自动搜索和人工搜索两种类型。
自动搜索主要是指依靠“爬行器”这类软件自动获取Web资源,目前多数搜索系统都采用这种搜索方式。
爬行器(Crawler)是指可以在Web漫游,并发现、下载Web页面的计算机程序,采用此类程序的搜索系统,其网络信息资源的获取全部由计算机爬行程序自动完成,系统通过爬行器在网上爬行,将搜索到的页面自动下载加入到本地数据库中,经处理后供用户使用,人工参与成分很少。自动搜索的优势在于自动化程度高、搜索范围广、维护费用少、更强调技术上的创新和提高;缺点是返回信息过多,可能包括大量的无关信息,用户必须从搜索结果中进行筛选,增加了用户负担,因此设计高效的爬行机制及合理页面处理规则是这类搜索技术研究者特别关注的问题。
现阶段,国外具有代表性的此类搜索系统有最为流行的Google(http://www.google.com)、资格最老的Lycos(http://www.1ycos.com)、能提供相关检索和专家推荐资源的Teoma(http://www.teoma.com)、拥有较强中文检索能力的Infoseek(http://www.infoseek.com)等;国内代表性的系统有最成功的商业搜索引擎百度(http://www.baidu.com)及最早的搜索引擎天网(http://e.pku.edu.cn)等。
采用这类技术的系统依靠专职编辑建立分类目录,并按学科类目组织Web信息资源,支持用户按类目层次来浏览信息,典型代表是目录式的搜索引擎。
人工搜索按照既定的类目层次组织Web信息资源,根据编辑人员在访问了某个Web站点后撰写的站点描述,人工形成信息摘要,并根据站点的内容和性质将其归人一个预先分好的类别,也有一些系统接受用户提交的网站网址和网站描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。人工搜索系统大多面向网站,而不是网页,由于加入了人的智力劳动,所以其获得的信息准确性好、导航质量高;缺点是需要大量人工介入、维护量大、信息量少、信息更新不及时。
在此类系统中最具代表性的是最早出现的目录式搜索引擎Yahoo!门户网站(http://www.yahoo.com)、在美国和澳洲有广泛影响的Looksmart(http://search.looksmart.com)、允许用户进行网站提交的Opendireetory(http://dmoz.org)。此外,国内的门户网站新浪(http://www.sina.com.cn)、搜狐(http://www.sohu.com)、网易(http://www.163.com)等也都采用了这类搜索技术。
根据搜索策略的不同,Web搜索可以分为周期性搜索(Periodic Web Search)和增量式搜索(Incremental Web Search)两种类型。
周期性搜索是指根据系统搜索要求采集足量的信息后停止搜索,当经过一段时间后这些数据过时,就重新进行搜索,用新采集来的信息代替原有的信息,以使采集到的信息与网络上的信息保持一致。
这种搜索方式的优点在于总体上搜索算法相对较为简单,对页面的采集顺序没有特别的要求,但由于待刷新的页面太多,时间开销较大。
增量式搜索仅在需要的时候采集新产生的或者已经发生变化了的页面,对于没有变化的页面则不进行采集。
和周期性信息采集相比,增量式搜索能极大地减少了数据的采集量,进而减小了采集的时间和空间开销,是搜索技术当前的研究热点。但增量式信息采集在减小开销的同时,却增加了算法的复杂性和难度,比如如何判断某个页面是否发生了变化。同时,为了进一步提高增量式搜索的效率,又面临着如何根据页面的变化快慢分配系统的采集能力等新的问题。
根据搜索对象不同,Web搜索可以分为通用搜索(General-purpose Search)、专题搜索(Domain-specific Search)、深层搜索(Deep Search)和元搜索(Meta-search)4种类型。
通用搜索通常以网络中所有领域、各种格式的信息资源为搜索对象。这类搜索返回的结果覆盖面广、信息量巨大,但是不能满足用户对于特定领域内信息获取的需要。使用普通搜索技术的主要搜索引擎有Google、AltaVista、Excite等。
专题搜索也称为专业搜索、主题搜索、垂直搜索,是为满足用户的特定的信息需求而开发的一种搜索技术,它可以针对某一主题(如纳米技术)、某一地区(如中国台湾)、某一类型的信息(如个人简历、主页、电影、音乐、FAQ等)或某一特定群体(如小学生)的信息进行搜索,只返回符合特定要求的网络信息,而不采集那些与主题无关的信息。
在专题搜索中,除了根据预先定义好的主题进行网络搜索以外,还可以通过用户兴趣制导或与用户进行交互等灵活手段来采集信息,也就是说,系统本身不预定义主题,而是通过用户提交的有关兴趣等信息或自动跟踪用户的浏览习惯来获得用户的信息需求,然后根据这些需求进行信息搜集,这种技术也称为个性化搜索。Tomonari Kamba等人在1995年提出了一个交互式、个性化定制的报纸新闻信息爬行器Krakatoa Chronicle,它具有强大的交互能力和可定制能力,是个性化和主题采集引用结合的一个实例。
在网络中存在许多“看不见的网络资源”(The Invisible Web),也被称为“Deep Web”或“Hidden Web”,这些信息资源不是以网页(HTML页)的形式存在的,而是按一定的格式存储在网络数据库中的,因而不能通过超链接技术获取,而必须通过动态网页技术进行访问。深层搜索就是一种专门获取这类信息资源的技术,主要包括资源发现和选择、模拟查询、结果整合等。
元搜索又称为集合型搜索,是一种以现有搜索系统为基础的搜索方法,它不去直接搜索网络上的信息,而是以现有的多个搜索系统(例如搜索引擎)为搜索对象,对现有的搜索系统进行搜索,对结果加以整合,再提供给用户。
元搜索系统本身一般不具备存放网页信息的数据库,当用户提交一个查询请求时,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并行访问多个搜索引擎,并把结果进行归并处理后返回给用户。这类系统的优点是返回结果的信息量更大、更全,而且由于其检索结果大都建立在独立搜索引擎排名较靠前的结果之上,检索结果也更加准确;缺点是无法使用特定搜索引擎的特殊功能,用户有时需要做更多的筛选工作。
有代表性的元搜索系统有支持自然语言检索的Ask Jeeves(http://www.askjeeves.com),集成Web搜索引擎、新闻组搜索引擎及FTP搜索引擎于一身的Dogpile(http://www.dogpile.com)、以聚类方式组织查询结构的Vivisimo(http://www.vivisimo.com)等。
在Web未出现之前,网络中文件传输就已经相当频繁了,为了查找大量散布在FTP主机中的文件,加拿大麦吉尔大学计算机学院的学生Alan Emtage、Peter Deutsch、Bill Wheelan等人于1990年开发了Archie软件系统。Archie系统依靠脚本程序,定期搜集并分析各个FTP站点中可下载的文件资源信息,并通过对有关信息进行索引,为用户提供检索服务。虽然Archie处理的信息资源对象(非HTML文件)与现代Web搜索系统的信息资源对象(HTML文件)不同,但是后来的Web搜索借鉴了Archie信息搜集、建立索引、提供服务的工作方式,这也使得Archie成为现代Web搜索系统的鼻祖。
Web的出现使得依靠网页间特有的超链接关系获取信息成为可能。1993年美国内华达大学的Matthew Gray开发出World Wide Web Wanderer,成为世界上第一个利用HTML网页之间的链接关系来检测Web发展规模的“机器人”(Robot)程序,这种程序后来也被称为“蜘蛛”(Spider)或“爬行器”(Crawler)。与Archie的不同之处在于,Wanderer是利用HTML文档之间的链接关系,在Web上从一个网页“爬行”(Crawl)到另一个网页,并将爬行过的网页“抓取”(fetch)到本地进行分析。随着互联网的迅速发展,基于HTTP访问的Web技术迅速普及,到1994年初,一些基于“爬行器”原理的Web搜索工具开始涌现,其中以Jump Station、The World Wide Web Worm(Goto的前身,也就是今天的Overture)和Repository-Based Software Engineering (RBSE) spider最负盛名。而第一个现代意义上的搜索引擎是1994年7月由MichaelMauldin创建的Lycos,它将John Leavitt开发的蜘蛛程序接人其索引程序中,推出了基于“机器人”的数据发现技术,支持搜索结果相关性排序,并首次使用了网页自动摘要技术。在随后的几年时间里,搜索引擎如雨后春笋般涌现出来,推动了Web搜索技术的发展。1995年12月,DEC公司推出了Alta Vista搜索引擎,Alta Vista是第一个实现了自然语言检索的搜索引擎,具备了基于网页内容分析、智能处理的能力。1995年华盛顿大学硕士生Eric Selberg和Oren Etzioni开发的Metacrawler第一次实现了元搜索,通过调用其他多个搜索引擎的结果,加以整合,统一提供给用户,是元搜索引擎的开山之作。
目前,Internet上提供公开服务的各类搜索引擎已达数百家,而服务于特定目的的搜索系统则不计其数,其中,影响最大、使用最为广泛的外文搜索引擎是Google、中文搜索引擎是“百度”,前者首创了Page Rank算法,极大地提高了采集页面的质量,后者则拥有当前世界上最大的中文信息库。
Web搜索的研究已经在全球范围内掀起了高潮。各国学术界、产业界和政府部门都对其给予了高度的关注,得到了各类国家计划、研究基金和企业项目的大力支持。在我国,国家863计划、国家973计划以及国家自然科学基金都在积极开展有关的研究。国际上,SIGIR(Special Interest Groupon Information Retrieval,ACM的年会)、SIGKDD(Special Interest Groupon Knowledge DiscoveryandData mining,ACM的年会)、TREC(Text REtrieval Conference,NIST举办的年会和测试)、TDT(Topic Detectionand Tracking,NIST主办的测试)、MUC(Message Understanding Conferenee,DARPA主办的测试)、ACE(Automatic Content Extraction,NIST主办的测试)等国际会议和评测活动十分活跃,吸引了全世界的注意,强有力地推动了研究进展。Web搜索在理论研究方面取得了长足的进步。关于文本搜索,基于Markov过程的N-gram模型和Sahon的向量空间模型(Vector Space Model,VSM)是目前普遍采用的特征表达模型。而词频一倒文档频度法(TF-IDF)、信息增益法(IG)、CHI统计量法、互信息法(MI)等提供了有效的特征选择方法。主成分分析、线性鉴别分析和奇异值分解等方法被用于特征降维,并衍生出了潜语义标号(Latent Semantic Index,LSI)的重要概念。Bayes分类器、支撑向量机、自组织映射、k近邻以及向量相似度等模型提供了多样性的分类方法。
关于语音搜索,有两种不同的技术路线。第一种是先利用ASR(Automatic Speech Recognition)技术将语音文档转换成文本文档,然后再用文本过滤的方法进行处理。TDT测试中的技术就属于这一类。这类技术的主要问题是系统的精度和速度受到语音识别的制约。第二种是基于音频检索、语音关键词定位和语音鉴别(说话人识别、语种鉴别、性别鉴别等)等技术抽取语音文档的声学特征向量,然后进行内容识别和过滤。这种技术直接针对内容识别和过滤的任务要求,有更深的研究潜力。关于Web语音内容过滤系统,在TDT技术体系之外,基于音频检索的技术比较常见。
关于图像搜索的理论研究也取得了许多重要进展。此项研究与物体图像识别、计算机视觉等关系密切。在物体图像识别和图像检索方面,提出了以星群模型(Constellation Model)、二维多分辨率隐Markov(马尔可夫)模型(2DMHMM)和高斯混合离散余弦变换模型(GMM-DCT)等为代表的有效方法;在视频检索和计算机视觉方面,镜头切分、故事切分、关键帧抽取、场景分析、动态特征抽取、视频聚类等关键技术已经取得许多突破。
在系统模型研究方面,TREC会议的测试任务发挥了重要的引导作用。早期的研究主要集中在对经典的Ad-hoe检索系统的模型改进上,目前该方向的研究已经进入了高原期,因而转向了其他模型。比较重要的包括Novelty、HARD、QA等。Novelty是一种新颖性检索系统模型,它首先将与查询相关的文档排成一个序列,然后逐个文档抽取与查询相关的句子,内容相同或类似的句子第一次抽取后就不再抽取。这是一种集成了段落查询和信息过滤的检索模型。HARD代表High Accuracy Retrievalfrom Documents,即高精度文档检索。它是一种用户个性化信息检索模型,系统在反馈查询结果时会根据不同的用户以及用户以往的查询经历给出不同的结果。QA代表Question Answering,即问答式检索。它允许用户直接提出问题,系统根据问题去寻找答案,而不是文档。例如,如果用户提问“哪位美国总统打开了中美交往的大门”,系统要直接回答“尼克松”,而不是提供相关文档。
此外,TREC的Enterprise检索和Spam过滤任务也很重要。Enterprise提出了企业检索也就是内网(Intranet)的检索任务,它不同于互联网上的检索,其研究重点是如何将一个机构内部的信息进行有效的组织和整合,以便对命名实体、主题文件进行检索,如专家检索、邮件检索等。Spam是TREC设立的第一个内容过滤任务,主要目的是推动垃圾信息过滤的研究。
在多个成功商用搜索引擎等技术的推动下,Web搜索的应用已经普及。除了公众所熟悉的Web信息检索应用之外,还包括政府部门的信息内容过滤,国防及安全部门的情报获取,电子商务系统中的商品信息推荐等。
虽然研究、开发和应用已经取得了长足的进展,但Web搜索仍然处于发展的初级阶段。在理论上,许多核心问题,如用户需求的把握、文档内容的理解和提炼、相关文档的排序、数据模型演进的跟踪等都是悬而未决的开放问题。当前阶段,人们的主要努力方向是个性化筛选、多媒体融合、专业性划分、语义级匹配等。
Web搜索主要为满足用户的查找信息需求,旨在以最短的时间为用户提供最优质的信息,由于Web搜索与传统文献检索有着相似的特点,因此对于Web搜索的评价也可参照传统文献检索的评价标准,并结合Web的特点来进行,主要的评价指标包括搜全率、搜准率和搜索速度。
1.搜全率
搜全率指Web搜索系统提供的搜索结果中相关信息文档数与网络中存在的相关信息文档数之比,这一指标是Web搜索系统对网络信息覆盖率的真实反映。与这一指标相关的评价参数包括Web搜索系统对网络信息的有效覆盖率、搜索结果库的容量以及搜索结果更新频率等。这些指标共同决定着Web搜索对特定信息的搜全率。2.搜准率
搜准率是Web搜索系统提供的搜索结果与搜索目标的匹配程度,具体说是搜索结果中有效信息的文档数与全部文档数之比。每一种Web搜索工具,特别是专题搜索工具,为提高搜准率,均精心设计了一套搜索技巧与方法体系,如相关度判断、网页评价等。影响搜准率的因素包括Web搜索系统的新网页的更新机制、重复信息的过滤机制等。
3.搜索速度
Web搜索系统直接跟踪Web信息,而Web信息具有很强的时效性,因此,对系统的搜索速度有很高的要求。搜索速度一般取决于两个因素,一个是与带宽有关的网络速度,另一个是Web搜索系统本身的速度,只有在两者均获得可靠的技术支持的情况下,才能保证理想的检索速度。
Web搜索广阔的应用领域、巨大的社会经济作用以及高度的技术挑战性使其充满了科学研究价值。
第一,Web搜索所研究的是一个崭新的科学问题,即如何在无边的动态的Web信息中寻找最符合用户需求的信息。这个问题不仅在尺度上空前巨大,而且约束条件非常不确定。因为系统通常难以了解用户真正的信息需求。用户总是希望以最简单的提问或最便捷的操作,如输入少量关键字的方式来表达自己的请求,因而系统得到的指示是十分笼统和模糊的。我们应该认识到,Web搜索在计算规模和约束的不确定性方面已经将人类的科学研究带到了一个新高度。第
二,Web搜索既要考虑信息的客观性,又要考虑信息的主观性。所谓信息的客观性,是指信息的数据形式在Web中是客观存在的,不论面对哪个主体(用户),承载信息的数据都是相同的。而信息的主观性是指同样的数据给用户提供的信息(量)是不同的。一篇介绍摄影常识的文章对初学者来说可能“很有信息量”,而对一个摄影师来说信息量几乎为零。在Web搜索中,上述客观性因素和主观性因素都会影响搜索结果的正确性(质量)。这种特点在普通的自然科学研究中是很少见的,因此引起了人们更大的研究兴趣。
第三,Web搜索强有力地带动了相关学科,特别是智能学科的发展。智能学科中的自然语言理解、模式识别、机器学习、数据挖掘等在Web搜索中找到了巨大的发展空间,近年来已经形成了空前高涨的研究热潮。例如文本分类、多媒体识别、海量数据挖掘、在线增量机器学习、在线分类和聚类、信息抽取、信息摘要、命名实体识别等研究都紧密地与Web搜索联系了起来。商用搜索引擎的智能化趋势也正是在这些研究的基础上形成的。甚至可以预期Web搜索将成为一个大面积涵盖智能学科的新兴独立学科。