计算机检索(Computer-based Retrieval)
目录 |
计算机检索是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示、下载和打印的过程。
计算机检索是在计算机技术和通信技术发展的基础上建立起来的。它产生于20世纪50年代,发展于20世纪80年代中期,20世纪90年代后随着国际互联网技术的发展而进入了一个崭新的时期。回顾计算机文献信息检索的发展历程大致可以概括为批量处理、联机检索与网络系统三个阶段。
1.批量处理阶段
1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统。20世纪50年代末,IBM公司利用一台IBM650计算机成功地编制出关键词索引,并建立了世界上第一个“定题情报检索”(Selective Dissemination of information,SDI)系统,为用户定期检索和提供特定主题的新到文献(脱机检索,批量处理),并很快得到了推广应用。
2.联机检索阶段
进入20世纪60年代,计算机检索进入了实用和全面发展阶段。20世纪60年代末,数据通讯网络出现,大容量计算机分时系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。20世纪70~80年代,联机检索得到迅速发展,一些联机检索系统开始向公众提供商业性服务,如DIAI。OG、ESA、ORBIT、BRS等许多世界著名的联机检索系统相继投人商业性运营。
3.网络系统阶段
20世纪90年代,联机检索的发展进入了一个重要的转折时期。随着互联网的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,使客户、服务器联机检索模式开始取代以往的终端/主机结构,成为联机检索的发展趋势,使联机检索进入了又一个崭新的时期。
计算机技术的不断进步和信息量成倍地增加,使人们对信息检索技术的要求也越来越高,尤其是网络技术和多媒体技术的出现,促使信息检索技术也不断地发展。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索发展;二是信息资源的网络化和分布化,向基于概念、超文本信息和多媒体信息检索技术发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人们利用信息提供更方便快捷的手段。
(1)信息量大,信息形式多样,表现为分散性和无序性。
(2)语言种类繁多。
(3)具有更为广泛的应用领域。传统的信息检索系统往往使用主题词表进行文档的标引,检索系统所处理的文档也是基于特定应用领域。在网络环境下,信息检索系统所处理的文档范围覆盖许多不同的学科、不同的应用领域、不同背景的用户,如何准确地标引和检索相关文档,提高用户的查询精度成为信息检索的主要任务之一。
(4)信息发布具有较强的实时性,信息的更新速度较快。因此,信息检索系统不仅需要能够快速标引,同时应能够将相关信息实时提供给用户。
(5)检索操作简便,界面友好,交互功能强,允许用户更多地参与信息检索,费用低。
(6)检索速度快,原文可获得性高。
计算机检索的原理,与手工检索的原理在本质上相同,但又有所差别。计算机检索的基本原理是计算机将输入计算机检索系统的用户提问标识(检索词)与已贮存在系统中数据库内的文献标识特征(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献信息。手工检索时,检索策略是由人脑记忆的,匹配比较是通过人对检索工具的手翻、眼看、大脑不停思考和判断而完成的。这种匹配比较具有概念思维性、随机应变性,可随时修改检索策略。而计算机检索是计算机按照人们给定的检索策略,在机读数据库中进行高速、机械匹配比较而完成的。所以,现在我们所应用的计算机还不具备人的那种概念思维能力,也没有人脑那种随机应变能力。它是按照人们给定的字符串去进行机械的匹配比较。
1.按照检索的结果分
(1)线索检索:这种检索的结果是有关文献的题录信息。通常包括文献题名、著者、出处、文献内容提要等。检索者可按照题录信息提供的线索索取文献的原文。在生物医学领域,这种数据库检索系统有中国生物医学文献数据库(CBM)、中国中医药期刊文献数据库、中文生物医学期刊数据库(CMCC)等。
(2)全文检索:这种检索的结果是有关文献的全文信息。全文检索是将文献全文存储到数据库中,并建立了与线索检索基本相同的检索途径。因而在检索操作上与线索检索并无本质差异,但得到的检索结果是文献原文而不仅仅是其线索。这种数据库检索系统有“中国知网”(CNKI)、“万方数据”、“重庆维普”、“超星数字图书馆”、“读秀”等。
(3)多媒体检索:这种检索的结果是有关文献的全方位立体信息,如声音、图像、图形、文字等。与一般文本信息相比,多媒体信息具有直观、形象和内容丰富的特点。因此,在医学信息检索中,多媒体检索是一个重要部分。这种数据库检索系统有“爱迪克森多媒体资源库”、“Primal互动3D解剖学系列数据库”、“好医生医学点播课堂”等。
(4)超文本检索:这是一种新型的信息检索方式,是网络技术发展、普及的结果。与上述检索方式不同,它是通过检索已经链接好的存贮有文本等信息的结点来获取文献信息,是网络信息检索与浏览的主要手段。医学信息的超文本检索一般采用综合型或医学专业型搜索引擎来进行,如谷歌、百度、中医药搜索等。
2.按照文献数据的载体分
(1)光盘检索:这是一种利用光盘数据库检索文献的方式。其特点是光盘存储容量大,占据物理空间小,读取速度快。但只能在局域网中应用,用户数有限。另外对硬件有一定的要求,特别是随着光盘数据库更新量的加大,需增加光盘库或光盘塔,或增加服务器容量,硬件费用较高。医学领域常用的光盘数据库有中国生物医学光盘数据库、中文生物医学期刊数据库、MEDLINE等。
(2)网络检索:这是一种利用网络数据库检索文献的方式。其特点是检索简单、灵活、速度快、链接方便,不受时间、地域范围的限制,在开放的信息环境中可实现跨地区跨国界的检索。现在各种线索性或全文性的数据库均有网络版,检索者可通过网络进行有偿或无偿检索。网络检索已经发展成为现代文献检索的主要方式。
进行计算机信息检索,一般来说要经过以下基本程序:分析检索课题,选择检索系统及数据库,确定检索词,构建检索提问式,上机检索并调整检索策略,输出检索结果。
1.分析检索课题
利用计算机信息检索系统获取文献信息的用户,一般分为直接用户和间接用户两种类型。直接用户是指最终使用获得的信息进行工作的用户(如科研人员,管理者,决策者等);间接用户是指专门从事计算机检索服务的检索人员。检索人员在接到用户的检索课题时应首先分析研究课题,全面了解课题的内容以及用户对检索的各种要求,从而有助于正确选择检索系统及数据库,制定合理的检索策略等。分析检索课题时应从以下几方面进行。
(1)弄清用户信息需求的目的和意图
在检索之前,首先必须明确检索目的,也就是说,要清楚进行信息检索是为了什么,收集信息的用途是什么,因为不同的目的所需的信息内容不同,不同的信息存在的形式也有所不同,那么所使用的检索手段和方法也就有所不同,所以明确检索目的是十分重要的。
(2)分析课题涉及的学科范围、主题要求
明确检索信息内容涉及的主要学科范围,主要考虑所需信息是属于单一学科、多学科,还是交叉学科的范围,有针对性地选择数据库和文档。
主题分析,检索目的和意图不同,主题分析选取的主题范围的广度和深度则不同。若要系统、全面收集文献信息,选取主题范围的面要宽一些,泛指性要强一些;若要参考或借鉴文献信息为某一技术问题提供解决的方案,选取主题范围的面要窄一些,专指度要高一些。
(3)课题所需信息的内容及其特征
根据课题的内容,深入分析主题内容的目的,是要明确课题检索的要求,找出课题需要解决的关键,从而形成反映课题中心问题的主体概念。认真分析检索课题所包含的概念及概念与概念之间的逻辑位置关系,选择能够确切表达课题的主题词做检索词。当课题比较生疏时,应当首先利用百科全书、图书等弄清楚概念,了解课题的有关专业知识,弄清楚课题的内容和要解决的问题以及解决该问题的初步设想等,进而确定检索的主题范围。
(4)课题所需信息的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等
(5)课题对查新、查准、查全的指标要求
2.选择检索系统和数据库
在全面分析检索课题的基础上,根据用户要求得到的信息类型、时间范围、课题检索经费支持等因素综合考虑后,选择检索系统和数据库。正确选择数据库,是保证检索成功的基础。选择数据库时必须从以下几个方面考虑。
(1)数据库收录的信息内容所涉及的学科范围
包括文献来源的种类、数目及其专业覆盖面;数据库中的文献记录数量,即数据库规模的大小。从内容上,考虑数据库对课题的覆盖和一致性,比如应综合考虑数据库收录是否齐全、编制质量高低、使用是否方便等因素。
(2)数据库收录的文献类型、数量、时间范围以及更新周期
在选择数据库时,还应考虑数据库收录文献的时间范围;而更新周期是指从以此文献出版到被收录在数据库中的时间。
(3)数据库所提供的检索途径、检索功能和服务方式
至于如何选择数据库,一是查阅“数据库目录”或“数据库指南”;二是根据系统所提供的数据库总索引文档联机选择数据库。
3.确定检索词
检索词是表达文献信息需求的基本元素,也是计算机检索系统中进行匹配的基本单元。检索词选择正确与否,直接影响着检索结果。在全面了解检索课题的相关问题后。提炼主要概念与隐含概念,排除次要概念,以便确定检索词。检索词的确定,一般有以下几种方法:
(1)先选用主题词
当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而可获得最佳的检索效果。
(2)选用数据库规定的代码
许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码,化学文摘数据库中的化学物质登记号。
(3)选用常用的专业术语
在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。
(4)选用同义词与相关词
同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。
4.构建检索提问式
检索提问式是计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成。检索提问式构建得是否合理,将直接影响查全率和查准率。构建检索提问式时,应正确运用逻辑组配运算符:
(1)使用逻辑“与”算符可以缩小命中范围,起到缩检的作用,得到的检索结果专指性强。查准率也就高。
(2)使用逻辑“或”算符可以扩大命中范围,得到更多的检索结果,起到扩检的作用,查全率也就高。
(3)使用“非”算符可以缩小命中范围,得到更切题的检索效果,也可以提高查准率,但是使用时要慎重,以免把一些相关信息漏掉。
另外,在构建检索提问式时,还要注意位置算符、截词符等的使用方法,及各个检索项的限定要求及输入次序等。
5.确定检索策略
所谓检索策略,就是在分析信息需求实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。据此,可以看出,编制检索策略实际上包括了选择检索词与编制检索提问式这两步,除此之外,一个检索策略还应该对检索时可能的检索结果作出预测,并事先提出相应的对策,这一步中的作业还应包括打印方式、格式、数量的确定。
计算机检索策略特别是联机检索的策略的研究近年来得到人们的广泛重视,并出现了各种各样的检索策略。如:最专指面优先策略、最少记录面优先策略、积木型概念组策略、引文珠形增长策略和逐次分馏策略。
6.上机检索并调整检索策略
构建完检索提问式后,就可以上机检索了。检索时,应及时分析检索结果是否与检索要求一致,根据检索结果对检索提问式作相应的修改和调整,直至得到比较满意的结果。
(1)检索结果信息量过多
产生检索结果信息量过多的原因可能有以下两点:一是主题词本身的多义性导致误检;二是对所选的检索词的截词截得太短。在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。调整检索策略的方法如下:
①减少同义词与同族相关词
②增加限制概念,采用逻辑“与”连接检索词
③使用字段限定,将检索词限定在某个或某些字段范围
④使用逻辑“非”算符,排除无关概念
⑤调整位置算符,由松变严,(F)—(w)
(2)检索结果信息量过少
造成检索结果信息量少的原因有以下几点:首先,选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;其二,同义词、相关词、近义词没有运用全;其三,上位概念或下位概念没有完整运用。针对这种情况,就要考虑扩大检索范围,提高检索结果的查全率。调整检索策略的方法如下:
①选全同义词与相关词并用逻辑“或”将他们连接起来,增加网罗度;
②减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念;
③去除某些字段限制;
④调整位置算符,由严变松,(w)—(F)。
7.输出检索结果
根据检索系统提供的检索结果输出格式,选择需要的记录以及相应的字段(全部字段或部分字段),将结果显示在显示器屏幕上、存储到磁盘或直接打印输出,网络数据库检索系统还提供电子邮件发送,至此,完成整个检索过程。
(1)提供多维、多层检索。
(2)具有强大的组配、扩检、缩检能力。
(3)扩大标引的范围,加大文献检索点的数量。
(4)不仅提供受控语言检索,还提供自然语言检索方法。
(5)开发新的检索技术,如人工智慧、模糊逻辑、概念检索等,用户可以用自然语句提问。
(6)能够对检索词进行加权处理,对检索结果进行排序。
(7)提供超媒体的检索。
(8)消除语言不通障碍。
(9)更具个性化的检索服务。
1.相同点
(1)二者皆是对用户信息需求与信息源比较匹配的过程
不论是手工检索还是计算机信息检索,都存在用户信息需求与信息源的比较匹配过程,没有比较匹配过程,检索便不称其为检索,就会丧失检索活动的本意。
(2)信息的逻辑组织相同
尽管手工检索的信息在实体形式及存取方式上有根本的不同,但二者在对信息的逻辑组织方面可以一致,因为信息内部的逻辑关系不决定于信息的实体形式及存取方式。
(3)比较、匹配的对象与方式相同
两种检索方式既可以将用户信息需求与一次信息源直接作比较、匹配来查询信息,也可以通过将用户信息需求与一次信息源著录标引的产物——二次信息源进行比较、匹配,并通过二次信息源与一次信息源间的链接来查找一次信息源。
2.不同点
(1)信息源载体形式及记录方式的不同
前者载体形式主要为磁带、磁盘、光盘等形式,适用于计算机对信息的存储与读取,而后者主要为纸张形式,只适用与人对信息的记录与阅读。
(2)信息管理的实现工具与技术不同
计算机信息检索过程中的信息管理既可以以手工的方式通过计算机对磁性或光盘载体所存储的信息进行逻辑及实体管理,也可以通过编程等方式利用计算机自动进行信息管理,而手工信息检索过程中的信息管理则只能通过人工方式对纸张实体的操作。
(3)信息特征著录标引形成二次信息的过程可以不同
计算机信息检索既可以以手工录入的方式形成二次信息,也可以通过编程等方式使计算机进行自动著录标引以生成二次信息,而手工信息检索则只能以手工记录或录入的方式形成二次信息。
(4)用户信息需求的提取技术方式不同
在手工信息检索活动中,用户一般自己亲自利用信息检索工具进行信息检索,而在计算机信息检索过程中,信息检索的关键步骤主要由计算机检索系统完成,用户只需要将反映信息需求的检索标识输入计算机,在计算机完成检索后,接收计算机向用户发送的检索结果即可。
(5)用户信息需求与一次信息或二次信息比较匹配方式的不同
在手工信息检索过程中,用户通过人脑实现一次信息或二次信息实现信息需求与信息源的匹配,而在计算机信息检索活动中,用户的信息需求与一次或二次信息源的匹配工作由计算机完成。
(6)检索结果生成与发送实现方式不同
手工信息检索活动中,一般由用户通过浏览一次或二次信息源得出检索结果,然后由信息源管理者根据用户的检索结果提供用户所需要的信息源。而在计算机信息检索活动中,用户的检索结果由计算机根据用户的检索需求及预先设定好的检索策略将二次信息源所包含的信息发送给用户,然后用户根据计算机所提供的二次信息查询其对应的一次信息,计算机也可以直接将一次信息源的信息提供给用户。