目录 |
查准率是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。
查准率= | 检索出的相关信息量 | × 100% |
检索出的信息总量 |
查准率的局限性主要表现在:如果检索结果是题录式而非全文式,由于题录的内容简单,用户很难判断检索到的信息是否与课题密切相关,必须找到该题录的全文,才能正确判断出该信息是否符合检索课题的需要;同时,查准率中所讲的相关信息也具有“假设”的局限性。实验证明,在查全率和查准率之间存在着相反的相互依赖关系:如果提高输出的查全率,就会降低其查准率;反之亦然。
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。
实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
在检索系统和数据库确定的前提下,若要提高文献检索的查准率,选择主题词范围就要窄一点,专指度要高一些,逻辑算符应选择具有缩检意义的“逻辑与”。
为了提高查准率,应在多个主题概念中选择主要概念和基本概念,删除重复概念。例如,检索“空气中铅污染问题的研究”这一课题,空气中含铅必然是污染问题,故“污染”是个可舍去的重复概念;“研究”是个广泛概念,既然是讨论空气中的铅污染,必然带“研究”性质,故亦应舍去;余下的主题概念应简化为:“空气”、“铅”,用“空气AND铅”这_组配检索,不但检准率高,而且检索效果最好。
为提高文献检索的查准率,选择主题词时应尽量避免选择外延广泛的上位词,而应增加或换用专指性较强的主题词和下位词进行检索。例如,从篇名查找有关“水果罐头加工技术”的文献,采用外延广泛的上位词“罐头”进行检索,即使利用限定词“加工”进一步限制检索范围,其查准率还是较低,检出了许多不相关的文献;选用专指词“水果”与“罐头”进行检索,大大提高了查准率,但可作参考的文献较少;相应地增加下位主题词“桔子、苹果、菠萝”与“罐头”组配检索,不但检准率高,而且选中的文献亦大大增加。
许多全文数据库采用关键词(即自由词)检索。关键词未经词形控制及词义控制,这使得检索语言中存在大量的同义词、近义词、多义词、同形异义词和词义含糊而导致理解不一的词,因此,简单的关键词检索往往会降低检索质量。为了提高检索的查准率,在选择主题词时应选择规范的专业术语,例如用“泡沫塑料”代替“海绵”,用“维生素c”代替“抗坏血酸”或“维他命c”,用“偏瘫”代替“半身不遂”等。对于本身具有多义性的关键词,可采用与主题密切相关的其他主题词进行限制,例如查找有关“DNA脱氧核糖核酸”的文献,若用“DNA”进行检索,从篇名查得文献较多,这使检索结果包含了大量不相关的文献;如果用“DNAAND脱氧核糖核酸”进行组配,结果命中文献较少,大大提高了查准率。
在文献检索过程中,单个主题词的计算机检索比较简单,2个或2个以上的主题词则需要先根据检索课题的要求对主题词进行组配。“逻辑与”组配具有缩检功能,因此要提高检索的查准率,可用“AND”连接一些能进一步限定主题概念的相关检索项。例如,查找“转基因作物安全性”方面的文献,检索式可制订为:转基因作物AND安全性。