术语数据库(Terminological Data Bank/Terminology Bank)
目录 |
术语数据库是指专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的一种源数据库,各种电子化辞书也包括在内。
术语数据库可根据不同标准分为不同类型:
可以按目的分为:①用于术语标准化和术语协调的;②用于科技交流的。
按用户分为:①为翻译工作者建立的;②为科技专家建立的;③为一般公众建立的。
按对语言态度分为:①起规范作用的;②纯描述性的;③提供数据用的,等等。
冯志伟先生有个分类:第一类是面向概念的术语数据库;第二类是面向翻译的术语数据库;第三类是面向特定领域的术语数据库。
术语库有许多现实的和潜在的用途。现实的用途主要有以下几方面:
(1)翻译的辅助工具。如前所述,早期的术语库就是为了翻译人员服务的。目前,辅助翻译仍是它的主要功能之一。将来,它还有可能成为机器翻译的一种工具。
(2)辞书编纂工具。一个学科领域若有一个高质量的术语库,有的专业词典就可以直接从术语库中派生出来,或者作为词典的主要数据来源。而且,以后的词典修订再版工作也就再变得简便多了。
(3)信息检索的工具。术语库可以作为不同的数据库和检索系统的一种连接工具或中介,帮助用户克服检索语言方面的障碍。另外,还可以编制和管理叙词表提供高质量的数据源。
(4)术语标准化的工具。术语库中的信息来源于术语标准化活动,同时,又可以反过来支持有关机构的标准化活动,便利术语的审定、协调等工作。
术语库的潜在用途主要表现在自然语言处理和知识工程方面。人们预测,汇集了术语学和术语标准化工作成果的术语库,可提供有关概念的性质、概念之间的关系、概念体系、概念网络等知识类型。所以,它对自然语言理解、人工智能、专家系统等研究有潜在的应用价值。比如,它可能成为一种有用的领域知识库或语言知识库,或者为自动标引和自动分类提供一种良好的机器学习环境。
术语库用数据库方式管理各种术语信息。它的文档结构一般也是由主文档和相应各种索引文档组成。为了不使术语库的内部管理与对外服务相冲突,有的术语库还建立有两种不同的主文档:工作文档和传播文档。
主文档的每条记录都以特定的术语为描述对象。每个术语建一个记录,详细描术该术语的各种属性。记录内容的详细程度决定了术语库的功能。术语记录一般字段较多。在一般术语库中较常见的数据项或字段有:术语名称、术语定义(包括必要的图表说明)、分类代码、术语来源、学科领域标记、词频、语言、词性、上位词、下位词、同义词、准同义词、同音异义词、缩写词、外文对应词、音译词、层次编号、可靠性等级等。其中,可靠性等级是根据术语的标准化或规范化程度来确定的。例如,来源于国际标准或国家标准的,可靠性等级就高。
要建造一个实用可靠的术语库,需要具备许多条件。首先是要有高质量的术语数据。这种数据应主要来自各学科领域的术语标准化活动及其成果,如各种术语标准、命名规则、权威的百科辞典、经典著作、成熟的专业教科书等。上述数据源提供的术语数据可能有不完全或不一致的地方,故需要组成专门的工作班子和专家咨询机构,从事数据的检查、补充、协调统一和审定工作。‘其次,要选择好相适应的硬件和软件。计算机系统应具有较大的存储容量、较快的运算速度和输入、输出设备。应用软件必须能有力地支持术语库的内部编辑管理和对外服务。在满足内部管理需要方面,应用软件应具有对术语数据的一致检查、词汇分析、语法分析、多重排序等功能。在满足用户的查询需要方面,术语库的主记录应设置较多的可检字段,以便建立各种倒排档,支持用户从不同角度来查询术语信息。一般来说,术语库应能支持下列不同的查询和输出:
(1)特定的术语;
(2)特定的术语类型;
(3)特定的学科领域;
(4)特定的技术系统或设备类型;
(5)指定的录入日期(检索术语的新颖性);
(6)特定的术语源;
(7)特定的语言组合;
据报道,有的术语库还可与超级文本相结合,向用户提供集图文和声音于一体的形象生动的术语信息。