知识图谱(Mapping Knowledge Domain)
目录 |
知识图谱是指对大量科学文献新信息,借助于统计学、图论、计算机技术等手段,以可视化的方式来展示科学学科体系的内在结构、学科特点、研究前沿等信息的一种计量学方法。
知识图谱,也称为科学知识图谱,它通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。科学知识图谱描述的对象主要包括科学技术活动中从事知识生产的人、作为知识载体的论文、期刊、显性或者可编码化的知识,以及科学研究过程。其基本原理是基于文献单元(科学家、引文、机构、关键词、期刊等)的相似度分析,根据各种数学和统计学的原理来绘制科学知识图谱。科学知识图谱已经历了从二维图表、三维构型(3DCN)、多维尺度图谱(MDSM)、社会网络分析图谱(SNAM)、自组织映射图谱(SOM)、寻径网络图谱(PFNET)等几个发展阶段。
在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。科学知识图谱分析所使用的数据主要来源于美国汤姆逊公司的科学引文索引(WebofScience),该数据库整合了SCI、SSCI Conference Proceedings Citation In-dex-Science等大型知名数据库,所收录的期刊都经过严格的遴选,来源期刊及数据库均具有国际性、权威性和前沿性;因此,利用该数据库提供的相关数据绘制科学知识图谱保证了数据的可靠性和权威性。当然,中国期刊全文数据库、中文社会科学引文索引数据库等中文数据库也是绘制知识图谱的主要数据源之一。
科学知识图谱的绘制过程大体包括以下4个环节:
1)数据准备阶段。即确定和获取原始数据,形成原始数据空间。一般是从数据库中下载相关主题的文献信息。
2)数据提取阶段。从原始数据中析取需要可视的数据,形成可视化数据空间,即通过软件形成共作者、期刊共引、共词等计量单元的共现矩阵。
3)可视化映射。即采用一定的映射算法把可视化数据空间映射到可视化对象。
4)借助于相关学科的背景知识,对形成的科学知识图谱进行深入解读。