目录 |
网络灰色信息是指在互联网上存在的,非常规发行、并且允许用户免费或在一定范围内收集、整理和利用的信息资源。其涵盖面非常广泛,包括网站的商业广告、会议文献、个人网页等⋯ ,同传统意义上的灰色信息一样,互联网上的灰色信息也是国内外图书情报界公认的重要情报源。
网络灰色信息是以网络为载体形式的灰色信息,它在当前浩如烟海的网络信息中占很大比重。网络信息大致分三种:一是发布的白色信息,即公开信息;二是流通范围狭窄、内容保密的黑色信息,即商业秘密;三是灰色信息,它处于从网络公开信息向商业秘密过渡的灰色地带。在现有法律规定中,对灰色信息的获取是合法的,属于正当竞争,不需负任何法律责任,而对商业秘密的窃取是非法的,属于不正当竞争,应负法律责任。我国《反不正当竞争法》中就明确指出,窃取商业机密属于违法行为,应受到法律的制裁。出现的诸多商业纠纷和网络侵权案件,控辨双方争论的根本在于被告究竟是获取的法理依据和界定被告方违法与否的终极尺度。不可否认,网络灰色信息和商业秘密具有一定的共性。首先,两者都非公开发表,都具有一定隐蔽性;其次,对两者的搜集都存在强烈的竞争性和对抗 性,成功获取两者都很有可能在行业竞争中做到“知己知彼”,从而占领宝贵的信息高地,在竞争中获得较大优势,甚至成为抢占市场、击败劲敌的关键一笔。
(1)范围的模糊性。灰色文献是一种过渡性质的文献。一般来说,网上公开发行的电子期刊、电子书籍,不管是免费使用还是有偿使用,均属于白色文献。在网上发布的各类没有公开发行版权的电子信息资料,归于网上灰色文献信息。由于网上灰色文献信息范围越来越广,且与其他文献信息的分界线越来越模糊,因此,网上灰色信息资源范围更难确定。
(2)发布的高自由度。从文献信息控制的角度看,灰色文献信息是处于受控边缘的文献形式。信息社会到来会加剧信息的无序状态,灰色文献的自由性和失控性,使其在互联网上的发布具有更高的自由度,即使采用有效措施,也不可能回到传统信息文献的受控状态。
(3)数量的无限增长趋势。互联网上的信息资源数量极大,作为网上信息资源组成部分的灰色文献信息,涉及人类生活的各个方面,深入到经济、政治、文化、科技、军事等各个领域,网上灰色信息正朝着无限量的方向发展。
(4)出版的时效性。各类网站发布的灰色信息具有极强的针对性和实用性。对这些信息的更新,少则一两天,多则一个星期或一个月,与传统的纸质文献相比,时效性更强。
(5)收集的便利性。传统的纸质灰色文献多为内部出版发行,印刷数量有限,报道范围狭窄,加之受保密制度和专业的限制,给灰色文献收集带来了很大困难,而网上灰色文献以光盘、硬盘等介质进行存储,利用互联网可以快速传送,只要供方愿意,使用方即可随意复制使用,不受时空限制。网络环境中的信息传播只是非网络环境中信息传播功能的一种延伸和发展。它所要实现的基本目的和功能在本质上和非网络环境中的信息传播是一致的,只是实现的环境、手段和数量不同。和非网络环境中的信息传播一样,网络环境中也存在通过使用共同的软件进行会话、交谈、会议、信件往来等纯粹私人的或集团性的传播方式,也存在着由社会集团所控制的和各类社会组织所提供的比较制度化的传播方式。网络灰色信息资源区别于非网络灰色文献的一个重要特点,就是网络灰色信息资源存取和利用的多样性。
基于对上述的分析,有必要引入网络灰色信息是接收者在竞争中的获胜法宝,其有用性恰是价值所在。所谓可用性,亦可称网络灰色信息的价值性,是指网络灰色信息在多大程度上能满足接收方的需求,以及接收方利用该信息在实践中所获取多大的利益。这是度量是否有价值、有必要搜集相关网络灰色信息的判断依据,可借助经济学中产出和投入的概念来分析网络灰色信息的价值性。所谓产出,也就是指收益,即带来的有形收益和无形收益的总和。而投入是指搜索、获得、整理相关网络灰色信息需投入的人力、物力、财力的总和。通过一些经验数据估算出获取网络灰色信息所需要的投入,以及据此可获得的利益,然后计算出二者的差值。如果价值性为负值或接近零值时,就没有必要进行相关灰色信息的工作。在工作中,通过价值性的合理判断,可以判断出哪些主题的灰色信息需要搜集、哪些不需要,从而集中力量,解决那些最需要解决的问题,搜集最能带来效益的相关灰色信息,达到效益是大化。
网络灰色信息对接收方而言,具有巨大的价值,但它的搜索和开发尚存在很大的障碍。主要原因有两个:其一,网络灰色信息不同于网络上的显性信息,它数量庞大、内容纷繁芜杂、地址分散、数据类型多、随意性大且没有确定的信息源;其二,由于网络灰色信息研究处于起步阶段,还没有构建出完整的理论体系。在缺乏理论和实践指导的情况下,可从网络端和客户端两方面着手,进行优化工作。
1、优化网络灰色信息环境
当今社会,网络发展、网络信息膨胀的速度已经大大超出了信息整理和信息有序化的速度,尤其是网络灰色信息基本处于无序化状态,这是现阶段处理网络灰色信息的最大瓶颈。只有规范相当比例的网络灰色信息,同时对其进行标准化或准标准化处理,才能从本质上解决灰色信息的搜索难题。这个目标需要政府、相关机构、网络管理者的共同努力才能实现。综合国内学者的研究,可从以下几个方面着手:
(1)重视网络灰色信息的理论研究加大理论研究力度,使灰色信息的检索有理可依。国际上已先后三次召开了有关灰色信息的会议,对灰色文献和灰色信息的研究已经大范围展开。但国内这方面的研究尚处于起步阶段,需要投入更多的精力来构建理论框架,跟上国际步伐。
(2)成立专门的机构这类机构应隶属于数字图书馆系统或网络信息中心,专门负责网上“灰色信息”的定位、价值分析、简化、整序、重组、规范等一系列工作,归纳出一套搜索各类灰色信息的标准化程序,并在网络上实践证明,使灰色信息的检索有章可循。
(3)相关人才的培养21世纪是以人为本的世纪,人才是解决一切问题的关键。网上“灰色信息”的搜索和处理的专业人员应具备较高的综合能力和素质。实现从传统的图书馆组织者到网络电子资源的组织者这一身份的转换。
(4)检索方法的改进由于人类迄今尚未找到语义信息表示方法和测度单位,只能依靠字面含义来组织信息,因此检索效率低、准确性差。这对处在起步阶段的灰色信息检索来说,无疑是一个巨大的障碍,为提高网络灰色信息的检全率和检准率,检索方法急需改进。值得欣慰的是,随着模糊查询、语义查询等技术的不断发展,这一情况会有所改观。
(5)信息的标准化这主要是信息管理过程中的工作。网络灰色信息星罗棋布于互联网的各个角落,离散度高、系统化差,加上格式、语言等的千差万别,其利用的难度远远超过传统正式出版物中线性分布的信息,为此,对这部分信息的管理应尽量做到:词条的准确化;数据库(无论书目、文摘或全文数据库)格式的标准化;编目条例、著录标准的规范化等。
(6)灰色信息知识的普及对于灰色信息这一概念,相当一部分情报专业的人士都没有正确或全面的认识,而对广大非专业人士来说,更是玄而又玄。政府、相关部门、图书情报机构都有义务在全社会,至少是高学历人群中普及灰色信息的相关知识,如出版相关书籍,邀请专家在图情部门或各高校内开展以讲座、报告会等为主要形式的知识传播,普及网络灰色知识。
2、提高个人检索网络灰色信息的能力
作为网络灰色信息检索的直接操作者,个人检索能力的提升无疑是提高全社会检索效率的必要保证,可以通过以下三种途径来完成。
(1)访问相关信息资源的网站互联网上有许多学科的大型综合型网站,集中了许多学术价值高的灰色文献信息资源,如中国经济信息网站、北大法律网站等。一些学位论文数据库,如CNKI的《中国优秀博硕士学位论文数据库》,以及具有权威性的学术会议论文数据库,如《中国学术会议通报》等,都值得操作者去点击、利用。
(2)利用网络智能搜索引擎 以Google为代表的第二代搜索引擎检索内涵丰富,且基于人工智能技术,是网络灰色信息的好帮手。这类模糊分类的搜索引擎对灰色信息进行搜集,可以搜索到更全面、更丰富、更准确的灰色信息。同时,由于大家对其较为熟悉,操作也得心应手。
(3)利用自身的人际关系网人际关系网是搜集包括网络灰色信息在内的一切灰色信息的有效途径。借助人际网络的发散性,通过P2P3传输、电子邮件等方法可大大提高灰色信息的搜集率和可信度,也可促进了网络灰色信息与其他灰色信息的融合。
1、互联网上灰色文献的信息源
(1)单位概况。网上信息发布的基本场所是散布在世界各地的网站,而每一个网站都分属于不同的单位和机构,几乎所有的网站都免不了介绍其管理机构的基本状况,以扩大本单位的知名度和影响力。
(2)动态报道。这类信息的时效性最强,更新速度最快。不同网站对其标识也不尽相同。主要包括网上发布的新闻报道、新闻追踪分析等,比如新浪网对国内外新闻、体育、娱乐、政治等各方面重大时事报道信息非常丰富和全面,而企业网站中的动态报道集中在公告和关于企业最新动态的栏目中。
(3)网站广告。网站广告在网络世界中占有极其重要的位置,它不受空间范围的限制,可以产生世界性广告效应,并且具有广告效益的可准确计量特征。对于商家来说,网站广告有着报刊电视广告无法比拟的优越性,广告收入也是各商业网站得以生存发展的经济支柱之一。商家的青睐和网站的生存发展需要使网上广告所占幅面不断增大,使广告信息遍布于互联网上。
(4)用户信息。网站与用户的相互交流,依靠网站提供的公共界面来实现。用户要访问网站的资源,根据访问内容的不同会受到不同的制约。比如,新用户要申请免费电子信箱或进入聊天室,一般会被要求进行注册,老用户则被要求输入注册号或密码。通过这种方式,网站可以掌握用户的个人主页、注册、电子邮件和聊天等大量信息,这些信息也为用户之间的相互交流提供了保障。
(5)索引数据库。很多网站在网上发布诸如专题导航之类的索引型信息,用户可以依据索引找到相关资源。索引信息数据库是网上灰色文献信息资源最重要的二级信息源,它通过对信息的再次加工整理,提供最快的检索通道,增强了原始信息源的利用效率。
2、互联网上灰色信息资源的挖掘与利用方式
信息挖掘和信息收集是不同概念。信息收集是指通过各种方式获取所需要的信息;而信息挖掘指从各种各样的信息源中,抽取先前未知的、完整的信息,来做关键的业务决策。信息挖掘主要利用了数据挖掘技术,从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的有用信息。信息挖掘是基于信息收集基础之上的。
(1)广泛利用各种类型的搜索引擎,挖掘网上的灰色信息。搜索引擎是针对网上信息爆炸,为解决用户的查询而设计的,主要有两类,即分类目录式和主题检索式。用户利用哪种搜索工具,这取决于所要查询的具体问题。利用搜索引擎收集灰色信息,要注意避免由于搜索引擎本身的技术问题带来的不利影响,比如“关键词”问题,很多搜索引擎都屏蔽一些本身缺乏实际意义或使用过于广泛的所谓的“关键词”。网络信息挖掘技术在搜索引擎上的应用很多,比如Google搜索的最大特色就体现在它所采用的对网页Links信息挖掘技术上。网络信息挖掘是目前网络信息检索发展的一个关键,如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过对用户所使用的提问式(query)的历史记录分析,可以有效地进行提问扩展(query expansion),提高查全率和查准率;可以运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。灰色信息在网上过于分散,缺乏特色主题,只有科学地使用各种不同类型的搜索引擎工具,才能有效地开展挖掘工作。
(2)建立灰色文献虚拟数据库。网上灰色文献信息只有经过系统并且有序地处理,才可能得到高效率的利用,而运用虚拟数据库技术,建立虚拟的灰色文献数据库是极为实用的方法。虚拟数据库是将各类型数据转变为以关系数据库为统一界面的系统。在网络数据源中,数据的组织形式、检索词和存取机制各不相同,它不支持统一的查询操作,要求利用虚拟数据库技术,为用户提供友好通用的人机界面。现在分类技术与虚拟数据库相互结合,就是所谓虚拟数据分类技术,它以优良的检索词组配方式,为信息类型、著作、书名等确立搭配使用的窗口。分类检索和主题检索可以相互转换,并增加自然语言查询方式,从而增强对资源的选择功能与查询功能。利用这一技术构建灰色文献虚拟数据库,可以方便地与相关站点链接,使各个检索系统的协调更加便利。虽然大多数数据库生产者还没有收集灰色文献信息的手段,但某些数据库生产者(如工程情报公司)已经在致力于灰色文献的收集工作。一些数据库的用户有时也就可能是灰色文献的生产者。例如,AGRIS(国际农业科学技术情报系统)与几个国家的全国中心合作,参与数据库的建设,自己就成为灰色文献的生产者。
(3)使用专门的信息收集系统。专门的信息收集系统是指使用专门的信息收集软件系统来获取网上潜藏的灰色信息资源。近年来,我国的软件企业也推出了简单易用的信息系统软件产品,如天下互联中国网络情报中心开发的企业情报门户系统软件(CIPS),已经成为企业情报人员的好帮手。中国网络情报中心的CIPS系统,是要为企业建立个性化信息需求的“企业的情报门户”。它是区别于大众门户网站和行业门户网站的智能互联网门户网站,是企业的门户网站。CIPS系统的最大特色,是作为企业情报门户的功能,它不是简单的竞争情报系统(CIS),更不仅是企业内部知识管理(KM),主要研究的是企业的门户(Porta1),CIPS系统是对CIS、KM、Portal的有效整合。
(4)开发数据信息挖掘技术。运用网络数据挖掘技术能够从服务器以及浏览器端日志记录中发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,根据国家或类型(.com,.edu,.gov等)进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等,这项技术已经有效地运用在电子商务中。通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性(hierarchy)组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务。目前,PDA(Personal DigitalAssistant,个人数字助理)和蜂窝移动电话都已经可以直接接受网络信息服务。这些设备的显示界面较小,因而网站面向这些设备的设计就应该突出精品化、个性化的特点,这类特色推送服务就必须采用网络信息挖掘技术。网络灰色信息的应用正在变得越来越广泛,用户对高品质、个性化的信息需求也将进一步推动学术界与实业界的研究开发工作。
(5)注重日常收集整理,建设相关馆藏。在日常工作中,应重视收集网上更新速度快的灰色文献信息资源,如动态报道,其中包含了很多具有重大信息价值的内容。信息工作人员日积月累,将这些信息收入现实馆藏。
通过以上的论述,我们设计出一个互联网上灰色信息资源挖掘利用的模式,这个模式可以分为4个步骤。
(1)资源发现。即检索所需的网络文档。首先要确定所遇到的问题,然后主要利用搜索引擎之类的搜索工具进行查找、检索。
(2)信息选择和预处理。即从检索到的网络资源中自动挑选和预先处理得到专门的信息,主要利用数据挖掘工具来进行信息的深度挖掘。
(3)概括化。即从单个的Web站点以及多个站点之间发现普遍的模式。
(4)分析。对挖掘出的信息进行确认、解释,进行结果评价,可以用可视化的工具呈现数据,目的是便于整理挖掘到的信息。
经过以上几个步骤,我们就可以将散落于互联网上灰色信息作出系统整理,得到自己所需、有利于决策的有用信息。在某个信息挖掘的过程中,有时需要重复以上的某些步骤。