目录 |
暗数据是指那些未被发掘或理解的数据,来自于大数据的阴暗面,即信息资产企业在日常业务活动中收集、处理和存储但不具备特定用途的数据。它包括尚未应用于业务、形成有竞争力的情报或对商业决策产生帮助的所有数据对象与类型。暗数据分析主要是针对文本形式的原始数据,如文本信息、文件、电子邮件、音频视频文件以及静态图像等,有时也会对深网,即没有被搜索引擎索引的网络信息进行暗数据分析。大部分的暗数据都被分类于结构造成的信息缺乏之中,而且,这些数据只被使用过一次,最后,就被储存在逻辑混乱,数量庞大的其他社群之中了。实际上,一个信息系统产生的80%的文档都未被二次使用。[2]
尚未被分析的运营数据可能含有潜在的商机。这些数据可能会产生新的收益或降低企业内部成本。
一些有价值的暗数据包括含网页访问者行为记录的服务器日志文件、显示用户体验反馈与电话定位数据(流量模式有利于制定业务规划)的用户电话记录。
无论你所在企业机构收集或存储的是什么类型的暗数据,将数据从“黑暗中解脱”出来的关键是确保你具备将其从一种形式转换为另一种形式的方法,并将其轻松地添加至你所使用的分析平台中。
实现对海量“暗数据”的价值利用和合理管控,首先要找到这些价值信息,并想方法保护好它们。因为价值信息拥有商机的同时,也面临着巨大威胁,针对这些价值信息的安全威胁也同不断囤积在“黑暗”中的数据一样,时刻存在和累积着。那么,如何降低威胁和风险?可以从以下几个方面来考虑。
数据识别
通过深度内容识别技术,对存储在服务器、数据库和文件系统的重要和敏感数据进行检查和分类,找到海量暗数据中的“特殊数据”,清楚了解这些暗数据中的敏感信息具体存放于什么位置。
数据评估
依据法规要求,针对识别到的敏感数据,评估其在存储、使用过程中的合规性,找出数据泄漏风险,及时消除隐患。
数据监控与控制
实时监控各个环节中的重要数据违规发送的风险,对重要信息、有害信息的违规外发行为进行阻止。
数据审计
对敏感信息违规获取、发布、发送的指令级、内容级审计,实现数据全生命周期合规性可视化审计。
最先提到暗数据时,我们首先会联想到它是对信息管理的一种挑战。现如今再提及暗数据的时候,我们会从一个更加理智的方面,把它看做一种管理利用现有信息的手段。由引擎驱使的就是元数据——从字面上看,就是关于数据的数据,可以在一个开放的领域内,进行确认,链接以及选取相互渗透的信息。
至于如何实现该建议,我们应该扩展自己对于元数据的使用方法,来创造一个更具整体性的商业观点,而不是局限于自身对元数据的观念。元数据包含着特殊的属性,它不仅仅和系统中的关键元素相互联系,同样,也可以智能地被项目、客户、工作流、状态栏以及其他的因子用于操控进程、分类数据。信息财产的价值只有当提及与其相关的元数据的总量,才能展现出来。
当驾驶员在路上需要物件来照亮的时候,对比于暗数据,元数据就像是一组全方位的车前灯,使用它的目的非常明确。元数据能够通过一个或多个代码库阐明这些关系,或者通过一个ERP系统和CRM系统,也能够确认信息在一个相容的环境下被读取,存储以及分享。元数据可以提供一个简明扼要的方式,来查找数据源或者历史信息,在此同时,可以确保工作流和业务流程都已被合理的管理。
更深层次的挖掘这个想法之后,就会发现,元数据也可以组成关于文件的发展和循环的信息,而这些记录更是包含了客户、流程、以及涉及到应用的创新、修订、存档、保留和销毁。完全能够和粒度细节相媲美、深度挖掘如评审、批准以及存取许可改变的确切时间戳。
正因为暗数据是大数据的萎靡面,要扭转这样的局面只能依靠对元数据的管理。而且,IT行业的管理者在管理结构的时候也会获得更多的灵活性。把元数据当做一个微锚节点加入到文件之中,可以保证所有的企业信息都是可查找的,可利用的,可输出的——无论是任何种类的文件,格式和对象均可。
在这样的模式下企业就会发现,元数据常驻的时候,重要的数据就变少了。但是,信息该被最好的分类管理,以实现信息使用和信息价值的最大化。通过单独管理元数据,组织可以获得一个更为全面的企业内容的观念,即使与元数据相关联的信息中没有出现新的文件,如审计和偏差,元数据也可以提供一个过程和流程,使之变成自己的财产。
因此,当我们把暗数据当做一种未被充分利用的信息,就可以看出元数据包含了像素,如果你愿意,照明信息资产的连通和连配,用以创造一个观察信息的360度的视角。这种对信息管理的全景方法,不仅仅将暗数据予以利用,也使得分散的信息能够被更直接的运用。