文/邢陆宾 毛基业
定义一个时代应该以其主要触发点和发展驱动力为基点。
大数据的两个认知误区
1. 大数据能够定义一个时代吗?
每一个时代都应该从科学和历史的角度去定义。
人类近代文明史是从16世纪后期太阳中心论的突破性创立为标志,从此人类开始了正确认识地球和宇宙关系的绝对时空时代。
18世纪中期以蒸汽机、纺织机械为代表的第一次工业技术革命把世界带入了机械化生产时代。
一百年之后电力技术的发明和应用开启了第二次工业技术革命的新能源时代,人类社会的生产力和生产效率得到了空前提升。
20世纪相对论和量子理论的建立是人类第二次也是至今为止最后一次突破性科学理论革命,深化了人类对大自然和世界万物的认知,使人类进入了相对时空时代。
电子计算机的发明触发了以信息技术为特征的第三次工业技术革命,世界从此进入了信息技术时代,至今仍在持续快速发展。
基于以上科技发展史,当前社会仍处于第三次工业技术革命框架之下,即信息技术时代。
其中,信息技术,以及以信息技术为驱动力的航天科技、能源科技、生命科技是这一时代的四大关键领域。大数据则是当前信息技术时代所有领域不可或缺的基础资源,但不足以单独定义一个时代。
然而,人工智能、虚拟现实、物联网及元宇宙等信息技术的快速登场,一些业内人士和媒体提出了“目前世界已处于第四次工业革命时代”,即“智能科技革命时代”的说法。
对此,本文有不同看法。
定义一个时代应该以其主要触发点和发展驱动力为基点。
当前的科技进步仍然是以电子计算机的发明为触发点,以信息技术为驱动力持续发展的。人工智能、虚拟现实、物联网、元宇宙等四大科技领域依然是以信息技术为触发点和驱动力向更高层次发展的智能信息技术,仍然沿着信息科技革命的方向发展,并未超出信息技术的范畴。
所谓信息科技革命时代实质上涵盖并体现了一系列最新的智能信息技术。所以称当今依然处于以信息技术为代表的第三次工业技术革命时代是恰如其分的。
2. 2013年是大数据元年吗?
2013年前后,舆论界乃至科技界普遍出现了所谓“大数据元年”的提法,致使人们误以为大数据是刚刚问世的全新技术领域。
这种误解主要有两方面原因:
○ 一是对大数据的产生背景缺乏明确认识。
无论是用于记录的绳子和甲骨,还是构成人体的基本元素都是碳,所以人们把这些信息定义为碳基信息数据,五千年人类文明发展的过程正是使用碳基信息数据的历史。
电子计算机的发明开启了电子信息时代。鉴于电子计算机芯片的主要成分是硅,人们把电子信息和数据定义为硅基信息数据,而硅基信息数据应用发展的历史至今不足八十年。
大数据科学的定义应该是人类碳基信息数据发展延续到硅基数据的自然演化。
因此,人类历史中不存在所谓“大数据元年”。
○ 二是对大数据量级迅速增长的技术背景缺乏了解。
电子计算机的诞生并未使数据量出现几何级增长,只是KB量级。真正使数据量剧增的是计算机操作系统的出现,尤其是微软视窗操作系统的普及,使得数据量迅速增加到MB与GB量级。
20世纪90年代,互联网的发明使得数字化多媒体信息融入巨大的网络空间,开启了Web1.0互联网阶段,数据量开始以几何级数增长,从GB、TB、PB增长到EB量级。
进入21世纪,社交平台的出现颠覆了Web1.0阶段只读型互联网模式,所有社交网络的使用者不仅可以读取信息而且可以创建并改动信息,Web2.0读写型社交互联网迅速普及。
2013年,全球有65亿人使用移动式计算机和手机上网,其中多达19亿人使用社交平台读写生成新的数据,于是,全新的海量数据单位ZB相应而生。
据IDC报道,2013年全球数据总量达到4.4ZB(万亿GB)。这一天文数字的数据量使人们误认为大数据是2013年从天而降的新生事物,而错误地称2013年为“大数据元年”。
事实上,造成大数据指数级增长的真正原因是读写型移动社交互联网Web2.0的普及以及物联网广泛应用导致的硅基数据量级的跃升所致。
忽略数据历史与技术发展过程是产生所谓“大数据元年”错误认知的本质原因。
对于大数据的认知疏漏
1. 对于大数据属性的认知疏漏
当前,科技界普遍从4V属性关注大数据的开发与应用,即大数据体量(Volume)、种类(Variety)、处理速度(Velocity)及价值(Value),实践中对前三个方面考虑较多。
然而,随着大数据体量和种类的增加以及使用要求日益严格,大数据粗糙的质量、较低的使用价值,以及脆弱的安全性和持续能力等问题亟须解决。
面对这些挑战,本文进一步强调大数据的价值(Value)属性,并引入安全可靠性(Veracity)属性,将其纳入大数据发展战略关注范围,即基于5V的大数据战略。
为什么要强调大数据的使用价值与质量现状?
因为只有可以被挖掘、分析和使用时,大数据才具有实际价值。
根据 IDC 《第七次数字宇宙报告》,2013年全球数据供应量达到 4.4ZB,但实际可被分析的数据不到总量的 5%。即使这些数据全部都可以被标记和分析,也只有不足22%的现有数据具备实际应用价值,其余大部分都被视为垃圾数据。
并且,目前大数据的商业分析结果中有大量的虚假关联信息。使用劣质数据产生的变量越多,显示的相关意义也就越多。日益增多的低质量大数据资源将对人类社会造成巨大的数据污染。
同时,学术界也越来越重视大数据的不可靠性,数据信息的真伪在某种程度上可以被伪科学操纵。如何鉴别数据信息的真伪,如何获得更高质量的数据已成为人们当下普遍需求。
造成大数据低劣质量和虚假关联的主要原因是算法过于陈旧, 无法应对大数据迅速扩大的来源和增加的种类。
当前大数据是基于常规的数据类型及多媒体信息,处理与分析依赖常规智能型(Intelligence)算法,只能提供基本智能层面的分析结果。
随着物联网、人工智能、虚拟现实数据的大量产生,传统算法已经难以提供对于这些新型数据类型的辨析方式,无法满足高端智能和精确数据的算法需求。
因此,开发具有独创性的新型算法是大数据发展战略的迫切任务。
大数据的安全可靠性(Veracity)现状如何?信息安全性、可靠性、原始性是传统互联网的基本宗旨,然而这三方面至今都无法完全保证。
在大数据安全性方面,拒绝服务(DoS)是黑客对互联网采用的最普遍、最有威胁的攻击方式之一。
从技术角度来说,传统互联网的拓扑结构是采用中心节点管控的客户服务器(C/S)模式,即一旦某一层面的中心节点服务器遭遇攻击而陷入瘫痪后,所有相关网络节点和客户终端都无法工作。这种C/S网络结构是传统互联网难以抵御DoS和其他攻击的致命弱点。
相比之下,区块链网络的结构特点是采用点对点(P2P)的拓扑模式,所有网络节点都彼此链接而没有中心节点的管控,即去中心化的网络模式。黑客通常采用的网络攻击方式对这种网络结构难以奏效。在抵御网络攻击方面,区块链互联网的结构展现出难以比拟的巨大优势。
在大数据可靠性方面,大数据的弱点是容易被窃取或篡改。
目前最高等级的加密技术是2048位(bit)的RSA加密系统。专家曾预言破解该系统起码要一万年,而实际上在五年后就已经发现了漏洞。
面对如此脆弱的数据可靠性问题,区块链数据结构体现出独特优势:区块链中的数据区块采用了哈希256(SHA256)新型算法, 使每一个数据节点几乎无法被截取或篡改。一旦某一个区块信息丢失或发生改变, 后面所有相关链接的信息区块立即中断, 被篡改过的信息区块不再被链接的群体所承认。
这一独特技术能最大限度地保证信息在区块链互联网传递过程中的可靠性。
在大数据原始性方面, 传统互联网最大的局限性在于传递的所有信息除电子货币外都是复制品,而目前所有电子货币交易都必须经由中心监管的第三方(如银行)审核批准后完成。
该运作模式需要客户支付大量的监管费用,如果监管方不能获得信任时,将会给交易双方带来极大危害乃至引发社会混乱。
区块链独特的去中心化交互模式及其采用的新型哈希算法有效弥补了这一缺陷。
除了可以避免监管手续费用和限制之外, 所有的交易都可以追溯其来源, 用户的每笔交易都可以在确认原始出处后安全妥善地进行。
通过以上对比,可以看出区块链互联网的独特优势,能够有效弥补传统大数据在质量、安全可靠性和信息原始性方面的欠缺, 佐证了大数据属性由4V升级为5V的战略必要性。同时,说明区块链技术是推动传统大数据向高端转型的驱动力。
2. 对大数据与区块链重大相关性的忽视
自从2008年区块链技术首次展现出颠覆性的互联网理念和巨大技术魅力后,数字货币、智能合约、无缝供应链等一系列商业和科技应用纷纷在这个全新的平台崭露头角。
与此同时,大数据量的指数级增长,应用领域也日益广阔。
面对两个飞速发展的技术领域,社会各界对于大数据与区块链技术的深刻本质与密切关系并没有足够重视,甚至认为二者是平行发展的技术领域。这种模糊的认识甚至是忽视,将对企业在制定未来发展战略过程中造成重大误判和疏漏。
在此,本文从理论和实践两方面予以澄清。
首先,忽视大数据与区块链相关性的根本原因是对互联网本质和基本理念的错误认识和曲解。
互联网从Web1.0、Web2.0到当前的Web3.0,本质特征和作用都是将纸质信息、多媒体数据乃至所有实体加以数据化,通过互联网传递、使用这些信息和数据,这就是当前互联网平台上大数据的全部功能。
可是一项人类必不可少的内容当前的互联网和大数据却无法创造和实现,这就是由数据所体现和代表的价值。
如今,区块链中以比特币为代表的数字货币实现了这一传统互联网和大数据无法实现的梦想。
比特币理念彻底颠覆了传统价值理念:数字模块以去中心化分布式记账的数字加密货币形式被赋予了货币同等价值,从而取代统一监管的货币交易方式。
这一技术实现了数据在区块链互联网上以原始资源方式传递实际价值的突破,并为金融、市场监管、医疗保健等多个领域提供了安全、可靠、高效、性价比高的全新交易模式。
缺乏信任与安全是大数据发展的致命弱点,且以现在的技术水平和网络体系无法解决这一危机。区块链及其衍生产品的新架构“密算体系”才是人类社会未来发展的关键所在。
区块链不仅是当前Web3.0阶段互联网持续发展的产物,也体现出传统互联网无法体现的数据价值,是推动传统大数据向高端转型的驱动力,区块链数据是传统大数据持续完善的高级数据形态。
3. 对“从IT时代走进DT时代”提法的质疑
2015年IT领袖峰会首次提出 “从IT(信息技术)时代走进DT(数据技术)时代”的权威说法。此后,互联网百科也正式把这一观点纳入了百科词条。本文对此有不同看法。
如前所述,当前世界仍处于第三次工业技术革命,即信息技术革命时代。这个时代技术的本质含义就是信息。
社交平台引发海量大数据的产生,因此,信息技术(IT)的本质含义实际上包含数据技术(DT)。然而随着对大数据可靠性、精准度要求的日益提高和严格,传统的数据技术已不能准确体现出当前大数据的本质内涵。当今离开以独创性算法(Ingenuity)开发使用大数据已经没有任何意义。
鉴于这一现实,本文不赞成改变对IT时代的提法,认为泛泛而谈进入DT时代不能体现当今大数据的本质含义和关注的焦点。
科学的讲法应为:在当前IT时代,信息二字的技术含义发生了重大改变,我们仅需要重新定义代表信息的“I”字。
独创性技术才是我们真正需要的数据技术,或许把IT所代表的信息技术(Information Technology)更新为独创性技术(Ingenuity Technology),能够更准确地体现当前大数据技术发展的核心和IT时代的本质。
4. 元宇宙将掀起新一轮颠覆性革命
同时,我们应该充分注意到由关键技术引发的另一个全新的信息领域——元宇宙,即将带来的重大机遇和战略转型。
埃森哲发布的《技术展望2022》指出:未来网络、编码世界、虚实共生、无限算力等四大技术趋势将成为构建元宇宙的基石,蕴藏着大量机遇,将颠覆当前各项技术的传统观念。
未来网络是指将传统互联网重新搭建在以更加安全可靠并能搭载全新数据价值的区块链模式的构架中。
编码世界是把以人工智能为特色的物联网用全新的算法覆盖世界的每一角落。
虚实共生则是人工智能与虚拟现实(VR)和增强现实(AR)发挥出强大的功能对人类现实生活环境带来的颠覆性生活工作模式。
全新一代量子计算和生物计算技术迅速登场,无限算力将突破当前摩尔定律所能预见的传统电子计算能力。
元宇宙将以其新一代的互联网模式把现实世界与虚拟世界几乎无缝地衔接起来,革命性地改变人类工作生活与思维模式,更好地保护个人隐私和信息安全,提高生活质量,构成一个全新的人类元宇宙空间。以上四项科技无疑是元宇宙的核心驱动力。
人工智能、虚拟现实、3D打印、区块链等信息技术各自借助物联网平台,提供了具有各自相关特色的信息局域网,业界人士称之为雾域网(Fog Computing)。
雾域网相对于云域网(通常称云计算网Cloud Computing)而言,后者涵盖全球范围互联网数据中心提供的传统数据信息与应用,而雾域网则依靠新型传感器收集生成高层次、多种类的智能化与虚拟化大数据信息,并转化为3D图像及多维度视频为局域范围使用者分析应用。
从技术角度而言,局域范围的物联网即雾域网也被称为无线传感器互联网(WSN)。
当前日趋成熟的智慧家庭、无人驾驶等场景就是物联网平台在局域范围内的典型应用。
如何使这些新兴技术驱动的特色局域网能够互动分享已成为信息科技的关注焦点,元宇宙是适应这一发展需求而产生的全新交互式互联网的信息科技模式。
元宇宙相比社交网和物联网,后二者开创了传统互联网用户之间、物体之间交流互动的模式,而前者则将各类新兴科技特色的局域网汇集成为雾域网络,使得所有局部网络之间彼此互动,相互联通,共享功能。
简言之,元宇宙将打造一个颠覆性的智能化、虚拟化、增强现实的环境,成为涵盖全球所有局域网角落的全新互联网模式。因此,我们有理由对即将到来的下一代互联网定义为元宇宙互联网,即Web4.0——Internet of Metaverse (IOM)。■
作者单位
邢陆宾 美国蒙特克莱尔州立大学商学院
毛基业 中国人民大学商学院
本文发表于《企业管理》杂志2022年第7期
欢迎给《企业管理》杂志赐稿,分享您的思考和实践成果!
咨询电话:
010-68414646
投稿邮箱:
qyglzz@263.net.cn