随着社会数字化能力的快速升级,金融行业正逐渐迈向数字化转型的新时代。尤其是AI的爆发,数据智能技术正在彻底改变着这个行业的面貌,随着越来越多的金融机构开始将人工智能、机器学习和大数据分析技术应用到其业务中,金融数据的价值正在得到充分的发掘。
毋庸置疑,在数字经济时代,数据上升为新的关键生产要素和资产,逐渐超越土地、资本等传统要素,成为社会经济发展和企业创新更加重要的驱动力。
对于金融行业而言,本身就有大量的数据,每一家金融机构都希望成为一个数据驱动的企业,但目前企业仍面临着数据持有成本高、数据孤岛严重、数据治理难度大等挑战,这也导致如何充分释放数据价值成了当下的难题。
一方面,企业与组织逐渐拥有海量数据规模和丰富应用场景,最新数据显示,国内股份制银行每年的数据量增长在30%,这些海量多源异构数据的增长,对于企业的存储与管理带来极大挑战 ;另一方面,数据价值释放、使用也遇到现实困境,权威机构统计表明,当前全球仅仅只有2%的数据被真正分析过,而注入AI模型的数据连1%都达不到。且随着数据越来越繁多,企业在弹性调度、实时调度数据上也将变得更加复杂。
如何破局?尤其是在AI爆发、大模型建设成为主流的大背景下,数字智能化转型已经全面提速,对于企业而言,建设数据驱动型的现代化企业已是刻不容缓。为此,华为为金融业提供了答案:通过云-数-智-算全面融合架构,化繁为简,助力金融人人用数,实现处处智能。
云数融合,数据挖掘的“金铲子”
在数字化浪潮中,数据正在重塑企业的运营、管理、决策乃至创新,不过,企业当前在数据价值实现中面临的挑战空前巨大,尤其是企业数据产生的速度、规模和类型,远超当前设备的处理和计算能力,数据价值挖掘效率低下成了一大难题。
事实上,一直以来金融业内对于数据处理都并非易事,就像鄂尔多斯盆地油气田虽然资源丰富,但属于典型的“三低”(低渗、低压、低丰度)油气藏,实现经济有效开发属于世界性难题。数据从产生到发挥要素价值的过程也同样漫长,包括数据采集、数据存储、数据处理加工、数据流通、数据分析、数据应用等,每一个过程都充满大大小小的挑战。
尤其是随着多样性计算的演进,数据库必须支持多种算力。过去以CPU为中心的架构,现已发展到多样性算力协同的对等计算架构,CPU、GPU、NPU甚至包括为特定场景开发的计算单元等都要形成协同关系,从而更好地去处理数据。
不仅如此,多模融合成为主流,多模数据需要协同处理以实现资源集约化管理。从过去主要处理的是结构化数据,到现在处理非结构化数据例如图、时序、流、文档等的数据类型,这对数据整合处理和整合分析提出了更高的要求。
早期企业数字化建设所依赖的基础资源,多为以服务器硬件设备为中心,业务应用随不同厂商设备、操作系统、虚拟化软件的差异化进行定制设备的安装、调试,应用的部署运维基本靠人力完成,自动化程度低,缺乏统一的设备和应用管理能力。虽然后期有虚拟化软件的出现,资源的利用率和扩缩容的灵活性方面得到一定提升,但从未从根本上解决基础设施与软件割裂、运维复杂的问题。
如今华为推出的云原生全面融合架构,其中一点就是在传统架构上进行了云数融合升级,将企业的关注点从以资源为中心转移到以应用为中心,包括应用敏捷交付、快速、弹性、平滑迁移、无损容灾,可以更好地帮助企业实践应用的自动化应用。
举个例子,假设某企业需要在一段时间内处理大量的数据,但是处理量难以预测,需要根据实际情况来进行资源调度。如果企业采用传统的数据处理方法,需要购买足够的硬件设备才能满足一段时间内的处理需求,这会带来很大的成本和资源浪费。而云数融合后,企业可以将数据存储在云端,利用云原生技术架构实现弹性资源调度。当需要处理数据时,系统会自动分配足够的资源来完成任务,处理完成后,系统会自动释放这些资源,从而降低成本,提高效率。
另外,随着数据更新速度加快,当下金融业很多业务对实时性的要求越来越高,而为了保障企业能够将实时数据进行快速计算,华为也在计算层、存储层、缓冲层做了三层池化,加速了云计算数据中心建设的效率,利用虚拟化技术,将资源分享给不同用户,资源的放置、管理与分配策略对用户透明。让用户能够灵活使用、调配想要用到的数据中心资源,并且让基础架构的硬件设备尽可能发挥出最大利用率。
而擅长数据处理的企业,数据价值跃升也更为明显。以营销场景为例,传统的用户标签可能只有几十维,但在完全挖掘数据价值后,数据范围更广,结合外部数据和AI预测引入,可以做到几千维,实现百倍的增长,这种情况下可以更好洞察理解客户。
客观来说,金融业的数据复杂且更新迅速,一些数据的价值很难落地,而华为云数融合的目的,就是希望将更多数据挖掘并且简化处理步骤,让所有的数据都可创造价值。当然,随着智能大模型的爆发,数据与智能的融合在数智化架构中也变得极为重要。
数智融合,高效释放数字价值
在金融行业早期数字化转型的过程中,为解决某一业务问题,往往按照单一业务逻辑部署信息系统,另外由于政策、业务的不断变化,金融机构不同业务系统建设存在时间差异,各不同业务条线往往根据自身需求独立获取数据、进行数据加工,再进行系统部署应用,最终形成一个个独立的“烟囱式”数据架构,出现数据孤岛、数据与AI架构不互通、业务流程难以穿透等各种问题。
一家银行可能有几百套信息和数据系统,各种架构、软件标准五花八门,数据融通和业务流程困难极大。分散的数据源、海量的数据规模、异构的数据属性都是金融机构数据治理的难题,也导致数据在处理后无法直接利用AI训练。就像是即便拥有全世界最顶级的数据处理师,但无法给到他们数据进行处理,那么就显得毫无价值。
传统的做法是将处理好的数据搬迁到AI架构进行训练,但一组数据是,普通银行在做增量数据搬迁时,大概需要6-8个小时,而做全量数据迁移的时间,往往达到了4-7天,这就导致企业构建、保护和管理数据的过程复杂且耗时,并且需要大量开发和维护成本。
所以区别于这种被动局面,华为数智融合就是打通了数据治理生产线和AI开放生产线之间的互通,基于DataArts、lakeformation,把数仓、数据湖、AI数据的目录、数据权限、事务一致性、多版本管理等能力都融合到一个中心点,构建了满足各种引擎需求的数据湖统一元数据服务视图,支持一份数据在数据湖、数据仓库、AI、开源系统等多个引擎间自由共享,实现了引擎元数据互通,达到了数据与AI共存的效果。
但统一元数据本质是将数据与计算做了分离,这就导致数据库、数据仓库、数据湖、AI引擎不互通,大规模分布式集群节点与节点之间的数据交换时间间隔可能会变长,且需要满足实时性要求,所以降低链路延时,提高计算效率尤为重要。而华为推出的分布式硬件设备擎天加速卡,能够实现的就是使数据与数据之间直接交换,不需要再上升到交换机层面,将路径大大缩短,使数据与集群之间的交换效率大大提升。
事实上,单看数据与计算分离这种架构是十分理想化的,但在实际运用过程中还是存在很多工程化问题需要解决,而华为要做的不仅是将理想架构落地,还会通过擎天加速卡、AI数据治理产线等ICT根技术来支持企业解决落地过程中的诸多问题。所以华为在做的其实就是化繁为简,将复杂的事留给自己,为企业、客户提供更简单、实用的融合架构。
数算融合,软硬协同更兼容
事实上,云数融合和数智融合本质上是基于软件层面的优化,但数智化转型是一个系统性工程,软件和底层硬件的融合至关重要,这也是华为独特的优势。
比如当企业云数智融合达到了一定水准,很难在软件层面实现突破时,还想要再进一步提升效率,那么在硬件上下功夫便是最优解。最常见的像银行的日终跑批、数据分析、监管报送等这些针对数据展开的业务,对时效性均有较高要求。
正常情况下日终跑批是从晚上十点左右开始跑起,一些数据量大的银行可能会跑到第二天早上9点或者10点左右,这就会造成前一天数据还未跑完,第二天的新数据便产生了,影响了正常工作。
还有业务员在做数据分析时,有些数据需要自己提取,但在使用自助分析工具时,会有一个响应时间,对于一些复杂的命令,运行起来可能需要30秒甚至更长时间,对整体效率可能会产生一定影响。
RWA场景、监管报送等复杂场景对数据计算的效率、算法有更高要求。例如银行在做监管报送时,会同时开放给不同分支去批量处理、批量增仓改查,这种既要保证跑批又要平衡数据变动的复杂混合负载要求,显然对后台提出了极高要求。
所以在当前基础上,如何进一步缩短数据处理时长是业内所需解决的问题。华为给出的方案是通过鲲鹏计算底座+RoCE无损网络+数据湖仓之间的协同,并且通过资源池隔离、优化算法等方式去提升复杂场景下的性能。
另外,对于架构本身来说,虽然华为是做了开放处理,湖仓可以适配不同底座,底座也可适配不同厂商的湖仓,但基于华为自身的ICT能力,软硬件的协同、融合也能够达到一加一大于二的效果。
智算融合,大模型部署不费力
不能否认,大模型的爆发,将金融业带入到了一个全新时代,但同时也给行业带来了一些难题。尤其是大模型的部署,会有一系列复杂的工程化问题,比如数据采集、数据标注、数据清洗、模型的再训练、推理等等,所以企业需要一个端到端的解决方案来实现高效落地。
而华为也是目前为数不多能够实现全栈AI能力的企业,覆盖昇腾芯片、算子CANN、算法框架MindSpore、盘古大模型、开发者平台ModelArts等等,通过华为AI能力和上层应用生态,构筑全栈全场景的AI解决方案。
另外对于大模型来讲,能够看到一个非常显著的区别,便是训练的数据量剧增,例如ChatGPT3和3.5的训练量都为百亿,而GPT-4则达到了千亿级别。数据级别从TB级到PB级甚至未来还有可能达到ZB级。而数据量的爆发也会在计算、存储、通信三个层面产生新的问题。
首先计算层面,目前单卡算力能力5年仅能增加47倍,而算力需求5年增加了百万倍,显然单机已无法满足日益增多的算力需求,业内较为统一的做法是将基础设施分布式集群化。但集群化就会对散热提出更高要求,传统风力方式几乎很难完成散热重任,会导致出现不稳定,出现中断情况,相较之下液冷散热效率更高,正逐渐成为集群散热必选。
当然,在保证稳定性的前提下,如何去提升超大集群算力利用效率以及大模型算法分布式开发效率,这就需要算力架构的优化和算法框架的优化。
存储层面,因为训练数据有一个巨量提升,如果还按照传统的HDD存储方式,那么其效率也会大大降低,全量数据载入可能会需要数天时间,所以全闪存等高性能存储方式将是未来主流的解决方案。
通信层面,集群化下通信系统其实决定了其性能瓶颈,传统100G的交换网络在训练时可能会有较高延时,所以就需要升级到200G或者400G的RoCE网络,以帮助数据中心网络实现大宽带、低时延、高效率的训练。
华为云数智算全面融合架构,解决的就是AI集群系统面临的工程化难题,化繁为简,为企业数智化架构升级提供了可以落地的优质的解决方案。
产业数字化浪潮的推进,必然为金融业带来新的数智化挑战,金融行业数字化转型迫在眉睫。而将云、数、智、算进行有效融合的“数智融合”解决方案,是破题的关键,可让AI和数据释放更多价值。在这个过程中,华为也将持续赋能行业实现高效的数据挖掘、治理和运用,为更多企业进行数字化和智能化升级构筑起坚实的创新基石,推动金融数字化转型迈向全新阶段。