英特尔7大算力神器助力极致算力。
“请代替基金经理写一段年终总结”,“如何评价春节档电影大混战”,“请写出一段爬取网页内容的程序”……诸如此类问题,OpenAI开发的ChatGPT都可以给出一段“中肯”的回答。
2023年开年,全球AI领域最“出圈”的成果莫过于ChatGPT了。作为一个具备问答、文章撰写等多重能力的对话式机器人,ChatGPT的强大“超能力”背后,是天量的训练数据与庞大的模型。
ChatGPT的前一代基础模型——GPT-3的参数就高达1750亿,训练数据高达45TB,训练设备包括超过28.5万个CPU和1万个GPU,仅训练成本就超过了1200万美元。ChatGPT基于GPT3.5架构的模型参数在此基础上至少提升了2个量级,对强算力的需求就更高。
事实上,不止是人工智能领域,数字经济发展潮流中的每一次技术和应用的飞跃,都离不开强劲算力的支持,作为该领域的头部企业之一,英特尔仍在不断挑战更强算力。1月11日,英特尔正式发布第四代至强®可扩展处理器和至强®CPU Max系列产品,通过内置面向AI、科学计算、安全、网络、数据分析和存储的加速器,在提升工作负载的性能和能效上更进一步。
破题新思路,四代至强新添七大算力神器
一想到算力提升,最容易想到的解决方案就是“堆核”,即通过增加核心频率和核心数量来提升整体数据处理速度。
但想要面向云计算、物联网、人工智能、5G等真实、多样应用场景下的工作负载提升CPU性能,充分利用CPU资源并且节约成本,“堆核”显然不是最优解。
正如英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立所说,“我们更关注客户如何使用我们的产品,并不是越多核就一定越好,今天的许多用户在使用数据中心处理器时,也并非一味执着于多核,而是具体工作具体分析。”1
基于在各个行业与场景实践中积累的丰富经验,英特尔重塑破题思路,发布了全新的第四代英特尔®至强®,引入针对实际工作负载优化加速的设计理念,采用系统级设计方法,在CPU中内置针对各种工作负载的专用加速器,与上一代相比,实现了通用计算平均性能提升53%,并且能够将目标工作负载的平均每瓦性能提升2.9倍。而在优化电源模式下,每个CPU节能高达70瓦,并对性能只产生极低的影响,将总体拥有成本降低52%到66%,做到带来领先性能的同时实现可持续发展 。2
全新的英特尔®至强®平台提供了七大算力神器——
面向深度学习场景的英特尔®高级矩阵扩展(英特尔®AMX),能将人工智能实时推理和训练性能提升至10倍;
面向网络数据系统的英特尔®动态负载均衡器(英特尔®DLB),可将网络工作负载的系统级处理性能时延降低96%;
增强数据移动效率的英特尔®数据流加速器(英特尔®DSA),帮助数据密集型工作负载数据移动和转换性能提升至1.7倍;
面向内存数据库和大数据分析工作负载的英特尔®存内分析加速器(英特尔®IAA),能显著优化数据分析工作负载内存占用和查询吞吐量,性能可提升至3倍;
面向数据流压缩及数据加解密的英特尔®数据保护与压缩加速技术(英特尔®QAT),使第四代英特尔®至强®可扩展处理器成为单一数据流压缩并加密数据性能最高的CPU;
增强工作负载安全性的英特尔®安全技术(英特尔®Security)策略组合,能够对工作负载进行保护,加速加密运算,实现预测性安全保护;
首款集成高带宽内存(HBM)的英特尔®至强®CPU Max系列,能够在无需变更代码的情况下为科学计算工作负载加速。
值得一提的是,第四代英特尔®至强®不仅具备卓越的加速性能,亦体现了重大的制造进展。其能够在一个封装上集成多达4个采用Intel 7制程工艺制造的单元,这些区块通过英特尔嵌入式多芯片互连桥接(EMIB)封装技术连接。第四代英特尔®至强®可扩展处理器还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5.0和Compute Express Link (CXL) 1.1互连增加了I/O带宽。
有了算力的升级与加持,纷繁复杂的场景和应用将会展开更多可能。
AI将社会发展导向新阶段
AI作画、ChatGPT对话机器人……随着深度残差网络(ResNet)、Transformer算法、Diffusion算法等技术进入应用阶段,2022年以来,AI领域不断迎来发展的“小高潮”,AI强大的能力成功吸引了大众目光,也带动了新一波数字技术的观念普及。
相比GPU提升训练效率的能力,拥有极佳性价比的CPU在AI应用的规模化部署和实践上同样发挥着重要作用。可以说,AI走入工程化阶段,面向大众提供服务,迫切需要不断提升CPU的性能,以实现高算力、强性能和低成本。
有数据显示,预计到2025年,超过60%的中国企业将通过人工智能、机器学习、自然语言处理(Natural Language Processing,NLP)和模式识别等技术实施智能预测与决策,提升员工工作效率和企业生产力。而面向推荐系统、自然语言处理、图像识别、媒体处理和交付,以及媒体分析等AI应用场景,用户需要更精准化地分析和快速地推理。
这其中,作为AI领域的重要分支,自然语言处理(NLP)正获得前所未有的市场关注与技术追踪,将大幅缓解金融、医疗、法律等行业中人力密集型工作环节带来的效率和成本压力。
作为国内拥有强大互联网基础的领先AI公司,得益于近十年来在自有“飞桨”人工智能框架上的前瞻布局和大力投入,百度已在NLP领域构建起了完整的产品体系与技术组合。而随着技术与产业结合的深入、商业化应用落地的加快,用户对百度飞桨文心 · NLP大模型的重要组成部分——ERNIE 3.0提出了更多细分需求,如更高的处理效率和更广泛的部署场景等。
为此,百度不仅借助其创新技术优势,推出了更适合落地应用的轻量版ERNIE-Tiny,同时与英特尔携手,引入了全新第四代英特尔®至强®可扩展处理器,其内置的英特尔®AMX在实际工作负载中,能同时支持BF16和INT8数据类型,其每个物理核在每个时钟周期可实现2,048次INT8运算和1,024次BF16运算,这无疑大幅提升了AI工作负载的效率。ERNIE-Tiny在升级使用内置英特尔®AMX的第四代至强®可扩展处理器后,整体性能对比上一代提升高达2.66倍3,推理性能大大提升。
“全新第四代英特尔®至强®可扩展处理器及英特尔®AMX技术的引入,使得轻量版ERNIE 3.0在通用CPU平台上也能获得令人满意的推理效能,从而能帮助更多用户在其既有IT设施中更为方便地部署ERNIE 3.0,从而进一步普及其应用范围。”百度自然语言处理部架构师孙宇即如此评价英特尔®AMX的杰出表现。
除此之外,由AI赋能的计算机视觉也已经成为企业获取数据洞察、推动业务智能化转型的重要途径。视觉AI解决方案能够利用增强型深度学习神经网络,以更精密的方式获取数据,将分析能力提升到全新水平,从而帮助企业提升工作效率、降低成本、增加收入并提高客户满意度。随着业务的发展与视觉数据的爆发式增长,企业希望能够在加速计算视觉AI模型训练和提高推理性能的同时,获得更高的投资收益。
美团作为与人们日常生活关系密切的科技零售公司,在其自身发展过程中,高度重视以视觉AI技术创新,赋能餐饮、出行、旅游、购物、娱乐等多种业务,充分践行“零售+科技”的战略。
为了加速视觉AI推理,美团利用第四代英特尔®至强®可扩展处理器及其内置的英特尔®AMX等高级硬件能力,将模型从FP32转化为BF16等方式,并结合了英特尔®PyTorch扩展(英特尔®IPEX)加速PyTorch,更有效地提升了深度学习推理和训练的计算性能,将主流视觉模型的推理性能提升了3.38-4.13倍左右。同时,结合动态扩缩容等头部服务优化策略,美团将线上资源效率整体提升3倍以上,节省70%的服务成本4,实现了资源的敏捷调度,支持了视觉AI服务的高效创新,并赋能了业务智能化升级。
在高性能的基础上需要更快、更安全
除了复杂应用场景下对高算力、高性能和低成本的需求外,对于企业用户而言,面向更多更丰富的场景,高可靠和高安全的数据处理和分析能力则是更为基础和底层的需求。
随着大数据时代数据量的指数级增长,在保障数据安全性的前提下,更高效地处理大量动态数据与静态数据,如今面临着巨大的挑战。
将大数据分析的全流程拆解来看,预处理阶段即需要面对多个技术难题。以加密和压缩环节为例,作为批量数据预处理的必然流程,只有优先完成数据处理之后才能进行分析。而这个过程需要消耗大量的CPU时钟周期,从而大大限制了计算密集型工作负载的运行效率。
针对这个难题,第四代英特尔®至强®可扩展处理器“点对点”突破,内置了数据保护和压缩加速技术(英特尔®QAT),通过卸载加密、解密和压缩释放处理器内核,从而让系统能够支持更多客户端运行或实现降低能耗的目的,可将内核用量减少高达95%;另外,QAT能够帮助加速数据库备份和联机事务处理(OLTP)操作,实现了2倍的吞吐量提升(针对一级压缩),从而助力提升网络和存储应用的整体性能。
解决了数据处理流程中的安全挑战,面向实际的工作负载,数据在应用过程中的安全又该如何保障呢?英特尔®软件防护扩展(英特尔®SGX)可以解决这个难题。英特尔®SGX提供硬件级的安全“屏障”,能通过应用程序隔离技术,保护选定的代码和数据免遭修改,只要将应用程序分隔到强化的安全区或受信任的执行模块,即可以启用身份和记录隐私、安全浏览和数字管理保护(DRM),或者任何需要安全存储机密或者保护数据的高保障安全应用场景中,帮助企业在安全可信的基础上更好地进行数据价值发掘。
由此可见,对于未来数字经济而言,算力等基础设施的舞台才是核心的角力场。正如全球著名投资机构a16z评价ChatGPT时所说,“基础设施服务商可能才是最大赢家,获得最多的财富。”
包括AI在内的新技术在取得突破后,要想走入“寻常百姓家”,实现大规模的部署和应用,算力的安全、高速、高可靠、高性能等能力缺一不可。甚至可以说,算力的增强真正驱动了数字经济的增长。
因此,不断突破算力瓶颈,以创新引领应用实践才是当代数字经济的“主旋律”。而毫无疑问的是,作为处理器领域的生态构建者,英特尔已经做好了准备,以技术创新力和卓越的产品力不断“乘风破浪”,助力滚滚数字化大潮。
1、数据来源:https://mp.weixin.qq.com/s/TvttABHgRIpmo-AMmeITzA
2、数据来源:英特尔重磅发布全新数据中心处理器,为数字经济发展增添新动力,https://mp.weixin.qq.com/s/FuxP4c7nDObD0xk2UwvnzA
3、数据来源:https://www.intel.cn/content/www/cn/zh/artificial-intelligence/spr-built-in-amx-baidu-ernie-performance-increase.html?wapkw=AMX
4、数据来源:
https://www.intel.cn/content/www/cn/zh/cloud-computing/meituan-visual-ai-reasoning-service-optimize-cost.html?wapkw=%E7%BE%8E%E5%9B%A2
文章来源:36氪