当前,人工智能在经济和战略上的重要性,将成为企业、政府数字化转型的首选项。企业在发展数智化转型中,AI的使用仍受到诸多限制,首当其冲的是AI成本居高不下。
IDC数据显示,2021年全球企业在人工智能软件、硬件和服务的总投资将超过850亿美元,预计将在2025年增至2045亿美元,五年复合增长率达24.5%。
在青云科技云原生产品负责人于爽看来,AI所需的算力是一种高阶算力,也是一种更高成本的算力。这种情况下,不管是AI框架和工具,还是AI应用,都面临着一种“内驱”产生的变化,也就是说AI应用本身对外的输送能力可能没有变化,但对内需要能兼容更多的计算架构,兼容更多的轻量调度框架。
如何评估AI算力成本?
算力计算成本高昂,不禁让人疑惑,AI是否真可以实现普惠于民?任何技术过于昂贵都会成为少数人才能享受的奢侈品,比如早期的电脑、手机、互联网等。同样,AI算力过高也会影响之后的应用和落地。
AI算力成本主要是设备、电力、网络带宽等支出,其中又以设备的支出为最大,最新型号的CPU、GPU、闪存、智能网卡等IT设备都会给AI算力带来更大的好处,企业需要确保AI算力能满足业务需求。
企业将AI视为业务转型、流程再造的重要组成部分,而不能孤立看AI的技术或者应用。由于AI投入巨大,企业在评估ROI时需要从多维度来进行衡量,在AI的价值体现中,业务应用至少占6成。
另外,企业需要从行业竞争、公司战略角度进行评估:
AI是否是公司业务战略的核心,例如车联网企业就需要基于AI实现自动驾驶。
AI是否成为增加收入的手段,如农业通过AI及时发现病害生物,航运业通过AI增加航运效能,这些都将从AI场景中直接获得收益。
AI能否成为降低风险和成本的手段,如仓储物流业通过AI及时发现危险情况。
用云原生化解AI成本
人工智能发展已经进入与行业深度融合的阶段,AI计算能力反映了一个国家最前沿的计算能力。中国和美国是AI算力支出占总算力支出最高的两个国家。
AI的投入不断增加,主要是因为AI涉及的业务场景在不断普及,比如车联网、监控及应急管理,这些都需要AI进行海量数据分析以优化算法,实现更高效的智能化处理。这里的投入既有算法研发人员的投入、更需要有AI设备(算力和GPU资源)的投入等。
于爽表示,AI场景灵活多变,对于企业,特别是中国企业来说,IT环境更加复杂多样,而形式和服务模式固定的公有云很难满足企业在AI场景上的需求。因此很多企业选择云原生架构来解决这类问题,将AI业务、工具和容器、K8s结合,可以兼容多种基础设施环境,可以灵活地快速部署交付,让企业可以放下负担,更快速高效地发挥AI的真正价值。
通过云原生,可以充分释放云的弹性、灵活、分布式、高可用等特性,帮助企业实现降本增效。青云科技开源了KubeSphere云原生容器平台,利用云原生的技术特性,将AI的使用和管理成本降低,同时结合自身的云网边端一体化能力,将AI的价值输送变得更便捷。
云原生对于AI场景的友好及效率提升,云厂商也可以通过海量AI算力资源池,存储资源池来解决AI生产成本过高与AI算法需求增加之间的矛盾。
GPU/CPU/存储的高额成本往往成为企业进行AI规模化应用的拦路虎。在特定场景下,模型训练往往是周期性的,同时更希望借助庞大算力来缩短训练时间,及时产生业务价值,此时就可以充分发挥云厂商在算力资源上的优势,借助其规模化效应,按需使用、按需付费来实现AI场景的落地。
青云科技在公有云上也提供了GPU云服务器,对于企业来说有四个明显优点:超强计算加速、极致网络性能、弹性购买方式、高性价比。例如,采用深度生成模型来实现精准降雨预测,该模型只需1.3秒即可生成一个全分辨率的临近天气预测样本。在私有云环境里,可以通过超级智算平台来统一管理CPU与GPU资源,形成横向与纵向资源的弹性伸缩及优势互补。
结语
如今人工智能类工作负载成为企业IT基础设施的重要承载对象,众所周知,AI的投入巨大,尤其是以算力为主,如何降低AI算力成本成为产业的关注焦点。
可以预见,人工智能只会越来越普及,越来越普惠,对算力的需求越来越大、越来越多样,要支撑AI产业的真正爆发,低成本普惠且包容的算力供给必不可少。
我们看到不管是芯片厂商还是服务器厂商,以及云厂商,整个产业链都在协同努力降低AI成本。青云科技通过云原生手段让AI成本更低的做法值得借鉴,毕竟技术的问题需要通过技术来解决。
不过AI成本不光只是基础设施的问题,这是一个综合问题,需要企业进行全局评估。随着AI的加速落地,企业在AI的投入持续增加,成本问题的解决也将成为重点,这需要我们一起共同应对挑战。