科学智能(AI for Science)通过学习、模拟、预测和优化自然界与人类社会的各种现象和规律来解决我们目前遇到的各类科研难题,从而推动科学发现和创新,这种模式目前被称为科学研究和发现的第五范式。络绎科学发起「科学智能 50 人」访谈计划,旨在邀请科学智能领域优秀的专家代表,希望通过系列访谈,为广大读者呈现一个更全面、深入的科学智能领域的发展现状和前沿洞察。
“如果我们要说出所有假设中最有力的一个,这个假设会不断引导人们去尝试理解生命,那就是所有的东西都是由原子组成的,生物所做的一切都可以通过原子的振动和摆动来理解。”著名物理学家理查德·费曼(Richard Feynman)曾这样表示。
对世界本源的探究永远是一个无法拒绝的科研“诱惑”。然而,想要观察和理解原子现象和行为,就需要在原子尺度上进行准确的观测、模拟、预测,随之而来的科研难题出现了:如何采集和处理超大规模数据量?如何降解模拟原子带来的超高计算量和复杂度?还有微观尺度自身的高计算精度的要求。
似乎更强大、更快、更精准的计算方法必须应时而出。早在 20 世纪 90 年代,研究人员就尝试将机器学习融入分子动力学,但三十多年以来领域进展缓慢。直到近年来,随着算力的剧烈提升,AI 技术的“突飞猛进”,为上述问题带来了新的解决途径。
图丨贾伟乐(来源:贾伟乐)
中国科学院计算技术研究所研究员、博士生导师贾伟乐长期致力于高性能计算(High performance computing,HPC),结合 AI 来解决第一性原理计算面临的高性能计算问题。他与合作者发展了一种“HPC+AI”的方法,创纪录地实现超大规模超高精度的分子动力学模拟。在高性能计算机上,利用第一性原理方法生成的数据训练出来的神经网络模型,极大地拓宽了从头计算分子动力学(ab initio)在现代超级计算机的空间和时间尺度的应用范围。
该方法通过计算的手段来模拟真实的物理世界,并为基于从头计算精度的、前所未有的大规模分子动力学模拟打开了大门,作为计算“新工具”为人们理解科学规律提供了新方法,可用于新材料、半导体器件、电池、制药等领域的研究。
贾伟乐因该工作获得了 2020 年的戈登·贝尔奖,该奖项具有“超级计算应用领域的诺贝尔奖”之称。美国计算机协会对这项研究成果的评价道:“基于深度学习的分子动力学模拟通过机器学习和大规模并行的方法,将精确的物理建模带入了更大尺度的材料模拟中,有望在将来为力学、化学、材料、生物乃至工程领域解决实际问题(如大分子药物开发)发挥更大作用。”
将高精度分子动力学模拟规模提升至 170 亿原子
贾伟乐本科毕业于西安电子科技大学,在中国科学院大学获得硕士和博士学位,师从中国高性能计算及网格计算的学术带头人之一迟学斌研究员。在他求学和从事科学研究的十几年里,恰好见证了高性能计算技术的两次重要变革,分别是约 10 年前的异构计算和当前的人工智能热潮。
异构计算时代中,科学家们通过 GPU 异构部件提升计算性能。2013 年,贾伟乐作为联合培养博士生前往美国劳伦斯伯克利国家实验室,与汪林望教授合作将基于 CPU 的第一性原理计算软件 PEtot 移植到 GPU 上,这也是他第一次进入微观尺度模拟领域。
在物理领域,最基本的量子力学、分子动力学、计算流体力学等都有对应的方程,以解方程作为计算方式,成为传统科学中继实验、理论后的“第三范式”。但问题在于,求解量子力学的 Kohn-Sham 方程需要求解大规模特征值问题,其计算复杂度为 N3。不仅需要的算力单元多,耗时还很长。在这种情况下,一个典型的微观尺度模拟的计算时空尺度,基本上被限制在数百原子和皮秒量级。
由于数值计算面临着求解的时空尺度限制问题,科学家早在上世纪 90 年代,就开始使用机器学习的方法来拟合原子的势能面。虽然传统的机器学习方法如线性回归有着小数据量、拟合迅速的优点,但是它在准确拟合原子势能面在精度上存在着巨大挑战。
随着 GPU 技术的发展,高性能计算逐渐朝着与 AI 融合的方向发展。科学智能(AI For Science)把物理模型恰当地引入到机器学习中,在保证精度的同时,极大地提高了计算的速度,真正地将高性能计算和 AI 以及物理模型结合起来。因此,人们对被称为“第五范式”的 AI for Science 充满期待。
(来源:ACM SIGPLAN Annual Symposium Principles and Practice of Parallel Programming)
为解决上述技术融合,贾伟乐与合作者实现了两次“跳跃”,展示了在微观尺度模拟中,把计算速度和计算体系规模从千原子量级提升到亿及百亿原子量级。
2020 年,贾伟乐在美国加州大学伯克利分校数学系林霖教授课题组从事博士后研究期间,与鄂维南院士等人把第一性原理计算的精度的分子动力学的时间和空间尺度都提升了 2-3 个数量级。在 IBM 的 Summit 超级计算机上,实现 1 亿原子每天 1-2 纳秒的分子动力学模拟。
2020 年底,他加入中国科学院计算技术研究所建立智能科学计算小组。2022 年,课题组的博士生郭卓强与合作者一起,又将分子动力学的计算规模提升至百亿原子量级。在超算整机上的测试结果显示,优化后的代码可扩展到超级计算机 Fugaku 和 Summit 的全机,相应的计算规模可以扩大 134 倍,达到前所未有的 170 亿个原子。1350 万原子系统表明,计算模拟的速度提高 7 倍,一天能够模拟 11.2 纳秒的物理过程,这相比 2020 年的戈登·贝尔奖的工作又提升 1 到 2 个数量级。
(来源:ACM SIGPLAN Annual Symposium Principles and Practice of Parallel Programming)
从实际应用的角度,通过这种计算手段能实现怎样的效果呢?“这意味着,以前需要在数千核的服务器上模拟一个月以上才能完成任务,通过新的 AI For Science 的方法只需要在现在的笔记本电脑上两个小时之内完成。”贾伟乐说。
相关论文分别以《通过机器学习将分子动力学的极限从头开始精确度提高到 1 亿个原子》(Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine)[1],以及《将具有从头计算精度的分子动力学极限扩展到 100 亿个原子》(Extending the limit of molecular dynamics with ab initio accuracy to 10 billion atoms)为题在发表在International Conference for High Performance Computing和ACM SIGPLAN Annual Symposium Principles and Practice of Parallel Programming[2]。
期待 AI for Science 的工业级产品
AI for Science 有望为基础科研和产业界带来新变革。基础研究方面,AI 驱动的微观尺度模拟软件和同类型软件相比,效率提升了 3 个数量级,并被业内学者广泛应用。值得关注的是,使用该软件发展的相关成果陆续发表在 Nature、Science、 Physical Review Letters 等期刊。
虽然第一性原理计算的精度非常高,但由于算力成本过于昂贵,一直未被应用在工业界。贾伟乐表示,“现在,我们通过 HPC+AI 将量级大幅度提升后,各领域对该方法表现出强烈的需求。据我所知,国内顶尖的电池研发企业也在尝试用该方法解决新材料相关的问题。”
第一性原理分子动力学涉及物理、数学、计算机等多领域,贾伟乐将该研究比喻成赛车比赛,他说:“要想赢得赛车比赛,需要赛车手、赛车调校人员及赛车制造人员的共同努力。作为纯计算机背景的科研人员,我会从高性能计算角度去解决第一性原理的相关问题,也需要各领域合作者共同努力和创新。”
图丨贾伟乐(前排右三)与课题组成员(来源:贾伟乐)
贾伟乐认为,虽然现在 AI 在图片生成、人工智能对话等方向已表现出优势,如果能将 AI 应用在传统的工业领域,也将会产生实实在在的“创新”。
他说道:“如果我们能够通过科学智能来设计新材料,比如发现性能更高的电池材料或者高温高压材料等,这将开辟新的赛道。目前国内已经存在多个 AI for Science 的初创企业,我期待在十年内可以看到 AI for Science 的工业级产品。”
参考资料:
https://awards.acm.org/bell
1.Weile Jia, Han Wang, Mohan Chen, Denghui Lu, Lin Lin, Roberto Car, Weinan E, and Linfeng Zhang. 2020. Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis (SC "20). IEEE Press, Article 5, 1–14.
2.Zhuoqiang Guo , Denghui Lu, Yujin Yan , Siyu Hu , Rongrong Liu , Guangming Tan, Ninghui Sun, Wanrun Jiang , Lijun Liu , Yixiao Chen, Linfeng Zhang, Mohan Chen , Han Wang , Weile Jia. 2022. Extending the limit of molecular dynamics with ab initio accuracy to 10 billion atoms. Proceedings of the 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming,205–218. https://doi.org/10.1145/3503221.3508425