【独家焦点】跨界交叉!广州超算卢宇彤团队推材料计算新模型

2022-10-12 18:24:57    来源:中国科学报    


【资料图】

近日,国家超算广州中心卢宇彤教授团队基于“HPC+AI”双驱动的方法,依托“天河二号”超级计算机,构建了国内实验结构最多、元素分布最广、大体系结构最多的第一性原理计算数据库,并开发了准确、快速且高泛化性的人工智能模型,突破了传统第一性原理方法计算耗时长且模拟体系有限的瓶颈,有望助推材料科学、物理学、化学、生物学等学科新发现。相关研究成果“Improving Material Property Prediction by Leveraging the Large-Scale Computational Database and Deep Learning”已在国际期刊Journal of Physical Chemistry C上发表,并被选为封面文章。

近年来,在计算科学的推动下,基于密度泛函理论(DFT)的第一性原理计算取得了巨大进展,已成为物理学、材料科学、化学等研究不可或缺的一部分。但随着DFT计算精度的提高,计算耗时急剧增加且其计算体系规模有限。基于数据驱动的人工智能方法可有效缩短计算时间,但由于缺乏大规模高质量数据支撑,导致模型精度不高、泛化能力弱且通用性低。为应对这一挑战,卢宇彤团队依托“HPC+AI”范式,基于“天河二号”构建了大规模第一性原理计算数据库,并开发了面向晶体材料的增强节点和边消息交互传递的新型图神经网络算法,打造了高精度的材料性能预测模型。

以无机晶体材料为例,研究团队构建了近10万个晶体结构数据库,并对这些数据进行了大规模高通量DFT计算,最终获得了这些结构的电子结构、费米能、形成能、磁性、力学以及几何结构等近百万条物性数据,为材料、化学、物理等领域的相关研究奠定了基础。目前,所有数据已发布在广州超算自主研发的新材料设计平台Matgen,供材料设计领域人士访问、借鉴与使用。

据了解,Matgen数据库在材料结构数目、元素分布和多样性、包含结构原子大小分布等方面均优于国际知名数据库,且其准确性与采用同样泛函精度的MP和OQMD数据库近似。据介绍,广州超算精心构建的Matgen数据库已成为“国内实验结构最多、元素分布最多样、大体系结构最多的DFT计算数据库”。

为保持精度,DFT的计算成本很高。因此,借助AI技术对DFT数据进行非线性拟合,是使用材料结构进行性能预测的研究热点。研究团队着力开发了基于有向图的深度学习模型CrystalNet,并且利用Matgen数据库来进行训练。对比试验表明,CrystalNet的带隙预测准确性优于当前主流的MEGNet和CGCNN模型。

为进一步提高模型预测精度,解决传统DFT中PBE泛函对于带隙值低估的问题,团队采用迁移学习的方法,基于实验带隙数据对模型进行调优。结果表明,迁移学习模型CrystalNet-TL能有效改善带隙值被低估的问题,预测性能得到进一步提升。同时,研究团队从公开数据库中收集了部分虚拟晶体结构数据,进一步验证CrystalNet-TL模型在虚拟材料(即潜在新材料)性质预测上的泛化能力。

作为推动科学研究的新范式,“HPC+AI for Science”被认为可推动高性能计算和人工智能等新技术的融合,加速科学发现的步伐,有望为自然科学带来变革性的影响。据研究团队介绍,广州超算自主研发了集高性能计算、大数据以及人工智能为一体的融合系统,面向科学应用领域建立了软硬件协同的超算生态环境,取得了诸多创新应用成果。该融合系统也是近年来相关领域的首次报道。

相关论文信息:

https://pubs.acs.org/doi/10.1021/acs.jpcc.2c03051

[责任编辑:h001]

相关新闻

联系邮箱:99 25 83 5@qq.com

备案号:豫ICP备2020035338号-4 营业执照公示信息

产经时报 版权所有