1、综述 Review *E-mail: 同等贡献(These authors contributed equally to this work)Received November 1,2022;published December 23,2022.Project supported by the National Natural Science Foundation of China(Nos.21922801,22090032,22090030)and the Natural Science Foundation of Beijing(No.2202036).项目受国家自然科学基金(Nos.21
2、922801,22090032,22090030)和北京自然科学基金(No.2202036)资助.158 http:/sioc- 2023 Shanghai Institute of Organic Chemistry,Chinese Academy of Sciences Acta Chim.Sinica 2023,81,158174 化 学 学 报 化 学 学 报 ACTA CHIMICA SINICA 机器学习在新材料筛选方面的应用进展 戚兴怡 胡耀峰 王若愚 杨雅清 赵宇飞*(北京化工大学化学学院 化工资源有效利用国家重点实验室 北京 100029)摘要摘要 新材料产业是许多相关领域技
3、术变革的基础,也是新能源、航空航天、电子信息等高新技术产业发展的先导.传统研发手段由于成本高、效率低、商业化周期长等不利因素无法满足现代社会的发展需求.近年来大数据与人工智能不断深入结合,以数据驱动为核心的机器学习在新材料设计、筛选以及性能预测等方面取得巨大进展,极大促进了新材料的研发与应用.本综述总结了机器学习的基本过程及其在材料科学中常用的算法和相关材料数据库,重点介绍了机器学习在不同功能上的应用以及在催化剂材料、锂离子电池、半导体材料和合金材料等领域的性能预测和材料开发中的最新进展,并对其下一步在新材料应用方面提出展望.关键词关键词 机器学习;材料科学;材料基因组;高通量计算 Recen
4、t Advance of Machine Learning in Selecting New Materials Recent Advance of Machine Learning in Selecting New Materials Qi,Xingyi Hu,Yaofeng Wang,Ruoyu Yang,Yaqing Zhao,Yufei*(State Key Laboratory of Chemical Resource Engineering,College of Chemistry,Beijing University of Chemical Technology,Beijing
5、100029)Abstract The new material industry is the foundation of technological change in many related fields,and also the forerun-ner of the development of new energy,aerospace,electronic information and other high-tech industries.Traditional means cannot meet the development needs of modern society b
6、ecause of disadvantages such as high cost,low efficiency and long commercial cycle.In recent years,with the application of big data combined with artificial intelligence in a deeper degree,data-driven machine learning has made great progress in the design,screening and performance prediction of new
7、materials,which has greatly promoted the development and application of new materials.In this review,the basic process of machine learning,the algorithms commonly used in materials science and the relevant materials database are summarized.This review focuses on the application of machine learning i
8、n different functions,as well as the performance prediction in the fields of catalyst materials,lithium-ion batteries,semiconductor materials and alloy materials,presenting the latest progress in materi-als development.Finally,machine learning in the application of new materials are analyzed and pro
9、spected.Keywords machine learning;materials science;material genome;high throughput computing 1 引言 在知识经济新时代,材料、能源和信息并称为现代科学技术的三大支柱,其作用和意义尤为重要.传统材料主要依靠科学家的经验或者偶然,即试错法来发现,其通常存在效率低、成本高、研发周期长,无法满足生产与生活的实际需求1等问题.随着第一性原理计算方法和工具的飞速发展以及超级计算机性能的指数级提升,材料科学家可以通过非实验的方法快速、真实地模拟计算材料的各种结构与性能,材料科学进入了计算科学的范畴(如图 1).然
10、而随着理论与实验数据的不断积累,如何高效地利用目前已知信息缩短材料从筛选到应用的开发周期成为了材料科学领域和工程应用领域发展的瓶颈.数据驱动科学是科学研究的第四范式,作为其核心技术的机器学习(Machine Learning,ML)在物理科学、游戏开发、基因组计划、医疗健康、气象监测以及金融市场分析2等众多科学和工程领域具有关键作用.机器学习是发现高维数据背后隐藏的统计规律的强有力武 器3,其为新材料领域发展提供了新的契机4.2011 年,“材料基因组计划(Materials Genome Initiative,MGI)”的提出,标志着材料信息学的正式形成.材料基因组计划在大量数据的基础上建立
11、了诸多数据库平台5-7,基于这些材料数据库,机器学习针对特定材料属性建立相对应的算法模型,可快速实现对材料性能的预测,从而有望加速新材料的筛选和设计,缩短材料研发周期8.机器学习正在利用化学和材料数据改变材料研发领域9,DOI:10.6023/A22110446 化化 学学 学学 报报 综述 Acta Chim.Sinica 2023,81,158174 2023 Shanghai Institute of Organic Chemistry,Chinese Academy of Sciences http:/sioc- 159 图图 1 加速新材料探索方法的过程3 Figure 1 Acce
12、lerate the process of exploring new materials3在指导化学合成、辅助多维材料表征、获取新材料设计方法等方面展现出了巨大潜力,为新材料领域带来了强劲的发展动力,其必将对材料科学产生变革性的影 响10-11.另一方面,作为一种新兴的研究手段,机器学习技术虽然为材料科学领域带来了重大机遇,但其在发展过程中也同样面临着许多亟待解决的难题.2 机器学习简介 2.1 简介 机器学习是一门研究机器如何获取新知识和新技能,并分析现有数据信息的学科.机器学习的相关概念自 20 世纪 50 年代中叶提出,经过几十年的蓬勃发展,当前已经发展成一门综合应用数学、计算机科学、
13、生物学与工程学相关知识的多领域交叉学科,并成为人工智能(Artificial Intelligence,AI)领域中的关键技术.机器学习主要研究机器(计算机)模拟或实现人类学习行为的过程,即计算机通过模拟人类理解、思考和创造的方式,重新组织其已有的知识结构并积累经验,并不断进行自我修正和改善自身性能的过程.近年来,机器学习受到了人们的广泛关注,尤其是谷歌公司开发的人工智能Alpha Go在与围棋世界冠军的人机大战中频频取胜,将机器学习的巨大潜力展现在人们的视野当中.机器学习已被广泛应用于计算机视觉、自然语言处理、大数据挖掘、机器人、战略类游戏、医学诊断、金融证券市场分析等领域,并取得了巨大的成
14、就.机器学习技术可根据人们所需要的性能快速地预测出相应候选材料,目前已被世界各国的材料研究者广泛应用于新材料的筛选中.Xu 等12结合实验所得规律计算了一个超过 300 个尖晶石氧化物的数据集,并将其用 于 训 练 机 器 学 习 模 型,最 终 预 测 得MnTAl0.5Mn1.5OO4为一种高活性的析氧反应(Oxygen Evolution Reaction,OER)催化剂;Deringer 等13通过机器学习GAPMD(Gaussian approximation potential mo-lecular-dynamics)实现了由 100000 个原子(10 nm 长度)组成的 Si
15、体系的液相-非晶相、非晶相-非晶相之间的组织转变过程.此外,国内开展的关于机器学习的研究也在稳步进行14.这几年来,中国的一些科研院所和单位也对其进行了开创性的研究,如杨炯团队15在机器学习筛选热电材料中用主动学习预测了类金刚石热电材料的功率因子.该工作基于前期高通量计算的 158 个类金刚石热电材料的功率因子,用主动学习的框架结合机器学习和第一性原理计算,建立高精度的外推模型;李晓刚团 队16对合金设计理念进行创新,以腐蚀大数据、机器学习和相图计算作为指导合金设计的切入点,高通量筛选出具有合成可能性的高强度、抗腐蚀、抗氢脆断合金材料.但目前来看,我国与美国等先进国家相比依然存在较大差距,比如
16、缺乏独立自主研发的高通量材料计算程序、高通量材料检测设备和较为实用完备的材料基因数据库17等.2.2 算法介绍 选择合适的机器学习算法是构建机器学习系统的关键步骤,它对预测精度和泛化能力有很大的影响.每一种算法都有自己的适用范围,因此,没有一种算法可以适用于所有的需求4.机器学习算法种类很多,本综述将简要介绍几种影响最大的算法.2.2.1 支持向量机 支持向量机(support vector machine,SVM)是 Vapnik等提出的一种基于结构风险最小化原理的统计学习方法.近年来,支持向量机被认为是解决各种学习、分类、回归和预测问题的最先进的技术18.SVM 尝试寻找一个最优的决策边界(如图 2),从二维空间扩展到多维空间中时,将 A 和 B 完全正确地划分开的 kxb0 直线就成了一个超平面.以最大间隔把两类样本分开的超平面,也称之为最大间隔超平面.两类样本分割在该超平面的两侧,并且两侧距离超平面最近的样本点到超平面的距离被最大化了.求解线性可分的 SVM 的步骤中还涉及到构造拉格朗日函数、强对偶性转化、序列最小优化算法等数学问题.此外,核函数的引入可以处理非线性分类和回归任