1、第 51 卷第 2 期 2023 年 2 月 硅 酸 盐 学 报 Vol.51,No.2 February,2023 JOURNAL OF THE CHINESE CERAMIC SOCIETY http:/ DOI:10.14062/j.issn.0454-5648.20220813 无监督学习探索高介电常数的 ABO3型钙钛矿材料 刘润林1,李长姣2,王 建2,刘韩星1,沈忠慧1(1.武汉理工大学材料科学与工程国际化示范学院,武汉 430070;2.武汉理工大学材料科学与工程学院,武汉 430070)摘 要:机器学习已成为新材料研发的重要变革性手段,但材料数据样本量少、噪音高等特点为数据驱
2、动的研发模式带来巨大挑战。本工作将无监督学习应用于挖掘高介电常数的钙钛矿材料。针对标签数据少的问题,通过聚类学习的方法不断优化迭代来缩小搜索空间,最终筛选出了 BaHfO3和 BiFeO3等 20 种具有高介电常数潜力的钙钛矿材料,并通过降维分析等手段从元素种类、晶体结构和容忍因子等方面展开规律分析,挖掘钙钛矿材料结构与介电常数之间的关联。该方法为解决材料性能数据标签的缺失提供了一种思路,可应用于筛选和挖掘其他新型功能材料。关键词:介电常数;机器学习;钙钛矿材料;电介质材料 中图分类号:TM934.33 文献标志码:A 文章编号:04545648(2023)02036706 网络出版时间:20
3、230118 Discovering ABO3-Type Perovskite with High Dielectric Constant via Unsupervised Learning LIU Runlin1,LI Changjiao2,WANG Jian2,LIU Hanxing1,SHEN Zhonghui1(1.International School of Materials Science and Engineering,Wuhan University of Technology,Wuhan 430070,China;2.School of Materials Science
4、 and Engineering,Wuhan University of Technology,Wuhan 430070,China)Abstract:Machine learning has become an important transformative method to explore novel materials,but the small sample size and high noise of material data bring a great challenge to data-driven research and development.To address t
5、he challenge,unsupervised learning was applied to discover perovskite materials with a high dielectric constant.Twenty perovskite materials with a high dielectric constant(i.e.,BaHfO3 and BiFeO3)were screened out via iterative clustering.We performed dimensionality reduction analysis and descriptors
6、 analysis including elements,crystal structure and tolerance factors to find the underlying trend and the relationship between ABO3 structure and dielectric constant.This method can provide an idea for solving the lack of material data labels,which can be also applied to screen other novel functiona
7、l materials.Keywords:dielectric constant;machine learning;perovskite materials;dielectrics 电介质材料因其优异的电气绝缘和电荷存储能力,在微电子、微波、超级电容器和传感器行业中发挥着重要的作用。作为目前研究最多、应用最广的电介质材料体系之一,ABO3型钙钛矿材料表现出较高的介电常数(),并被广泛应用于储能设备1、太阳能电池设备2、陶瓷电容器3等领域,如钛酸钡(BaTiO3)4、钛酸锶(SrTiO3)5等。伴随着电子元器件向小型化和轻量化的发展趋势,人们对电介质材料高介电常数的需求越来越高。因此,探索高介电
8、常数的新电介质材料成为该领域的重要研究方向之一。随着大数据与人工智能等技术的飞速发展,机器学习方法成为了数据驱动新材料研发的重要工具,并在材料领域引起了广泛的关注。例如,监督 收稿日期:20220930。修订日期:20221124。基金项目:国家自然科学基金青年科学基金项目(52002300);国家自然科学基金重大研究计划培育项目(92066103);中国科协青年人才托举工程(2019QNRC001)。第一作者:刘润林(2001),男,硕士研究生。通信作者:沈忠慧(1991),男,博士,副教授。Received date:20220930.Revised date:20221124.First
9、 author:LIU Runlin(2001),male,Master candidate.E-mail:rony_ Correspondent author:SHEN Zhonghui(1991),male,Ph.D,Associate Professor.E-mail: 368 硅酸盐学报 J Chin Ceram Soc,2023,51(2):367372 2023 年 学习方法对钙钛矿材料带隙6、Curie 温度7、压电系数8的预测。此外,机器学习在评估和预测钙钛矿材料的介电性能中也有着广泛的应用,如 Kim 等9通过机器学习结合密度泛函微扰理论对 ABO3型钙钛矿材料的介电常数进行
10、了预测;Lin 等10通过梯度增强回归(GBR)成功预测 431 组多晶钙钛矿材料介电常数的电子贡献值。然而,高介电常数的电介质材料筛选仍面临着性能数据标签少、搜索空间大等诸多挑战。作为一种从无标记属性数据中提取隐藏信息的技术,无监督学习方法在特征提取、模式识别和新材料发现等领域发挥着重要的作用,并被应用到了高电导率锂离子电容器的发现11、半 Hessle 热电材料的搜索12以及电子结构描述符提取13等。本工作以 Materials Project 材料数据库(MP,https:/materialsproject.org/)中 2 398 种 ABO3型钙钛矿结构化合物为原始数据,采用无监督学
11、习的方法对具有高介电常数潜力的 ABO3型钙钛矿材料进行筛选,其中含有介电常数性能标签的数据为 104 种。工作流程如图 1 所示,基于少量有标签的材料数据,在原始数据空间利用聚类方法将低介电常数的钙钛矿材料进行过滤后,通过多次更新迭代,挖掘出具有高介电常数的 ABO3型钙钛矿材料。Dielectric constant;Goodness of clustering;mClustering threshold 图 1 无监督学习迭代筛选具有高介电常数的钙钛矿材料流程图 Fig.1 Workflow of iterative screening of materials with high di
12、electric constant by unsupervised learning 1 研究方法 1.1 数据集和特征工程 以 ABO3型的钙钛矿材料为研究对象,借助Pymatgen 包14从 MP 数据库中收集到了 2 398 种钙钛矿材料原始数据,其中 104 种材料的介电常数被标记,相对 介于 1341 之间。结合钙钛矿材料的结构特点,本工作初步选取了 156 种描述符,分为以下 3 类:1)元素信息:包括元素主族数、周期数、离子半径、电荷量、原子质量、电负性、容忍因子、八面体因子、空间电子结构等15,随后对每一种特征计算其 4 个统计量,即最大值、最小值、平均值以及标准差,以确保每个
13、样本具有相同数量的特征;2)结构信息:空间角(、)、AO、BO、AB 离子距离、体积(V)、密度()、熔点、空间群数等,其中磁化强度(MN)也被考虑在其中;3)能量特征:每个原子的能量(E)、形成能、带隙等。为了删除冗余信息、纠正数据中存在的错误,并保证数据一致性,首先对原始数据集(图 2a)中的异常值(如半径、体积为负值)与缺失值(如带隙、能量不存在)进行过滤处理,同时对所有描述符进行 Min-Max 归一化处理,随后利用 Pearson 相关系数以及距离相关系数去除相关性过高的描述符。当 2 个描述符的相关系数超过 80%,则只随机保留其中 1 个描述符,最终数据清洗后的维度为 1 030
14、87。图 2b 是特征选择后的 Pearson 相关系数热力图,表明特征之间没有明显的相关性。1.2 模型选择 为找到合适的聚类算法,使用了 8 种不同的聚类方法并进行了对比,分别为 K 均值16、综合层次聚类(Birch)17、谱聚类(Spectral Clustering)18、均值偏移(Meanshift)、亲和力聚类(Affinity Propagation)、双 聚 类(SpectralCoclustering)、聚 合 层 次 聚 类(Agglomerative)、Gaussian混合模型(GaussianMixture)以 及 小 批 量K均 值(MinibatchKmeans)
15、19。聚类的好坏用聚类优度()来评估,其定义为轮廓系数(S)与 Davies Bouldin 指数(D)20的差值,越接近于 1 说明聚类效果越好。轮廓系数越大代表簇内距离越近以及簇间距离越远;D 越小代表了簇内距离之和与簇间距离之和的比值越小。结合了 2 种系数各自的优势,能够避免聚类算法进入局部最优。计算公式如下:11,max,()1max ,MiiiiiNijiijbaSb aSSDNppSD=|+|=|=(1)第 51 卷第 2 期 刘润林 等:无监督学习探索高介电常数的 ABO3型钙钛矿材料 369 (a)Raw dataset (b)Feature correlation coef
16、ficient plots (c)First cluster analysis 图 2 原始数据集以及数据清洗 Fig.2 Raw dataset and data cleaning 其中:bi为样本 i 到同簇其他样本的平均距离;ai为样本 i 到其他簇的所有样本的平均距离;M 代表 样本总数;N 代表簇数;iS代表簇内数据到簇内质 心的平均距离;pi代表第 i 个簇类的质心。为寻找高介电常数簇类,需将有标签样本进行划分,设定介电常数高于 30 的样本为高介电材料,其余为中低介电材料。在每次聚类后,选择较高的聚类方法进行分析来过滤材料。根据不同聚类结果,定义 hka()()()()iiii=(2)其中:h()i表示i类已知标签的高介电钙钛矿在所有高介电钙钛矿的占比;()ki表示第i类已知标签的钙钛矿在所有已知钙钛矿的占比;a()i表示第i 类钙钛矿在所有钙钛矿中的占比;()i为一个比例系数,其越高则说明第i类里的高介电钙钛矿材料越多,即为高介电簇类。设定聚类阈值m,当()i超过m则认为第i簇类为高介电簇类。通过对m进行分析,发现当其在0.750.90附近进行扰动时,数据变化的总体趋势