多保真度数据学习算法的定量噪声评价_刘晓彤.pdf-资源下载-蜗牛文库-知识共享服务平台

多保真度数据学习算法的定量噪声评价_刘晓彤.pdf

1、第 51 卷第 2 期 2023 年 2 月硅酸盐学报 Vol.51，No.2 February，2023 JOURNAL OF THE CHINESE CERAMIC SOCIETY http:/ DOI：10.14062/j.issn.0454-5648.20220811 多保真度数据学习算法的定量噪声评价刘晓彤1,2，王滋明2，欧阳嘉华3，杨涛1,2(1.北京信息科技大学，北京市材料基因工程高精尖创新中心，北京 100101；2.北京信息科技大学计算机学院，北京 100101；3.暨南大学信息科学技术学院，广州 511442)摘要：多保真度数据是当前材料领域数据的主要存在

2、形式。在数据生产端，不同量化方法在材料同种属性的计算上存在较大差距。对于数据消费端的机器学习算法，研究人员为最大化提取数据中知识设计了各种方法。采用定量噪声添加的方法，评价不同噪声强度、类型对不同多保真度数据学习方法的影响，通过迭代降噪验证数据修正方法的适用场景。结果表明：多保真度数据的利用方式至关重要，需对各子数据集中数据量及含噪情况进行综合考量。在使用不同噪声类型与强度构造出的多种数据集上，得益于数据间的协同效应，逐步删除低保真度数据的 Onion”训练方式明显优于按数据集所含噪声减小方向逐个进行的训练方式。在多保真度数据训练中，无论何种噪声强度及训练方式，线性噪声对模型的影响更小。对于采

3、样噪声来说，在各环节更好地模拟了真实多保真度数据，建议被后续研究采用。此外，复杂噪声难以让少量真值数据发挥纠偏”作用，更适合进行迭代降噪处理。关键词：多保真度；属性预测；机器学习；定量噪声中图分类号：TP181 文献标志码：A 文章编号：04545648(2023)02040506 网络出版时间：20230117 A Quantitative Noise Method to Evaluate Machine Learning Algorithm on Multi-Fidelity Data LIU Xiaotong1,2,WANG Ziming2,OUYANG Jiahua3,YANG T

4、ao1,2(1.Beijing Advanced Innovation Center for Materials Genome Engineering,Beijing Information Science and Technology University,Beijing 100101,China;2.School of Computer,Beijing Information Science and Technology University,Beijing 100101,China;3.School of Information Science and Technology,Jinan

5、University,Guangzhou 511442,China)Abstract:Most data in material science are multi-fidelity data.From the viewpoint of data producer,there is a system error for any quantum method.For machine learning algorithm,as a data consumer,various methods have been designed to maximize the number of knowledge

6、s extracted from the multi-fidelity data.In this paper,a quantitative method of noise addition was used to evaluate the influence of different noise types and intensities on some multi-fidelity data learning methods.And the effective scope of the data correction method was verified via iterative noi

7、se reduction.The results show that the ways to exploit the multi-fidelity data are crucial.It is necessary to consider comprehensively both the size and the noise level of the datasets.On a variety of datasets constructed with different noise types and intensities,the Onion training method that grad

8、ually deletes lower fidelity data is better than the one by one training method in the direction of noise reduction due to the synergistic effect of different multi-fidelity data.No matter what kind of noise intensity and training method,linear noise has less impact on the final performance of model

9、.However,the data with sampled noise added,which the final testing results are similar to the real multi-fidelity data,were recommended to be adopted in a future research.Also,the complex noise in data is difficult to be corrected by a small amount of true data,thus being more suitable for the itera

10、tive noise reduction processing.Keywords:multi-fidelity;property prediction;machine learning;quantitative noise 收稿日期：20220929。修订日期：20221105。基金项目：国家自然科学基金项目(22203008，22272009)。第一作者：刘晓彤(1987)，男，博士。通信作者：杨涛(1980)，女，博士。Received date:20220929.Revised date:20221105.First author:LIU Xiaotong(1987),male,Ph.

11、D.E-mail: Correspondent author:YANG Tao(1980),female,Ph.D.E-mail: 406 硅酸盐学报 J Chin Ceram Soc,2023,51(2):405410 2023 年精度计算资源权衡”广泛存在于机器学习中数据使用与生产的各个环节，多保真度的概念也由此涌现12。在数据使用环节，相同的数据在不同设备(如边缘计算设备，超级计算机等)被不同精度、不同资源消耗的多保真度模型使用34，根据实际需求更快或更准地产出结果。在数据生产环节，高精度的计算方式往往更耗时，长期数据积累较少；而对理论模型使用了更多近似的快速方法往往在数据积累量上占优

12、，但精度不足。这一现象在材料科学计算领域尤其常见，各种材料数据库中存在大量不同等级数据，即多保真度数据。与多保真度模型处理相同数据相对应的问题，是如何从多保真度数据中最大化地提取信息。传统机器学习在训练集与测试集之间存在一些基本假设：训练集与测试集中样本彼此相互独立同分布5。在多保真度数据集的利用上，由于不满足这类基础假设，模型的训练面临着诸多陷阱。对于大多场景，材料领域机器学习的目的是预测材料在现实世界中的真实属性值，因此测试集会选用由实验测得的数据结果。而材料数据库(MP)6、开放量子材料数据库(OQMD)7等数据库中存在的大多数据，往往是由密度泛函理论(对应一系列泛函，存在不同程度误差8

13、)或其他理论方法计算得到，实验测得真值数据相对较少。更有甚者，对于某些材料属性，存在多种实验测量方法，它们彼此结果之间也存在出入9，这进一步增加了多保真度数据的出现可能。研究人员针对不同数据，使用了多种方法处理上述问题，包括对传统模型改进10、信息融合算法11、Bayes 优化12、信息传递神经网络13等。在本团队之前研究中14，化学数据的生产端与消费端被区分对待，提出从数据噪声的角度看待这一问题。数据生产者角度认为的系统误差，从数据消费者角度去理解，便是机器学习训练集与真值之间存在的噪声，即数据的保真度。以上观点恰巧与施思齐教授团队最近发表的综述154.1 节(数据预处理阶段的基础与研究)

14、观点相呼应“伴随着机器学习在材料领域的广泛应用，决定机器学习模型上限的材料数据质量越来越被重视。材料领域的研究者们分别围绕数据的质和量展开了研究，期望通过提升数据的品质和数量来进一步提升机器学习结果的可信性。”因此，本工作继续尝试从数据角度出发来解决多保真度数据的机器学习问题，不再去设计更复杂的模型，而是去尝试更高效地利用数据。具体来说，本工作尝试定量地评价多种多保真度数据利用方法，以确定不同方法较优的应用场景。在文献14中，所采用的测试数据为 MP 中原生的多保真度数据，预测属性为材料的禁带宽度值。其中，实验测得数据被视为真值数据，使用不同泛函计算得到的数据被视为含有不同程度噪声。该工作除对

15、降噪方法进行综述外，讨论了不同数据的含噪情况及在该特定多保真度数据集条件下，不同数据利用及降噪方法的优劣，建议感兴趣读者优先阅读该文。由于原生多保真度数据中噪声强度、类型及数据集大小均不可控，采用人工引入定量噪声的办法生成模拟多保真度数据集，并以此为基础展开模型训练，评测模型预测性能。相关降噪工作在不同属性、不同数据集及不同机器学习模型上均有复现(如使用 Schnet 模型16，在 QM9 数据集1718上针对形成能的测试)。为延续前文思路，仍选用禁带宽度值对方法进行评估与讨论。未来利用此方法，在为机器学习模型训练准备数据时，可以提前使用相似属性确定较优的多保真度数据配比方案，最大化地节省数据

16、生产所需时间，帮助研究人员将超算机时更合理地分配在不同精度、不同耗时的数据生产算法上。1 实验 1.1 数据在之前工作10,14中，所用多保真度数据集包括了MP中使用泛函Perdew-Burke-Ernzerhof(PBE)19，Heyd-Scuseria-Ernzerhof(HSE)2021，Strongly constrained and appropriately normed(SCAN)22及 Gritsenko-Leeuwen-Lenthe-Baerends(GLLB)2324计算的材料禁带宽度相关数据。各数据集元素种类、目标精度及相互覆盖关系等原始数据分析结果在相关参考文献14中已详细给出，此处不再赘述。表 1 为上述各数据集数据量及不同类型材料的分布情况。使用其中数据量最大、种类分布最均匀的PBE数据集作为真值数据集，将52 3486条数据随机划分为5个数据集，其中训练集(简称A、B、C、D 集)分别包含 A:30 000，B:10 000，C:5 000，D:2 348 条数据，测试集包含 5 000 条数据。有文献报道，DFT 计算所得禁带宽度数据一般较真实

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？