1、第 51 卷第 2 期 2023 年 2 月 硅 酸 盐 学 报 Vol.51,No.2 February,2023 JOURNAL OF THE CHINESE CERAMIC SOCIETY http:/ DOI:10.14062/j.issn.0454-5648.20220991 面向材料领域机器学习的数据质量治理 刘 悦1,4,马舒畅1,杨正伟1,邹欣欣1,施思齐2,3(1.上海大学计算机工程与科学学院,上海 200444;2.上海大学材料科学与工程学院,上海 200444;3.上海大学材料基因组工程研究院,上海 200444;4.上海市智能计算系统工程技术研究中心,上海 200444
2、)摘 要:数据驱动的机器学习凭借其准确高效的预测能力广泛应用于材料的性能预测和构效关系研究。数据决定了机器学习的上限。然而,目前材料领域的数据存在来源广、噪音大、样本少、维度高等数据质量问题,阻碍了机器学习在材料领域更广泛的应用。本文从数据品质和数据数量 2 个视角系统梳理并全面剖析了材料领域数据质量问题及其相关治理工作,发现数据品质与数据数量共同决定数据质量。基于此,提出了面向材料领域机器学习全过程的领域知识嵌入的数据质量治理框架。该框架定义了 12 种维度用于解析材料数据质量的内涵;构建了数据质量治理的生命周期模型以确保数据质量治理活动有序进行;建立了一系列数据质量治理处理模型,从领域知识
3、与数据驱动 2 个方面对数据质量进行精准全面治理,为生命周期模型的具体实施提供技术支持。该框架实现了材料数据质量的综合评估与提升,为高质量数据获取提供理论指导与候选方案,加速机器学习在材料研发中的深入应用。关键词:材料科学;机器学习;数据质量;领域知识 中图分类号:TP181;TB3 文献标志码:A 文章编号:04545648(2023)02042711 网络出版时间:20230117 A Data Quality and Quantity Governance for Machine Learning in Materials Science LIU Yue1,4,MA Shuchang1,
4、YANG Zhengwei1,ZOU Xinxin1,SHI Siqi2,3(1.School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China;2.School of Materials Science and Engineering,Shanghai University,Shanghai 200444,China;3.Materials Genome Institute,Shanghai University,Shanghai 200444,China;4.Shanghai Engi
5、neering Research Center of Intelligent Computing System,Shanghai 200444,China)Abstract:Data-driven machine learning is widely used in materials property prediction and structure-activity relationship research due to its accurate and efficient predictive ability.Data determines the upper limit of mac
6、hine learning.However,materials data often have various quality and quantity problems(i.e.,multiple sources,large noise,small samples,and high dimensionality),affecting the application of machine learning in the materials field.In this paper,by analyzing the data quality and quantity problems and th
7、eir related governance work,we find that data quality and data quantity jointly determine this problem.Following this,a data quality and quantity governance framework embedded by materials domain knowledge in the whole process of materials machine learning is proposed.We define twelve dimensions to
8、analyze the connotation of materials data quality and quantity.A life cycle model of data quality and quantity governance is constructed to ensure that data quality and quantity governance activities are carried out in an orderly manner.To manage data quality and quantity accurately and comprehensiv
9、ely,a series of corresponding governance processing models are established from domain knowledge and data-driven aspects,which provides technical support for the specific implementation of the life cycle model.This framework realizes the overall evaluation and improvement of materials data quality a
10、nd quantity,providing theoretical guidance and candidate solutions for high-quality and appropriate-quantity data acquisition and accelerating the in-depth application of machine learning in materials research and development.Keywords:materials science;machine learning;data quality and quantity;doma
11、in knowledge 收稿日期:20221118。修订日期:20221212。基金项目:国家重点研发计划项目(2021YFB3802101);国家自然科学基金面上项目(52073169);国家自然科学基金重大研究计划培育项目(92270124)。第一作者:刘 悦(1975),女,博士,教授。通信作者:施思齐(1978),男,博士,教授。Received date:20221118.Revised date:20221212.First author:LIU Yue(1975),female,Ph.D.,Professor.E-mail: Correspondent author:SHI S
12、iqi(1978),male,Ph.D.,Professor.E-mail: 综 合 评 述 428 硅酸盐学报 J Chin Ceram Soc,2023,51(2):427437 2023 年 近年来,数据驱动的机器学习正被成功地应用于材料的性能预测、新材料发现和过程优化中14。然而,数据决定了机器学习的上限56。在数据收集过程中,由于实验误差、环境差异、计算缺陷等各种不确定性因素,数据的品质往往受到影响,导致其具有稀疏性、高噪音、多源异构等特点7。此外,数据的数量也是影响数据质量的关键因素之一:一方面,由于材料样本的获取依赖于复杂的实验或劳动密集型的采集工作,这导致其数量普遍较小(样本量
13、不足);另一方面,材料专家在获取样本的过程中,通常定义多个描述符(特征)来描述材料性能复杂的驱动机制,使得材料数据通常具有较高的维度8(特征量偏大)。为了进一步提升机器学习的准确性和可信性,使其结果更容易被材料科学领域的研究人员所接受和推广,在应用机器学习解决材料科学问题前,对材料数据进行充分的数据质量治理具有十分重要的意义。值得注意的是,并非所有数据都存在质量问题。当样本量适中且特征较少时,数据治理会引入噪声,降低模型精度。因此,对数据质量进行治理前需要定义合理指标评估数据是否存在质量问题。目前,材料领域已有一些工作针对数据质量问题展开研究。针对数据品质问题,一些研究将统计分析方法和机器学习
14、算法相结合,对异常数据进行识别并剔除910,通过对比剔除异常数据前后机器学习模型的预测精度,发现进行数据品质治理能够在某种程度上提升模型精度;针对数据数量问题,一些研究在机器学习建模前使用特征选择事先删除冗余特征,通过对比删除冗余特征前后机器学习模型的预测精度,发现进行数据数量治理能够有效降低模型复杂度,从而构建具有良好泛化性能和较高预测精度的机器学习模型11。综上所述,材料领域已有研究从单一角度探索了数据质量问题,表明提升数据质量能够在一定程度上提高机器学习模型的预测精度。但仍有以下2 方面需要重视:1)需要数据质量治理统一框架的指导,以对数据质量进行全面系统地评估与提升;2)材料领域知识对
15、于数据治理具有非常重要的作用。例如:Yuan 等12在领域知识的指导下对数据库中数据进行预处理,高效优化了合金成分,提高了机器学习模型预测精度;刘悦等13全面探讨了在机器学习各阶段实现材料领域知识嵌入的关键技术。因此,研究人员在利用数据驱动的机器学习方法的同时,还应该注重材料领域知识的重要性,面向材料领域机器学习全流程,在领域知识的指导下,探索数据在机器学习每一阶段可能存在的质量问题,实现数据质量的动态监测和全面控制,从而指导研究人员进行更准确的数据分析和更可靠的科学决策。本文综述了面向材料领域机器学习的数据品质治理和数量治理的研究现状,并对材料数据在机器学习应用全过程中各阶段面临的质量问题进
16、行了阐述。基于此,提出一种面向材料领域机器学习应用全过程的领域知识嵌入的数据质量治理框架,旨在为机器学习任务提供更高质量的学习样本,提升机器学习在材料领域应用的可靠性;最后,展望了材料数据质量治理的未来发展。1 材料领域机器学习中的数据品质治理 为提升材料数据品质以获得更好的机器学习模型预测性能,研究人员开始采用数据统计或机器学习方法对数据品质问题进行定量分析,例如,Gharagheizi14和 Hemmati-Sarapardeh15等使用最小二乘支持向量机对离子液体的电子电导率进行预测时,通过人工校验、统计分析成功剔除由于文献资料错误报道或实验测量误差造成的异常样本,保证了机器学习模型的准确性和可靠性;Li 等16探讨了数据分布的不均衡性对机器学习模型的影响,通过在不同组分空间中建立不同的分类或回归模型,再对预测结果进行集成以提升钙钛矿氧化物凸包能量的预测准确性;Xu 等17开发了一种程序来识别材料工程数据库(MP)中化学式组成为 ABX3和(AA)(BB)X6的化合物的钙钛矿的形成性,发现了11个ABO3化合物的形成能数据存在异常并进行了合理校正;此外,也有研究从定性分析的角度出