1、任梦姣,孙记红,王晓宇,等.海洋地质数据挖掘系统研发及在海山年龄预测中的应用J.海洋地质前沿,2023,39(2):79-85.REN Mengjiao,SUN Jihong,WANG Xiaoyu,et al.Marine geological data mining system development and its application in seamount agepredictionJ.Marine Geology Frontiers,2023,39(2):79-85.海洋地质数据挖掘系统研发及在海山年龄预测中的应用任梦姣1,孙记红2*,王晓宇1,容伊霖1,白永良1(1 中国石油
2、大学(华东)海洋与空间信息学院,青岛,266580;2 中国地质调查局青岛海洋地质研究所,青岛,266237)摘要:利用数据挖掘技术分析海洋地质调查数据,以获取其中隐藏信息,对推进海洋地质数据的科学高效利用具有重要意义。在模块化设计原则下,利用 Python 语言开发海洋地质数据挖掘相关的核心功能,利用 WinForm 搭建人机交互界面,并通过参数交互的方式实现了界面和后台功能间的互动。基于综合地质地球物理资料,利用软件预测了太平洋海山年龄。预测结果精度高于利用传统克里金插值方法所得结果的精度。应用结果表明,所开发软件的数据预处理、指标分析、综合评价等功能具有很好的实用性。关键词:海洋地质;数
3、据挖掘;系统研发;海山年龄中图分类号:P628.4文献标识码:ADOI:10.16028/j.1009-2722.2022.251 0 引言随着海洋地质调查数据采集效率的不断提升,数据获取速度和周期得到明显改善。许多国家已经积累了大量多来源、多类型、多时段、多维度的海洋地质调查数据1,2。利用不同地球物理手段对同一区域进行探测时,可以采集到不同类型的调查数据,每类数据从不同角度反应了海洋地质信息3,4。充分利用多类型调查数据进行综合分析,有利于准确揭示海洋地质、海底资源的规律和特征。目前,对多源海洋地质调查数据进行协同分析的程度较弱。如何深入挖掘海量调查数据中的潜在信息,发现海洋地质、海底资源
4、的特征与规律,是当前面临的一个关键问题。数据挖掘是借助统计分析、机器学习、专家系统和模式识别等方法,从海量数据中提取、整理、分析数据,并发现数据中潜在规律的技术手段。因此,利用数据挖掘技术分析海洋地质调查数据,以获取其中隐藏的信息,对推进海洋地质数据的科学高效利用具有重要意义。目前,随着数据库、人工智能和数理统计技术的不断进步,数据挖掘技术得到了长足发展,被广泛应用于商业金融、社会网络、公共服务5-7和地球科学等诸多领域8。现有海洋地质调查数据处理与分析系统多是针对单一来源或单一类型数据而设计的,数据综合分析能力较弱,导致大量数据无法得到有效利用9。近期有多位学者研究了利用多源调查数据挖掘潜在
5、地质规律的方法和技术10-12,但是多处于理论研究阶段,尚无成熟的实用系统。因此,有必要基于目前成熟的数据分析、挖掘等方法技术体系,开发一套适用于海洋地质数据分析和挖掘的软件系统,以提高海洋地质领域的数据利用能力。本文综合多种适用于海洋地质数据的挖掘分析方法,充分利用计算机、数据挖掘、可视化、统计学等技术手段,研发海洋地质数据挖掘系统。通过将该系统应用于太平洋海山年龄预测,验证其实用性。收稿日期:2022-09-05资助项目:中国地质调查局项目(DD20190214,DD20221711);国家自然科 学 基 金 面 上 项 目(42176068);山 东 省 自 然 科 学 基 金 面 上
6、项 目(ZR2020MD065)作者简介:任梦姣(1997),女,在读硕士,主要从事智能海洋地质方面的研究工作.E-mail:*通讯作者:孙记红(1984),男,硕士,高级工程师,主要从事海洋地质大数据及智能化应用方面的研究工作.E-mail: ISSN 1009-2722海洋地质前沿第 39 卷第 2 期CN37-1475/PMarine Geology FrontiersVol 39 No 2 1 海洋地质数据挖掘方法海洋地质调查数据包括空间位置数据、野外综合调查数据、样品实验分析数据、资料解释数据和调查成果数据等13-14(图 1)。海洋地质调查数据类型多样,具有空间性强、尺度多、体量大
7、、数据维度高等特点,导致预处理过程复杂、综合分析涉及计算量大等问题。为了解决上述问题并获得有效的海洋地质规律,需要对海洋地质数据进行数据预处理、指标分析以及综合评价等操作。海洋地质调查数据海底地形地貌图矿产资源图文字报告取样站位钻孔位置观测站位取样数据地球物理数据样品分析数据实验分析数据浅剖解释数据单道地震剖面解释数据多道地震剖面解释数据调查成果数据空间位置数据野外综合调查数据样品实验分析数据资料解释数据图 1海洋地质调查数据情况Fig.1 The classification and composition of marine geologicalsurvey data 1.1数据预处理海洋
8、地质调查资料存在数据量纲不同、采样间隔不等、隐藏畸变数据等问题。因此,在进行数据综合分析之前,需要进行预处理。当多源数据存在差异化量纲时,数据分布范围差别大。同时,纳入同一数据分析方法后,会导致不同数据的权重出现明显差异。为此,利用数据归一化的方法,采取线性变换的方式消除不同量纲带来的影响。当地质调查工作没能覆盖到重要研究区域时,通常采用数据插值的方法推测空白区域的调查数据。地学领域中常用的数据插值方法为克里金方法15。此外,通过频谱分析,能够有效筛选出畸变数据、发现数据的整体分布趋势和局部特征。1.2指标分析不同类型海洋地质调查数据与研究目标间的关联程度不同,且不同调查数据之间可能存在相关性
9、。因此,需要明确不同变量/指标的权重,对相关性强的指标体系还需进行降维处理,提升综合评价的效率和精度。平均影响值(Mean Impact Value,MIV)是用于表征输入变量对输出结果影响程度的一个有效参数16。因子分析和主成分分析是常用的指标相关性分析方法。MIV 计算的具体过程为:选择 1 个输入参数,在原值基础上分别增加、减少 10%,构成 2 组新样本;基于 2 组样本,通过预测模型的模拟计算,得到 2 组预测结果;将 2 组预测结果的差值按样本数求平均,得到该参数的 MIV 值。重复上述步骤,求出各相关参数的 MIV 值。MIV 值的正负号代表参数对预测的影响方向,绝对值大小代表对
10、预测结果的影响权重17-19。因子分析能够揭示数据指标之间的关联性,进而提取主导指标、简化输入数据集20,得到的代表性指标可以有效保留原始指标的主要信息。通过线性变换的方式,主成分分析可以将海洋地质调查数据中的多个指标转化为一组在任何维度下都能保证线性无关的数据表示21-22,继而达到提取海洋地质调查数据中主要指标的目标。1.3综合评价综合评价就是基于筛选出来的代表性指标集合,利用统计分析、机器学习等方法定量表征或者预测研究目标特征的综合分析方法。针对评价目标的特征,需要选择合适的数学方法。常用的海洋地质数据综合评价方法有灰色关联法、聚类分析、回归分析和神经网络法等。误差后向传播(Back P
11、ropagation,BP)神经网络是按照误差逆向传播算法训练的多层前馈神经网络,其主要特点为信号前向传递、误差反向传播23。训练 BP 神经网络的步骤主要包括前向计算、误差反向传播及判断迭代是否结束。前向计算指输入数据通过权、阈值计算得到预测结果。误差反向传播的过程包括确定误差下降方向和下降速度,进而确定网络参数,以降低预测值与真实值之间的偏差。当偏差满足条件时,迭代结束,模型训练完成。因 BP 神经网络无法区分极值点与最值点,最终结果大概率趋于局部极小。而应用遗传算法(Genetic Algorithm,GA)优化 BP 神经网络参数,则可以较好地避免陷入局部最优的问题,优化后的方法成为
12、GA-BP 方法24。遗传算法是模拟自然界遗80Marine Geology Frontiers海洋地质前沿2023 年 2 月传机制和生物进化论而设计的一种并行随机搜索的最优化方法,具有高效启发式搜索、并行计算等特点25。遗传算法主要包括种群初始化、适应度计算、选择、交叉与变异等计算。2 海洋地质数据挖掘系统设计与实现海洋地质数据挖掘系统的性能应满足实用性、方便性、兼容性和可扩展性的要求。本文将以此为准则,设计并实现该系统。2.1系统结构设计本文的海洋地质数据挖掘系统以模块化设计为准则,将各功能进行模块化封装,各模块间松散耦合。每一模块均按照面向对象的思想进行设计,结构明确、独立性强,满足系
13、统更新和扩展的需要。系统结构包括数据处理层、平台功能层和业务应用层 3 部分(图 2)。数据处理层业务应用层平台功能层海洋地质调查基础数据数据更新集成服务输入指标分析帮助综合评价图形展示图形操作资料展示数据抽样数据标准化数据插值海山年龄预测海砂与相关资源潜力评价重点海岸带地质环境评价 图 2海洋地质数据挖掘系统总体架构Fig.2 Structural tiers of the marine geological data mining system 2.2系统功能设计海洋地质数据挖掘系统包括 6 个功能模块:数据预处理、指标分析、综合评价、图形展示、图形操作和帮助模块。主要模块包含的具体功能如
14、下:(1)数据预处理模块包括数据清洗、数据抽样、数据标准化、数据离散化、数据平滑和数据插值等功能;(2)数据指标分析模块包括 MIV 分析、因子分析和主成分分析等功能;(3)数据综合评价模块包括聚类分析、灰色关联分析、随机森林、支持向量机和神经网络分析等功能;(4)数据图形展示模块可以利用统计图表展示数据,具体图形形式包括散点图、直方图、折线图和饼状图等。(5)图形操作模块包括图形放大、图形缩小、图形漫游、图形清除、图形保存等功能。(6)帮助模块提供软件操作说明及版权归属说明。2.3系统开发为了提高系统开发效率,本文以权威的 Python开源库为基础,开发各功能的核心算法;利用 Win-For
15、m 设计人机交互界面;最终利用参数交互的方式,关联起软件界面与核心代码,形成海洋地质数据挖掘系统。因此,系统开发流程包括后台功能实现、软件界面搭建与参数交互 3 部分。(1)后台功能实现利用 Python 标准库和第三方库,有助于数据挖掘算法的快速实现。本文采用的第三方库主要有NumPy、Scikit-learn 和 Matplotlib。NumPy 库主要用于数组、矩阵的基本运算,能够进行高性能的数据处理。系统中的数据预处理、指标分析和综合评价模块采用的 Python 的 Scikit-learn 库。Scikit-learn库是专门为数据挖掘开发的第三方库,涵盖了当前常见的大部分机器学习算
16、法。系统中的图形展示模块采用 Matplotlib 库。Matplotlib 库支持交互式和非交互式绘图,可以绘制曲线图、条形图、饼状图等多种图形,并能够将图形保存成多种栅格与矢量第 39 卷 第 2 期任梦姣,等:海洋地质数据挖掘系统研发及在海山年龄预测中的应用81格式。PyInstaller 是 Python 的另一个第三方库,能够读取 Python 脚本,分析代码以发现脚本执行所需的所有模块和库。利用 PyInstaller 将相关 Python 程序打包成一个标准的独立可执行文件,这些文件可在未安装 Python 环境的计算机上运行。(2)软件界面搭建海洋地质数据挖掘系统采用 WinForm 框架构建系统界面。WinForm 框架可以进行 Windows 风格窗体设计,整体风格简约、美观,界面搭建的效率高。它可以采用插件化的开发模式,能够集成自主开发的模块和插件,便于系统更新和使用。Win-Form 框架还提供了软件系统需具备的常见功能,并能够提供已封装好的、有关数据访问的基类,便于提高开发效率。(3)参数交互系统后台功能开发与软件界面搭建完成后,需要将 WinForm 框架与