1、第 卷第期 年月 收稿日期:基金项目:国家自然科学基金面上项目()作者简介:李明倩(),女,湖北武汉人,硕士,实验师,研究方向为大学计算机教育教学和科研、数据分析统计;王苗(),女,湖北武汉人,学士,助理实验师,研究方向为微课、精品课程拍摄及后期制作与研究,计算机基础教育研究;刘芳(),女,湖北武汉人,博士,副教授,研究方向为数据库、数据挖掘及大数据。改进 的电网控制自动化系统数据聚类方法李明倩,王苗,刘芳(武汉城市学院实验实训中心,湖北 武汉 ;武汉大学计算机学院,湖北 武汉 )摘要:为了解决海量数据导致电网控制效率低的问题,提出改进 的电网控制自动化系统数据聚类方法。首先,利用主成分分析法
2、提取出电网控制自动化系统数据主成分,将数据简化和降维;然后,通过滤波去噪处理电网数据,保证聚类样本干净整洁;最后,在改进 聚类算法下对数据聚类,确定值得到最优聚类结果,实现电网控制自动化系统数据聚类。实验结果,对比每组样本下种方法的 值,每组实验中 值的最大值都是所提方法,说明所提方法的聚类难度小和频率控制稳定性小。关键词:;电网控制;主成分分析;数据去噪;数据聚类中图分类号:文献标志码:文章编号:(),(,;,):,:;引言电力控制自动化管理系统的主要作用是为工作人员提供实时监测和分析配电网运行状况提供有效数据,便于工作人员获取正确的电网工作状态,确保人员对电力系统控制过程中可准确获取电网故
3、障数据,提高电网控制效果。但电力自动化管理系统每秒钟都会产生大量数据,由于数据在自李明倩等:改进 的电网控制自动化系统数据聚类方法自动控制与检测动化管理系统中发生交换时常出现故障漏报的现象,大大增加了工作人员的工作量,通过数据聚类刚好可以缓解工作人员的工作量,为此,针对电网控制自动化系统数据的聚类展开研究。任冲等提出新能源接入电网的断面传输方式聚类分析方法;赵忠啟等提出基于自编码器的电力负荷聚类分析方法。以上种方法在对数据进行聚类过程中没有对数据进行预处理,导致数据中噪声过多,存在聚类难度大和频率控制稳定性差的问题。为了解决上述方法中存在的问题,提出改进 的电网控制自动化系统数据聚类方法。电网
4、控制自动化系统数据预处理 主成分分析大量的电力数据给电网自动化控制带来巨大负担,通过数据降维可最大程度降低自动化控制的运算压力,主成分分析运用原始变量之间的相关关系,利用最少的新变量替换原始变量中数据量较大的变量,使得问题简化,在这一过程中一定要保证这些少数变量能够尽可能地保存原始变量反映出来的信息。若电网控制自动化系统中可以处理的曲线一共有条,且每条曲线都是维变量,将所有曲线进行组合形成的样本矩阵为 ()为电网控制系统第个样本数据的第维度的值。假设新变量的中和指标变量为,则得出 ()为中和变量指数;为原始变量;为全新变量的主 成 分;为 主 成 分 载 荷;为 矩 阵 纵 序 列编号。将矩阵
5、进行标准化处理后 得到原始变量为?()?为电力自动化控制数据原始向量的平均值;为标准化处理后的向量;为数据维度的系数。则矩阵的标准差计算公式为(?)()进而得出标准化矩阵的相关系数矩阵表达式为 ()其中矩阵系数 的表达式为(?)(?)(?)(?)()通过 算法对分量特征方程进行求解,得出特征值,并根据主成分分量大小从大到小的顺序进行排序,则第个主成分分量贡献率的计算式为()则特征向量累计贡献率的计算式为()通过上述公式计算出特征向量的累计贡献率,提取累计贡献率在 之间的特征值,从中选取出个特征值对应的主成分,通过该主成分表示原始样本数据的特征,则载荷的计算式为 ()为单位特征向量。进而得到每种
6、主成分的得分,得分矩阵表达式为 ()()根据以上分析即可完成对电网控制自动化系统数据的降维,为数据聚类降低操作难度,提高聚类效率。数据去噪电网控制自动化系统数据中不可避免出现带有噪声的数据,这些数据会影响最终数据聚类的精度,所以在实际聚类过程中需要提前对数据进行去噪 。数据去噪就是对数据进行分解,将分解信号进行处理后实施数据重构得到完整干净的电网控制 自 动 化 系 统 数 据。在 经 验 模 态 分 解 方 法()数据分解原理的协助下将原始数据进行分解,假设原始数据信号为(),则信号分解表达式为()()()为电网 控制 自动 化 系统 数 据 残 余 函 数;()为原始电网控制自动化数据各阶
7、固有模式函数分量。将电网控制自动化系统数据进行分解后,可很好地呈现出在不同尺度下的数据特征,方便数据以层为单位进行过滤,防止出现数据漏去噪的情况,其中滤波去噪的步骤如下所述。向原始信号()内添加正态分布白噪声,将更新后的电网控制自动 化 系统 数 据 开 展 归 一 化处理。利用式()将添加白噪声后的数据进行分解以及初始化,分解后的电网控制自动化系统数据的表达式为()()()()为含有白噪声分解后的信号数据余量。当余量()幅值小于固定阈值时,则停止计算,否则进行步骤。提取出个分量。初始化剔除信号()。求解出剔除信号()的局部极大值以及最小值。通过三次样条插值函数求解出极大值和极小值的包络线,并
8、得出两者的平均值,其表达式为()()()()()为极小值包络线;()为极大值包络线。则剔除信号的表达式为()()()()()()为信号的权重。当在计算过程中符合中止条件即可进行下一步。不断循环进行上述步骤,在每次循环过程中添加白噪声,将每次的结果进行平均,最终生成信号的固有模式函数组合,即经过去噪后的重构数据公式,其表达式为(),()()基于改进 的数据聚类聚类实际上就是对电网自动化控制数据进行考察,并根据距离测度将所有数据聚类成很多个“簇”的过程。为了保证聚类结果,采用最远距离算法求解电网控制自动化系统两两数据之间长度,并根据结果得出距离矩阵,提取矩阵中距离最远的个数据点视为原始聚类中心,将
9、其余数据和前个中心点距离之和最大的点视为第个原始聚类中心点,在此方法的帮助下不断得出其余数据中心点,当聚类中心点的数量符合固定值值则停止。通过余弦夹角求解出数据间的距离,则余弦夹角聚类的计算式为 (,)()为每个簇中数据的个数;为数据的位置;为任意数据值和位置。当余弦值越大说明两数据点之间的距离越大,否则反之。改进的 数据聚类其关键点在于固定值值的确认,值也就是数据聚类的种类数量,大多数数据聚类的数量会小于电网控制自动化数据的数量,值的确认要求十分严格,多以利用与错误率相似的目标函数测量整体性能进行计算。假设是 聚 类 中 的 第个 目 标 的 向 量,令,是和向量相对应的聚类索引,进而生成确
10、认聚类值的公式,即聚类均值的总方差,其表达李明倩等:改进 的电网控制自动化系统数据聚类方法自动控制与检测式为()()()为各向量的聚类均值;为电网控制动画系统数据文档的数量。计算出值后即可对其中的个数据进行聚类,再对第个进行聚类,并返回 算法,同时保证聚类依次递增。当值过大时立即停止 算法,利用值的变化幅度对比目标函数,求解出聚类结果的均值总方差即可生成最优聚类效果下的值。假设电网控制自动化系统数据共有个,则簇数一定小于个,而聚类簇数一定小于等于个,根据最优距离选取个原始聚类中心,通过 完成数据聚类,输出结果即可。实验结果与分析为了验证改进 的电网控制自动化系统数据聚类方法的整体有效性,现对本
11、文方法、电网的断面数据聚类方法和电力负荷聚类方法进行聚类难度和聚类控制稳定性的测试。聚类难度分析为了比较种方法在实际操作过程中的难易程度,在相同值下利用种方法对同一个电网控制自动化系统数据进行聚类,分别得出每种方法下的自动聚类结果与手动聚类结果,并比较每种方法下自动和手动聚类之间的差异。因为电力数据量过大,所以电力控制数据经过聚类后仅仅体现其类中心,且负荷值是利用归一化处理后的数值。实验结果如图和图所示。图种方法的自动聚类结果通常情况下,手动聚类更加接近聚类的最优结果,分别对比种方法的手动以及自动聚类结果的差异,本文方法的差异是最小的,两者的聚类结果基本相同,其他种方法的手动和自动结果差异过大
12、,说明这种方法在实际操作过程中更加困难。图种方法的手动聚类结果 数据聚类质量分析聚类的质量评估可通过外部数据进行评价,也可以通过聚类本身进行评价,但两者的核心思想就是当处于一类的数据时,同一类的各数据点距离越近、而不同类数据间距离越远,说明聚类的质量越好。其中,将同一类别的数据点称为内聚因子,其余类别的数据点称之为离散因子。电网控制自动化系统数据聚类结果 指标是评价聚类质量的有效指标,其计算公式为 ()()(),()(),(,)(),(,)()()为 内 聚 因 子;()为 离 散 因 子;为 指标的系数因子;(,)为聚类点;、为自动化系统中函数因子的数值和位置。根据式()分别计算出种方法下
13、结果,越大说明数据聚类的质量越高。数据聚类实质上是无监督学习算法,当无法得知聚类结果的优劣,就需要通过 的帮助,将种聚类算法在同一数据中进行聚类,分别得出每组样本中种方法的 值。在电网控制 ()自动化系统数据中选取簇数完全不同的 组数据,将其设定为样本样本,在每组样本中均进行次实验并得出种方法的 平均值,实验结果如表所示。表种方法的 值样本编号本文方法电网的断面数据聚类方法电力负荷聚类方法样本 样本 样本 样本 样本 样本 样本 样本 样本 样本 样本 样本 样本 样本 样本 对比每组样本下种方法的 值,每组实验中 值的最大值都是本文方法。此外,本文方法的实验结果十分稳定,波动较小,其他方法实
14、验结果波动较大。综上所述,本文方法的聚类质量更高。结束语电网控制自动化系统数据在实际应用过程中太过分散,造成电网控制结果不理想,为此提出改进 的电网控制自动化系统数据聚类方法。该方法首先对电网控制自动化系统数据进行主成分分析以及去噪处理,并利用 对数据进行聚类,实现逆电网控制自动化系统数据聚类,解决 了 聚 类 难 度 大 和 频 率 控 制 稳 定 性 差 的问题。参考文献:谷昱君,黄永章,杨鑫,等 提升光伏发电系统惯性响应和频率调整能力的研究 大电机技术,():康宁,张颖,任桂田,等 考虑 量测信息的配电网运行状态分析方法电力系统及其自动化 学报,():王宇,高吉普,林呈辉,等基于多源数据
15、融合的电网故障智能 诊 断 方 法 研 究 电 子 器 件,():任冲,牛拴保,柯贤波,等 新能源接入电网的断面传输方式聚类分析 电力系统自动化,():赵忠啟,常喜强,樊艳芳,等 基于自编码器的电力负荷聚类 分 析 科 学 技 术 与 工 程,():李海芹,申向丽电力系统配电网技术在农机自动化控制中的应用 农机化研究,():魏世超,李歆,张宜弛,等基于 的混合属性数据降维可视化方法计算机工程与应用,():李东东,段维伊,周波,等基于主成分分析的电力市场供应侧主体竞争潜力指数研究电力系统保护与控制,():熊宁,朱文广,钟士元,等基于非线性映射与核主成分分析的区域配电网综合评价方法现代电力,():潘志新,翟学锋,王成亮,等基于边缘计算的智能配电网多源数据处理与融合技术研究电气传动,():赵斌,张闯,李隆,等电力变压器振动检测装置设计及振动信号去噪方法研究电测与仪表,():孙冬,马立修,潘金凤,等改进的电缆中间接头局放信号去噪方法 水电能源科学,():刘宏伟,谢敏,魏兵,等 高效率计算光滑平台上远距离天线间互耦算法系统工程与电子技术,():李丽亚,闫宏印改进 加权自适应多视图数据聚 类 算 法 计 算 机 仿 真,():,吴行斌,郭强,张林兵,等基于网络社团划分方法的多维数据 聚 类 研 究 计算 机 应 用 研 究,():