您的当前位置：首页一种基于电力大数据平台的数据处理方法及系统[发明专利]

一种基于电力大数据平台的数据处理方法及系统[发明专利]

来源：宝玛科技网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112819041 A(43)申请公布日 2021.05.18

(21)申请号 202110049472.6(22)申请日 2021.01.14

(71)申请人吴娟

地址 410007 湖南沙沙高新开发

区麓湖路39号央谷金苑A座722房(72)发明人吴娟　

(74)专利代理机构长沙正务联合知识产权代理

事务所(普通合伙) 43252

代理人郑隽　吴婷(51)Int.Cl.

G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 20/00(2019.01)

权利要求书4页说明书13页附图2页

(54)发明名称

一种基于电力大数据平台的数据处理方法及系统(57)摘要

本发明涉及一种大数据的技术领域，揭露了一种基于电力大数据平台的数据处理方法，包括：获取电力数据，并对电力数据进行缺失值处理和噪声数据处理；根据处理后的电力数据，计算得到电力数据指标，并利用电力数据指标赋权方法对电力数据指标权重进行赋值；利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测；利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量；将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行电力系统的故障诊断。本发明还提供了一种基于电力大数据平台的数据处理系统。本发明实现了电力数据的处理。

CN 112819041 ACN 112819041 A

权　利　要　求　书

1/4页

1.一种基于电力大数据平台的数据处理方法，其特征在于，所述方法包括：获取电力数据，并对电力数据进行缺失值处理和噪声数据处理；

计算得到电力数据指标，并利用电力数据指标赋权方法对电根据处理后的电力数据，

力数据指标权重进行赋值；

利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，检测到电力系统中的异常用户；

删除异常用户的电力数据指标数据，并利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量；

将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理，实现电力系统的故障诊断。

2.如权利要求1所述的一种基于电力大数据平台的数据处理方法，其特征在于，所述电力数据缺失值的处理公式为：

其中：

x(d,t)表示第d天，第t个时段用户x的用电量数据或负荷数据。3.如权利要求2所述的一种基于电力大数据平台的数据处理方法，其特征在于，所述电力数据中噪声数据的处理公式为：

通过负荷数据的变化率判断负荷数据中是否存在噪声数据，对于用户i的负荷数据曲线xi＝[xi,1,xi,2,...,xi,n]T，其中n表示用户i的负荷数据数量，负荷变化率可表示为：

其中：δ在j点的负荷变化率；i,j为用户i的负荷数据曲线，当负荷变化率超过阈值时，判断该点的负荷数据为噪声数据，设置阈值为0.5；对于噪声数据，利用下式进行噪声数据的修正：

其中：

为噪声数据xi,j修正后的数据；

u,v为取点参数，设置u为3，v为4。

4.如权利要求3所述的一种基于电力大数据平台的数据处理方法，其特征在于，所述利

包括：用电力数据指标赋权方法对电力数据指标权重进行赋值，

所述电力数据指标赋权方法流程为：1)若样本数据包含m个用户，n个电力数据指标，则第i个电力数据指标的熵值计算公式为：

CN 112819041 A

权　利　要　求　书

2/4页

其中：

fij为第j个用户在第i个电力数据指标下的贡献度；rij为第j个用户在第i个电力数据指标下的数据值；2)计算第i个电力数据指标的熵权：

3)得到负荷最高小时利用率、日峰谷差率、峰期负载率以及谷期负载率对应的4个权重向量W＝[w1,w2,w3,w4]，并将所述权重赋给对应的电力数据指标，得到电力数据指标数据。

5.如权利要求4所述的一种基于电力大数据平台的数据处理方法，其特征在于，所述利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，包括：

1)将不同用户的电力数据指标按时序信息排序，并用序列力数据指标的差值，其中

2)利用

表示各时间段电

表示电力数据指标在t1时刻与t0时刻之间的差值；

表示用户r在t0时段对应的滑动窗口集合，其

中窗口大小为n，步长为1，若滑动窗口内的差值之和超过阈值T，则认为该用户可能存在异常用电的情况；将所有可能存在异常用电的用户的电力数据指标数据构成异常电力数据指标数据集合S；

3)利用基于数据不均衡的支持向量机对异常电力数据指标数据集合S中的数据进行判定决策，所述判定决策为二分类问题，决策结果为yi，若yi＝‑1，则表示异常电力数据指标数据集合S中第i个用户不存在异常用电情况，若yi＝1，则表示异常电力数据指标数据集合S中第i个用户存在异常用电情况，为电力系统中的异常用户；本发明所述基于数据不均衡的支持向量机模型为：

其中：ααi,j为拉格朗日乘子；

n为异常电力数据指标数据集合S中用户总数；

CN 112819041 A

权　利　要　求　书

3/4页

m为决策结果为1的异常电力数据指标数据数量；xi为待决策的异常电力数据指标数据；xj为已决策的异常电力数据指标数据；C为超参数，C′为C乘以一个权重，C′越大表示该类型数据在训练过程中受重视程度越大；

K(xi,xj)为高斯核函数，其公式如下：

σ为异常电力数据指标数据方差。

6.如权利要求5所述的一种基于电力大数据平台的数据处理方法，其特征在于，所述利用改进的K‑means算法进行电力数据指标数据的聚类，包括：

1)对于电力数据指标数据集P＝{m1,m2,…,mn}，设置初始聚类中心数为K，并设置K个聚类中心数据

其中K为10；

2)计算任意两个数据之间的空间距离d(mi,mj)和每一个数据点到聚类中心的空间距离d(mh,mk)：

3)计算任意两个数据之间的平均距离d，其中平均距离的计算公式为：

其中：

表示在n个电力数据指标数据中任意两个数据的组合数量；

4)计算当前电力数据指标聚类结果的阈值t：t＝∑|d‑d(mi,mj)|

5)若80％的d(mh,mk)小于t，则说明当前的聚类中心点能够代表这部分电力数据指标的聚类结果，并将聚类后的电力数据指标向量作为电力数据特征向量；否则就需要继续增加聚类中心点再次重复步骤2)到步骤5)的过程，直到满足条件为止。

7.如权利要求6所述的一种基于电力大数据平台的数据处理方法，其特征在于，所述利用改进的LSTM网络模型对电力数据特征向量进行处理，包括：

所述改进的LSTM网络模型主要由三个LSTM子网络组成，电力数据特征向量作为LSTM网络的输入被分割成等间隔的多个子序列；

在通过LSTM网络后，利用最后一个时刻的输出作为特征；在融合层前，加入一个权重层，权重层单元数与前一层单元数一致，且单元之间一一对应相连，而且权重层单元的大小一致，对于同一个LSTM子网络，此权重层可以看作将特征乘以一个权重系数；

在融合层后加入Dropout层，以解决过拟合问题；在所述Dropout层中，神经元以概率p

CN 112819041 A

权　利　要　求　书

4/4页

正常工作，即以概率(1‑p)停止工作；

根据Dropout层输出的特征，利用softmax函数计算电力系统故障发生的概率，并选取其中概率最大的电力系统故障作为模型输出，所述利用softmax函数计算电力系统故障发生概率的公式为：

其中：

k是电力系统故障的类别数；θ为softmax分类器的参数；T表示转置操作；

xi表示第i段电力数据特征向量子序列。

8.一种基于电力大数据平台的数据处理系统，其特征在于，所述系统包括：电力数据获取装置，用于获取电力数据，并对电力数据进行缺失值处理和噪声数据处理；

电力数据处理器，用于计算得到电力数据指标，并利用电力数据指标赋权方法对电力

利用基于机器学习的异常用电检测方法对赋权后的电力数据指标数据指标权重进行赋值；

进行检测，检测到电力系统中的异常用户；

电力数据分析装置，用于删除异常用户的电力数据指标数据，并利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量；将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理，实现电力系统的故障诊断。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有电力数据处理程序指令，所述电力数据处理程序指令可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的一种基于电力大数据平台的数据处理的实现方法的步骤。

CN 112819041 A

说　明　书

一种基于电力大数据平台的数据处理方法及系统

1/13页

技术领域

[0001]本发明涉及大数据的技术领域，尤其涉及一种基于电力大数据平台的数据处理方法及系统。

背景技术

[0002]随着智能化时代的到来，各行业的数据量呈快速增长趋势，同时，电网的建设规模在逐渐扩大，建设速度在不断加快，使得电力数据的数量越来越大，如何快速处理大规模电力数据成为当前研究的热门话题。

[0003]传统电力数据的聚类算法大多选择K‑means算法，K‑means算法中的K值是随机选取的，这样会对分类结果产生很大的影响；一般情况下使用K‑means算法通过不同K值得出不同的分类结果，最终通过比较来确定最适应的K值，但是对于电力数据来说这样的方法是不合适的，每天产生的电力负荷量是巨大的，通过比较的方法选取K值，这样数据处理效率将会非常的低。

[0004]同时传统RNN模型在处理长时间电力数据序列时，会产生梯度消失问题，即随着信息在时间维度上的传递，后面的神经元对较前面的神经元的感知力会下降，信息会逐渐丟失，从而降低基于电力数据的电力系统故障诊断的准确性。[0005]鉴于此，随着大数据时代的来临，如何基于大数据对传统的电力数据处理方法进行改进，实现更为有效的电力数据处理方法，成为本领域技术人员亟待解决的问题。发明内容

[0006]本发明提出一种基于电力大数据平台的数据处理方法，通过利用电力数据指标赋权方法对电力数据指标权重进行赋值，并利用基于机器学习的异常用电检测方法检测电力系统中的异常用户；同时利用改进的K‑means算法进行电力数据指标的聚类，利用改进的LSTM网络模型对聚类结果进行处理，实现电力系统的故障诊断。[0007]为实现上述目的，包括：本发明提供的一种基于电力大数据平台的数据处理方法，[0008]获取电力数据，并对电力数据进行缺失值处理和噪声数据处理；[0009]根据处理后的电力数据，计算得到电力数据指标，并利用电力数据指标赋权方法对电力数据指标权重进行赋值；[0010]利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，检测到电力系统中的异常用户；[0011]删除异常用户的电力数据指标数据，并利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量；[0012]将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理，实现电力系统的故障诊断。[0013]可选地，所述电力数据缺失值的处理公式为：

CN 112819041 A[0014]

说　明　书

2/13页

其中：

[0016]x(d,t)表示第d天，第t个时段用户x的用电量数据或负荷数据。[0017]可选地，所述电力数据中噪声数据的处理公式为：

[0018]通过负荷数据的变化率判断负荷数据中是否存在噪声数据，对于用户i的负荷数据曲线xi＝[xi,1,xi,2,...,xi,n]T，其中n表示用户i的负荷数据数量，负荷变化率可表示为：

[0015][0019][0020]

其中：

[0021]δ为用户i的负荷数据曲线，在j点的负荷变化率；i,j

[0022]当负荷变化率超过阈值时，判断该点的负荷数据为噪声数据，设置阈值为0.5；对于噪声数据，利用下式进行噪声数据的修正：

[0023][0024][0025][0026]

其中：

为噪声数据xi,j修正后的数据；

u,v为取点参数，设置u为3，v为4。[0027]可选地，所述利用电力数据指标赋权方法对电力数据指标权重进行赋值，包括：[0028]所述电力数据指标包括负荷最高小时利用率、日峰谷差率、峰期负载率以及谷期负载率，其中谷期的时间段为22：00‑24：00以及00：00‑06：00，峰期的时间段为08：00‑11：00以及18：00‑21：00；

[0029]在本发明一个具体实施例中，负荷最高小时利用率为负荷总量与24*最大负荷值之比；日峰谷差率即负荷最大值、负荷最小值之差与负荷最大值的比值，它能够呈现出电网在调峰方面的能力；峰期负载率即峰期负荷平均值与负荷平均值之比；谷期负载率即谷期负荷平均值与负荷平均值之比；

[0030]所述电力数据指标赋权方法流程为：[0031]1)若样本数据包含m个用户，n个电力数据指标，则第i个电力数据指标的熵值计算公式为：

[0032]

[0033][0034][0035][0036]

其中：

fij为第j个用户在第i个电力数据指标下的贡献度；rij为第j个用户在第i个电力数据指标下的数据值；

CN 112819041 A[0037][0038][0039]

说　明　书

3/13页

2)计算第i个电力数据指标的熵权：

3)得到负荷最高小时利用率、日峰谷差率、峰期负载率以及谷期负载率对应的4个

权重向量W＝[w1,w2,w3,w4]，并将所述权重赋给对应的电力数据指标，得到电力数据指标数据。

[0040]可选地，所述利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，包括：

[0041]

1)将不同用户的电力数据指标按时序信息排序，并用序列表示各时间

段电力数据指标的差值，其中

[0042]

表示电力数据指标在t1时刻与t0时刻之间的差值；

表示用户r在t0时段对应的滑动窗口集

2)利用

合，其中窗口大小为n，步长为1，若滑动窗口内的差值之和超过阈值T，则认为该用户可能存在异常用电的情况；将所有可能存在异常用电的用户的电力数据指标数据构成异常电力数据指标数据集合S；

[0043]3)利用基于数据不均衡的支持向量机对异常电力数据指标数据集合S中的数据进行判定决策，所述判定决策为二分类问题，决策结果为yi，若yi＝‑1，则表示异常电力数据指标数据集合S中第i个用户不存在异常用电情况，若yi＝1，则表示异常电力数据指标数据集合S中第i个用户存在异常用电情况，为电力系统中的异常用户；本发明所述基于数据不均衡的支持向量机模型为：

[0044]

[0045]

其中：

[0047]α,iαj为拉格朗日乘子；

[0048]n为异常电力数据指标数据集合S中用户总数；[0049]m为决策结果为1的异常电力数据指标数据数量；[0050]x为待决策的异常电力数据指标数据；i

[0051]x为已决策的异常电力数据指标数据；j

[0052]C为超参数，C′为C乘以一个权重，C′越大表示该类型数据在训练过程中受重视程度越大；

[0053]K(x,x)为高斯核函数，其公式如下：ij

[0046][0054]

CN 112819041 A[0055][0056][0057]

说　明　书

4/13页

σ为异常电力数据指标数据方差。可选地，所述利用改进的K‑means算法进行电力数据指标数据的聚类，包括：1)对于电力数据指标数据集P＝{m1,m2,...,mn}，设置初始聚类中心数为K，并设置

其中K为10；

K个聚类中心数据

[0058]

2)计算任意两个数据之间的空间距离d(mi,mj)和每一个数据点到聚类中心的空间

距离d(mh,mk)：

[0059]

[0060][0061][0062][0063][00][0065]

3)计算任意两个数据之间的平均距离d，其中平均距离的计算公式为：

其中：

表示在n个电力数据指标数据中任意两个数据的组合数量；

4)计算当前电力数据指标聚类结果的阈值t：

[0066]t＝∑|d‑d(m,m)|ij

[0067]5)若80％的d(m,m)小于t，则说明当前的聚类中心点能够代表这部分电力数据指hk标的聚类结果，并将聚类后的电力数据指标向量作为电力数据特征向量；否则就需要继续增加聚类中心点再次重复步骤2)到步骤5)的过程，直到满足条件为止。[0068]可选地，所述利用改进的LSTM网络模型对电力数据特征向量进行处理，包括：[0069]所述改进的LSTM网络模型主要由三个LSTM子网络组成，电力数据特征向量作为LSTM网络的输入被分割成等间隔的多个子序列；[0070]在通过LSTM网络后，本发明利用最后一个时刻的输出作为特征；在融合层前，加入一个权重层，权重层单元数与前一层单元数一致，且单元之间一一对应相连，而且权重层单元的大小一致，对于同一个LSTM子网络，此权重层可以看作将特征乘以一个权重系数，其作用是反映三种信息对故障影响的重要性；[0071]由于故障类型主要有过电流、设备缺陷、外力破坏，而反映在不同线路电气量上的变化情况是不一样的,而且融合层并不带有权重参数，所以，加入权重层有利于提高不同信息的区分度，使得其在融合后的特征有所反映；融合层使用的策略是向量连接，此处并不适合做特征合并，因为无论是加减运算还是平均求和等融合方法，信息都会有所丢失；[0072]由于电力系统故障记录数据较少，所以训练出来的网络容易过拟合，针对这个问题，本发明在融合层后加入Dropout层，以解决过拟合问题；在所述Dropout层中，神经元以概率p正常工作，即以概率(1‑p)停止工作。经过这样的处理，整个训练过程可以看作训练了许多个不同的网络结构，而最后的分类结果则是这些网络分类结果的平均。这些网络可能分别存在过拟合现象，但是由于最后结果取了平均，所以过拟合现象会在这个取平均的过程中发生相互抵消，这样可以在一定程度上减轻整体网络的过拟合问题。另外，Dropout的加入会使得两个神经元不一定每次都在一个网络中出现，这样可以有效抑制神经元在训练

CN 112819041 A

说　明　书

5/13页

过程中产生复杂的共适应关系，迫使网络学习更具有泛化性和鲁棒性的特征。这样网络在学习分类过程中就不会对某些信息片段过于敏感，而是在部分片段丟失的情况下，通过学习其他片段的信息，学习到同样的特征，这样就能有效解决网络的过拟合问题；[0073]根据Dropout层输出的特征，利用softmax函数计算电力系统故障发生的概率，并选取其中概率最大的电力系统故障作为模型输出，所述利用softmax函数计算电力系统故障发生概率的公式为：

[0074]

其中：

[0076]k是电力系统故障的类别数；[0077]θ为softmax分类器的参数；[0078]T表示转置操作；

[0079]x表示第i段电力数据特征向量子序列。i

[0080]此外，为实现上述目的，本发明还提供一种基于电力大数据平台的数据处理系统，所述系统包括：

[0081]电力数据获取装置，用于获取电力数据，并对电力数据进行缺失值处理和噪声数据处理；

[0082]电力数据处理器，用于计算得到电力数据指标，并利用电力数据指标赋权方法对

利用基于机器学习的异常用电检测方法对赋权后的电力数据电力数据指标权重进行赋值；

指标进行检测，检测到电力系统中的异常用户；[0083]电力数据分析装置，用于删除异常用户的电力数据指标数据，并利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量；将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理，实现电力系统的故障诊断。[0084]此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有电力数据处理程序指令，所述电力数据处理程序指令可被一个或者多个处理器执行，以实现如上所述的基于电力大数据平台的数据处理的实现方法的步骤。[0085]相对于现有技术，本发明提出一种基于电力大数据平台的数据处理方法，该技术具有以下优势：[0086]首先，本发明根据电力数据的特性，认为电力数据在相邻的两个时段差别不大，并具有明显的以一周为周期的周期性；因此本发明采用上一周同期的数据和上一周同期相邻的两个值，并用下式进行加权平均处理得到缺失值，并对电力数据中的缺失值进行填充：

[0087][0088]

[0075]

其中：x(d,t)表示第d天，第t个时段用户x的用电量数据或负荷数据。[00]同时，本发明提出一种基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，检测到电力系统中的异常用户，首先将不同用户的电力数据指标按时序信息

CN 112819041 A

说　明　书

表示各时间段电力数据指标的差值，其中

6/13页

排序，并用序列表示电力数据指标表示用户r在t0时段对

在t1时刻与t0时刻之间的差值，利用

应的滑动窗口集合，其中窗口大小为n，步长为1，若滑动窗口内的差值之和超过阈值T，则认

为该用户可能存在异常用电的情况；将所有可能存在异常用电的用户的电力数据指标数据构成异常电力数据指标数据集合S；由于在实际情况下，异常电力用户的数量远小于正常用户的数量，这就导致了不同类别的数据量不相当，在这种情况下，会出现明显的分类倾向性，针对标准SVM识别非均衡数据往往会出现最优超平面倾向性和正类样本大量错分的现象，使用了一种非均衡数据的支持向量机，因此本发明利用基于数据不均衡的支持向量机对异常电力数据指标数据集合S中的数据进行判定决策，所述判定决策为二分类问题，决策结果为yi，若yi＝‑1，则表示异常电力数据指标数据集合S中第i个用户不存在异常用电情况，若yi＝1，则表示异常电力数据指标数据集合S中第i个用户存在异常用电情况，为电力系统中的异常用户；本发明所述基于数据不均衡的支持向量机模型为：

[0090]

[0091]

其中：ααn为异常电力数据指标数据集合S中用户总数；m为决i,j为拉格朗日乘子；

xi为待决策的异常电力数据指标数据；xj为已决策结果为1的异常电力数据指标数据数量；

策的异常电力数据指标数据；C为超参数，C′为C乘以一个权重，C′越大表示该类型数据在训练过程中受重视程度越大，从而使得所训练得到支持向量机更倾向于异常用户。[0093]传统电力数据的聚类算法大多选择K‑means算法，K‑means算法中的K值是随机选取的，这样会对分类结果产生很大的影响；一般情况下使用K‑means算法通过不同K值得出不同的分类结果，最终通过比较来确定最适应的K值，但是对于电力数据来说这样的方法是不合适的，每天产生的电力负荷量是巨大的，通过比较的方法选取K值，这样数据处理效率将会非常的低。本发明将根据电力数据的特点对传统K‑means算法进行改进，由于通常在一个小区中，大多数的用户用电规律大致相同，这样在同一时刻很多用户的电力数据指标会集中在一定的范围，但是也有部分用户用电量不同，这时本发明可以根据聚集在一起数据量设定一个空间距离范围(即一个阈值)，同时计算每一个电力数据指标到聚类中心的距离，若每个点到聚类中心的距离都小于阈值，则说明该聚类中心点能够代表这部分用户的用电情况；若大于阈值，则说明聚类中心还不太理想，那么就继续增加聚类中心的个数重新判断，直到满足条件为止，从而将聚类后的电力数据指标向量作为电力数据特征向量，并利用LSTM模型实现电力系统的故障诊断。

附图说明

[0094]图1为本发明一实施例提供的一种基于电力大数据平台的数据处理方法的流程示

[0092]

CN 112819041 A

说　明　书

7/13页

意图；

[0095]

图2为本发明一实施例提供的一种基于电力大数据平台的数据处理系统的结构示本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

意图；

[0096]

具体实施方式

[0097]应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。[0098]通过利用电力数据指标赋权方法对电力数据指标权重进行赋值，并利用基于机器学习的异常用电检测方法检测电力系统中的异常用户；同时利用改进的K‑means算法进行电力数据指标的聚类，利用改进的LSTM网络模型对聚类结果进行处理，实现电力系统的故障诊断。参照图1所示，为本发明一实施例提供的基于电力大数据平台的数据处理方法示意图。

[0099]在本实施例中，基于电力大数据平台的数据处理方法包括：[0100]S1、获取电力数据，并对电力数据进行缺失值处理和噪声数据处理。[0101]首先，本发明获取电力数据，所述电力数据包括用电量数据以及负荷数据，并对所述电力数据进行缺失值处理以及噪声数据的处理，所述处理流程如下：[0102]在本发明一个具体实施例中，由于用电数据在相邻的两个时段差别不大，并具有明显的以一周为周期的周期性；因此本发明采用上一周同期的数据和上一周同期相邻的两个值，并用下式进行加权平均处理得到缺失值：

[0103][0104]

其中：

[0105]x(d,t)表示第d天，第t个时段用户x的用电量数据或负荷数据；

[0106]本发明通过负荷数据的变化率判断负荷数据中是否存在噪声数据，对于用户i的

其中n表示用户i的负荷数据数量，负荷变化率可表负荷数据曲线xi＝[xi,1,xi,2,...,xi,n]，

示为：

[0107]

其中：

[0109]δ为用户i的负荷数据曲线，在j点的负荷变化率；i,j

[0110]当负荷变化率超过阈值时，判断该点的负荷数据为噪声数据，在本发明一个具体实施例中，本发明设置阈值为0.5；对于噪声数据，本发明利用下式进行噪声数据的修正：

[0111][0112][0113][0114][0115]

[0108]

其中：

为噪声数据xi,j修正后的数据；

设置u为3，v为4。u,v为取点参数，

S2、根据处理后的电力数据，计算得到电力数据指标，并利用电力数据指标赋权方

CN 112819041 A

说　明　书

8/13页

法对电力数据指标权重进行赋值。[0116]进一步地，根据处理后的电力数据，本发明计算得到电力数据指标，所述电力数据指标包括负荷最高小时利用率、日峰谷差率、峰期负载率以及谷期负载率，其中谷期的时间段为22：00‑24：00以及00：00‑06：00，峰期的时间段为08：00‑11：00以及18：00‑21：00；[0117]在本发明一个具体实施例中，负荷最高小时利用率为负荷总量与24*最大负荷值之比；日峰谷差率即负荷最大值、负荷最小值之差与负荷最大值的比值，它能够呈现出电网在调峰方面的能力；峰期负载率即峰期负荷平均值与负荷平均值之比；谷期负载率即谷期负荷平均值与负荷平均值之比；[0118]进一步地，本发明利用电力数据指标赋权方法对电力数据指标权重进行赋值；所述电力数据指标赋权方法流程为：[0119]1)若样本数据包含m个用户，n个电力数据指标，则第i个电力数据指标的熵值计算公式为：

[0120]

[0121][0122][0123][0124][0125][0126][0127]

其中：

fij为第j个用户在第i个电力数据指标下的贡献度；rij为第j个用户在第i个电力数据指标下的数据值；2)计算第i个电力数据指标的熵权：

3)得到负荷最高小时利用率、日峰谷差率、峰期负载率以及谷期负载率对应的4个

权重向量W＝[w1,w2,w3,w4]，并将所述权重赋给对应的电力数据指标，得到电力数据指标数据。

[0128]S3、利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，检测到电力系统中的异常用户。[0129]进一步地，本发明利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，所述基于机器学习的异常用电检测方法流程为：

1)将不同用户的电力数据指标按时序信息排序，并用序列

表示各时间

[0130]

段电力数据指标的差值，其中

[0131]

表示电力数据指标在t1时刻与t0时刻之间的差值；

表示用户r在t0时段对应的滑动窗口集

2)利用

[0132]3)利用基于数据不均衡的支持向量机对异常电力数据指标数据集合S中的数据进

CN 112819041 A

说　明　书

9/13页

行判定决策，所述判定决策为二分类问题，决策结果为yi，若yi＝‑1，则表示异常电力数据指标数据集合S中第i个用户不存在异常用电情况，若yi＝1，则表示异常电力数据指标数据集合S中第i个用户存在异常用电情况，为电力系统中的异常用户；本发明所述基于数据不均衡的支持向量机模型为：

[0133]

[0134]

其中：

[0136]α,iαj为拉格朗日乘子；

[0137]n为异常电力数据指标数据集合S中用户总数；[0138]m为决策结果为1的异常电力数据指标数据数量；[0139]x为待决策的异常电力数据指标数据；i

[0140]x为已决策的异常电力数据指标数据；j

[0141]C为超参数，C′为C乘以一个权重，C′越大表示该类型数据在训练过程中受重视程度越大；

[0142]K(x,x)为高斯核函数，其公式如下：ij

[0143]

[0135]

σ为异常电力数据指标数据方差。[0145]S4、删除异常用户的电力数据指标数据，并利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量。[0146]进一步地，本发明通过删除异常用户的电力数据指标数据，本发明利用改进的K‑means算法对电力数据指标数据进行聚类，所述改进的K‑means算法流程为：[0147]1)对于电力数据指标数据集P＝{m,m,...,m}，设置初始聚类中心数为K，并设置12nK个聚类中心数据

[0148]

[0144]

其中K为10；

2)计算任意两个数据之间的空间距离d(mi,mj)和每一个数据点到聚类中心的空间距离d(mh,mk)：

[0149]

[0150][0151]

3)计算任意两个数据之间的平均距离d，其中平均距离的计算公式为：

CN 112819041 A[0152][0153][0154][0155]

说　明　书

10/13页

其中：

表示在n个电力数据指标数据中任意两个数据的组合数量；

4)计算当前电力数据指标聚类结果的阈值t：

[0156]t＝∑|d‑d(m,m)|ij

[0157]5)若80％的d(m,m)小于t，则说明当前的聚类中心点能够代表这部分电力数据指hk标的聚类结果，并将聚类后的电力数据指标向量作为电力数据特征向量；否则就需要继续

直到满足条件为止。增加聚类中心点再次重复步骤2)到步骤5)的过程，

[0158]S5、将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理，实现电力系统的故障诊断。[0159]进一步地，本发明将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理；

[0160]所述改进的LSTM网络模型主要由三个LSTM子网络组成，电力数据特征向量作为LSTM网络的输入被分割成等间隔的多个子序列；[0161]在通过LSTM网络后，本发明利用最后一个时刻的输出作为特征；在融合层前，加入一个权重层，权重层单元数与前一层单元数一致，且单元之间一一对应相连，而且权重层单元的大小一致，对于同一个LSTM子网络，此权重层可以看作将特征乘以一个权重系数，其作用是反映三种信息对故障影响的重要性；[0162]由于故障类型主要有过电流、设备缺陷、外力破坏，而反映在不同线路电气量上的变化情况是不一样的。而且融合层并不带有权重参数，所以，加入权重层有利于提高不同信息的区分度，使得其在融合后的特征有所反映。融合层使用的策略是向量连接，此处并不适合做特征合并。因为无论是加减运算还是平均求和等融合方法，信息都会有所丢失；[0163]由于电力系统故障记录数据较少，所以训练出来的网络容易过拟合，针对这个问题，本发明在融合层后加入Dropout层，以解决过拟合问题；在所述Dropout层中，神经元以概率p正常工作，即以概率(1‑p)停止工作。经过这样的处理，整个训练过程可以看作训练了许多个不同的网络结构，而最后的分类结果则是这些网络分类结果的平均。这些网络可能分别存在过拟合现象，但是由于最后结果取了平均，所以过拟合现象会在这个取平均的过程中发生相互抵消，这样可以在一定程度上减轻整体网络的过拟合问题。另外，Dropout的加入会使得两个神经元不一定每次都在一个网络中出现，这样可以有效抑制神经元在训练过程中产生复杂的共适应关系，迫使网络学习更具有泛化性和鲁棒性的特征。这样网络在学习分类过程中就不会对某些信息片段过于敏感，而是在部分片段丟失的情况下，通过学习其他片段的信息，学习到同样的特征，这样就能有效解决网络的过拟合问题；[01]根据Dropout层输出的特征，利用softmax函数计算电力系统故障发生的概率，并选取其中概率最大的电力系统故障作为模型输出，所述利用softmax函数计算电力系统故障发生概率的公式为：

CN 112819041 A

说　明　书

11/13页

[0165]

其中：

[0167]k是电力系统故障的类别数；[0168]θ为softmax分类器的参数；[0169]T表示转置操作；

[0170]x表示第i段电力数据特征向量子序列。i

[0171]下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境为：实验的开发环境为Intel(R)Core(TM)i5‑3470S CPU@2.90GHz 2.GHz和8GB内存的PC机上，系统为windows10系统，实验软件为matlab2018a。对比方法为基于随机森林的电力数据处理方法、基于SVM的电力数据处理方法以及基于神经网络的电力数据处理方法。

[0172]在本发明所述算法实验中，本实验通过搜集5G的电力数据，分别使用本发明所述方法以及对比方法进行电力数据处理，将电力数据分析的准确率作为电力数据处理方法的评价指标。

[0173]根据实验结果，基于随机森林的电力数据处理方法的分析准确率为83.62％，基于SVM的电力数据处理方法的分析准确率为84.72％，基于神经网络的电力数据处理方法的分析准确率为86.53％，本发明所述方法的分析准确率为88.72％，相较于对比算法，本发明所提出的基于电力大数据平台的数据处理方法能更为准确地进行电力数据处理。[0174]发明还提供一种基于电力大数据平台的数据处理系统。参照图2所示，为本发明一实施例提供的基于电力大数据平台的数据处理系统的内部结构示意图。[0175]在本实施例中，所述基于电力大数据平台的数据处理系统1至少包括电力数据获取装置11、电力数据处理器12、电力数据分析装置13，通信总线14，以及网络接口15。[0176]其中，电力数据获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。[0177]电力数据处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。电力数据处理器12在一些实施例中可以是基于电力大数据平台的数据处理系统1的内部存储单元，例如该基于电力大数据平台的数据处理系统1的硬盘。电力数据处理器12在另一些实施例中也可以是基于电力大数据平台的数据处理系统1的外部存储设备，例如基于电力大数据平台的数据处理系统1上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，电力数据处理器12还可以既包括基于电力大数据平台的数据处理系统1的内部存储单元也包括外部存储设备。电力数据处理器12不仅可以用于存储安装于基于电力大数据平台的数据处理系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

[0178]电力数据分析装置13在一些实施例中可以是一处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行电力数

[0166]

CN 112819041 A

说　明　书

12/13页

据处理器12中存储的程序代码或处理数据，例如电力数据处理程序指令等。[0179]通信总线14用于实现这些组件之间的连接通信。[0180]网络接口15可选的可以包括标准的有线接口、无线接口(如WI‑FI接口)，通常用于在该系统1与其他电子设备之间建立通信连接。[0181]可选地，该系统1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light‑Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于电力大数据平台的数据处理系统1中处理的信息以及用于显示可视化的用户界面。

[0182]图2仅示出了具有组件11‑15以及基于电力大数据平台的数据处理系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于电力大数据平台的数据处理系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。[0183]在图2所示的装置1实施例中，电力数据处理器12中存储有电力数据处理程序指令；电力数据分析装置13执行电力数据处理器12中存储的电力数据处理程序指令的步骤，与基于电力大数据平台的数据处理方法的实现方法相同，在此不作类述。[0184]此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有电力数据处理程序指令，所述电力数据处理程序指令可被一个或多个处理器执行，以实现如下操作：[0185]获取电力数据，并对电力数据进行缺失值处理和噪声数据处理；[0186]根据处理后的电力数据，计算得到电力数据指标，并利用电力数据指标赋权方法对电力数据指标权重进行赋值；[0187]利用基于机器学习的异常用电检测方法对赋权后的电力数据指标进行检测，检测到电力系统中的异常用户；[0188]删除异常用户的电力数据指标数据，并利用改进的K‑means算法进行电力数据指标数据的聚类，将聚类后的电力数据指标向量作为电力数据特征向量；[01]将电力数据特征向量作为模型输入，利用改进的LSTM网络模型对电力数据特征向量进行处理，实现电力系统的故障诊断。[0190]需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。[0191]通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，

CN 112819041 A

说　明　书

13/13页

计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。[0192]以上仅为本发明的优选实施例，并非因此本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

CN 112819041 A

说　明　书　附　图

1/2页

图1

CN 112819041 A

说　明　书　附　图

2/2页

图2

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文