专利 一种数据驱动的风机叶片结冰预测方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111638625.7 (22)申请日 2021.12.2 9 (71)申请人南京邮电大学地址 210046 江苏省南京市鼓楼区新模范马路66号 (72)发明人岳东　刘良辰　窦春霞　张智俊　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 代理人董建林 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/06(2012.01) G06K 9/62(2022.01) G06N 3/04(2006.01) F03D 80/40(2016.01) (54)发明名称一种数据驱动的风机叶片结冰预测方法及装置 (57)摘要本发明公开了一种数据驱动的风机叶片结冰预测方法及装置，所述方法包括获取风机预先采集到的SCADA数据，完成数据集的预处理；平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布；根据所述平衡分布后的SCADA数据集，通过筛选和重构后获取特征数据；将所述特征向量作为注意力机制层的输入，得到相应特征向量的权重向量值；将所述特征向量和权重向量值合并组合成新的向量得到风机叶片结冰的预测模型；将所需进行预测的特征数据输入风机叶片结冰的预测模型，得到风机叶片结冰的预测结果，本发明解决了现有机理建模复杂、泛化能力和实际预测效果较差的问题，能够利用时序数据之间的隐藏信息提高结冰预测的准确性。权利要求书4页说明书9页附图2页 CN 114330881 A 2022.04.12 CN 114330881 A 1.一种数据驱动的风机叶片结冰预测方法，其特征在于，包括：获取风机预先采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理；根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布；根据所述平衡分布后的SCADA数据集，通过随机森林算法进行高维特征数据的重要性评估，筛选和重构后获取特征数据；将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练，输出训练之后的特征向量，将所述特征向量作为注意力机制层的输入，得到相应特征向量的权重向量值；将所述特征向量和权重向量值合并组合成新的向量，作为后续全连接层的输入，继而输出最终结果，得到风机叶片结冰的预测模型；对所述风机叶片结冰的预测模型进行评价，并根据模型评估结果动态调整模型输入特征，得到最优的风机叶片结冰预测模型；将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型，得到风机叶片结冰的预测结果。 2.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述SCADA 数据为根据风机数据采集与监控系统采集到的数据。 3.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：还包括，将所述预处理完毕的S CADA数据集，结合结冰机理和数据探索性分析，设定数据处理的强规则过滤掉部分明显不结冰的数据。 4.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述获取风机预先采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理，包括：对所述原始SCADA数据集每一列值计算其均值和标准偏差概率P(|x ‑μ|≥3σ )＝0.0027，即变量x在区间(x ‑3σ， x+3σ )外的概率为 0.0027，此时的变量xi即为异常值，并对其按照公式进行重新赋值： 5.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布，包括：所述基于数据分布相似性的相似度函数定义如下：式中，所述Sij为样本xi， xj∈Sm×n(i,j＝1,2， 3， ...， n)之间的相似性， m为样本数量， n为样本维度， | |*||表示矩阵的二范数，所述 δ 为标准化因子， Fj是第j维数据，定义如下：权　利　要　求　书 1/4 页 2 CN 114330881 A 2所述基于相似性降采样的具体流程如下： 1)计算出所述非结冰高维数据集的标准化因子 δ； 2)计算出所述数据集中所有样本互相之间的相似性数值Sij； 3)设定相似性阈值 ε，将所述样本之间的Sij与其进行比较，如果Sij> ε，则将样本xj删除； 4)重复(1) ‑(3)，完成对所述非结冰样本的相似性计算与降采样；所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下： 1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率：其中， mS为少数类结冰样本的数目， ml为多数类非结冰样本的数目， IR的取值范围[0, 1]； 2)计算所述SCADA数据集所需要合成的少数类样本的数量 N： N＝ml‑ms (5) 3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻，得到其k近邻中多数类样本的占比为ri： Δi为xi的k近邻中，属于多数类样本的近邻数目； 4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni: ni＝r′i×N (8) 5)从每个需要合成的数据集少数样本xi的k近邻中，任意选择一个少数类样本xzi，合成新样本xsi： xzi＝xi+α(xzi‑xi) (9) α 为[0,1]之间的随机数； 6)重复(1) ‑(5)进行新样本的合成，直到合成的新样本数目满足要求为止。 6.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述根据所述平衡分布后的S CADA数据集，通过随机森林算法进行高维特征数据的重要性评估，筛选和重构后获取特征数据，包括： 1)用S定义特征重要性评分，定义数据有n个特征x1， x2， x3， ...， xn， GI表示Gini指数，定义第j个特征的Gini指数为GIj，评分为Sj，定义分枝后两个新节点的Gi ni指数为GIl， GIr； 2) 其中K表示有K个类别， pmk表示节点m中类别k所占的比例，为m节点分枝前后Gi ni指数变化量； 3)特征xj在决策树i中出现的节点集合为M，那么xj在第i颗树的重要性为权　利　要　求　书 2/4 页 3 CN 114330881 A 3

专利 一种数据驱动的风机叶片结冰预测方法及装置

专利一种数据驱动的风机叶片结冰预测方法及装置