(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111638625.7
(22)申请日 2021.12.2 9
(71)申请人 南京邮电大 学
地址 210046 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 岳东 刘良辰 窦春霞 张智俊
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
代理人 董建林
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 50/06(2012.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
F03D 80/40(2016.01)
(54)发明名称
一种数据驱动 的风机叶片结冰预测方法及
装置
(57)摘要
本发明公开了一种数据驱动的风机叶片结
冰预测方法及装置, 所述方法包括获取风机预先
采集到的SCADA数据, 完成数据集的预处理; 平 衡
所述SCADA数据集中风力涡 轮机叶片结冰和非结
冰数据的分布; 根据所述平衡分布后的SCADA数
据集, 通过筛选和重构后获取特征数据; 将所述
特征向量作为注意力机制层的输入, 得到相应特
征向量的权重向量值; 将所述特征向量和权重向
量值合并组合成新的向量得到风机叶片结冰的
预测模型; 将所需进行预测的特征数据输入风机
叶片结冰的预测模型, 得到风机叶片结冰的预测
结果, 本发明解决了现有机理建模复杂、 泛化能
力和实际预测效果较差的问题, 能够利用时序数
据之间的隐藏信息提高结冰预测的准确性。
权利要求书4页 说明书9页 附图2页
CN 114330881 A
2022.04.12
CN 114330881 A
1.一种数据驱动的风机叶片结冰预测方法, 其特 征在于, 包括:
获取风机预 先采集到的SCADA数据, 剔除异常值, 填补缺失值, 完成数据集的预处 理;
根据所述预处理完毕的SCADA数据集, 基于数据分布相似性分析的下采样和数据自适
应综合过采样相结合的方法, 平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据
的分布;
根据所述平衡分布后的SCADA数据集, 通过随机森林算法进行高维特征数据的重要性
评估, 筛选和重构后获取 特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练, 输出训练之后
的特征向量, 将所述特 征向量作为注意力机制层的输入, 得到相应特 征向量的权 重向量值;
将所述特征向量和权重向量值合并组合成新的向量, 作为后续全连接层的输入, 继而
输出最终结果, 得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价, 并根据模型评估结果动态调整模型输入特
征, 得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型, 得到风机叶片结冰
的预测结果。
2.根据权利要求1所述的数据驱动的风机叶片结冰预测方法, 其特征在于: 所述SCADA
数据为根据风机数据采集与监控系统采集到的数据。
3.根据权利要求1所述的数据驱动的风机 叶片结冰预测方法, 其特征在于: 还包括, 将
所述预处理完毕的S CADA数据集, 结合结冰机理和数据探索性分析, 设定数据处理的强规则
过滤掉部分明显不结冰的数据。
4.根据权利要求1所述的数据驱动的风机叶片结冰预测方法, 其特征在于: 所述获取风
机预先采集到的SCADA数据, 剔除异常值, 填补缺失值, 完成数据集的预处 理, 包括:
对所述原始SCADA数 据集每一列值计算其均值
和标准偏差
概率P(|x ‑μ|≥3σ )=0.0027, 即变量x在区间(x ‑3σ, x+3σ )外的概率为
0.0027, 此时的变量xi即为异常值, 并对其按照公式进行重新赋值:
5.根据权利要求1所述的数据驱动的风机叶片结冰预测方法, 其特征在于: 所述根据 所
述预处理完毕的SCADA数据集, 基于数据分布相 似性分析的下采样和数据自适应综合过采
样相结合的 方法, 平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布, 包括:
所述基于数据分布相似性的相似度函数定义如下:
式中, 所述Sij为样本xi, xj∈Sm×n(i,j=1,2, 3, ..., n)之间的相似性, m为样本数量, n为
样本维度, | |*||表示矩阵的二范 数, 所述 δ 为标准 化因子, Fj是第j维数据, 定义如下:权 利 要 求 书 1/4 页
2
CN 114330881 A
2所述基于相似性降采样的具体流 程如下:
1)计算出 所述非结冰高维数据集的标准 化因子 δ;
2)计算出 所述数据集中所有样本互相之间的相似性数值Sij;
3)设定相似性阈值 ε, 将所述样本之间的Sij与其进行比较, 如果Sij> ε, 则将样本xj删除;
4)重复(1) ‑(3), 完成对所述非结冰样本的相似性计算与降采样;
所述SCADA数据集中结冰类样本数据信息 重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率:
其中, mS为少数类结冰样本的数目, ml为多数类非结冰样本的数目, IR的取值范围[0,
1];
2)计算所述SCADA数据集所需要合成的少数类样本的数量 N:
N=ml‑ms (5)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻, 得到其k近
邻中多数类样本的占比为ri:
Δi为xi的k近邻中, 属于多数类样本的近邻数目;
4)计算数据集中每 个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
ni=r′i×N (8)
5)从每个需要合成的数据 集少数样本xi的k近邻中, 任意选择一个少数类样本xzi, 合成
新样本xsi:
xzi=xi+α(xzi‑xi) (9)
α 为[0,1]之间的随机数;
6)重复(1) ‑(5)进行新样本的合成, 直到合成的新样本数目满足要求 为止。
6.根据权利要求1所述的数据驱动的风机叶片结冰预测方法, 其特征在于: 所述根据 所
述平衡分布后的S CADA数据集, 通过随机森林算法进 行高维特征数据的重要性评估, 筛选和
重构后获取 特征数据, 包括:
1)用S定义特征重要性评分, 定义数据有n个特征x1, x2, x3, ..., xn, GI表示Gini指数, 定
义第j个特 征的Gini指数为GIj, 评分为Sj, 定义分枝后两个新节点的Gi ni指数为GIl, GIr;
2)
其中K表示有K个类别, pmk表示节点m中
类别k所占的比例,
为m节点分枝前后Gi ni指数变化 量;
3)特征xj在决策树i中出现的节点集合为M, 那么xj在第i颗树的重要性为权 利 要 求 书 2/4 页
3
CN 114330881 A
3
专利 一种数据驱动的风机叶片结冰预测方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:27:41上传分享