# wind-power-large-model
**Repository Path**: orczh/wind-power-large-model
## Basic Information
- **Project Name**: wind-power-large-model
- **Description**: 风电大模型开发,基于SCADA数据
- **Primary Language**: Unknown
- **License**: GPL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-05-31
- **Last Updated**: 2025-12-26
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 风电大模型
## 意义
为什么风电需要大模型?
当前,对于新机型、新部件、新任务,都要重新训练模型,效率低下、工作重复
可以利用更广阔的、各种机型的数据,解决风电场景中各类问题。
风电大模型的核心价值在于**将运维从“被动响应”升级为“主动决策”**。其应用场景覆盖从**设备级**(部件健康管理)到**场站级**(资源调度),再到**电网级**(发电量预测)的全链条,最终实现**
运维成本降低20%以上,可用率提升至98%**的行业突破。
## 设计目标
大模型要做到什么?
- 多机型适配
- 多类型数据输入
- 动态结构数据输入
- 多下游任务适配(诊断、寿命预测、指导运维)
## 实现
### 输入与编码
结构带来了什么信息?
- 它是什么部件
- 层级关系(系统-部件)
- 部件关联(部件-部件)
时序带来了什么信息?
- 同一部件的发展趋势
**数据:**
scada和外部环境数据:[batch, time, node_s, 1]
cms: [batch, time, node_c, length]
给数据加上时序编码和结构编码
**时序编码:**
$PE_{(pos,2i)}=sin(\frac{pos}{10000^{2i/d_{model}}})$
$PE_{(pos,2i+1)}=cos(\frac{pos}{10000^{2i/d_{model}}})$
**结构编码:**
- 系统编码:每个系统唯一的编码,如齿轮箱系统……
- 部件类型编码:每种部件类型唯一的编码,如轴承、齿轮……
- 部件关联编码:和该部件具有显著关联关系的编码,如齿轮箱的中速级轴承,它和高速级轴承低速级轴承关系较大,就将这两个轴承的唯一编码取平均作为关联编码
- 部件唯一编码
注意编码的均值和方差,这个得考虑一下如何处理
**编码的生成**
**模型的输入输出**
| 时间 | 低频数据 | 高频数据 | 结构信息 | 输出 | 标签 |
|--------------------|---------------------|-----------|-------------------|-------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------|
| 2025-5-26 14:58:15 | 多个测点的scada数据和外部环境数据 | 多个测点的振动数据 | 系统、部件类型、关联部件、唯一编码 | 低频部分输出编码连接多个分类器(1个编码连接多个分类器),判断各个状态是否正常(0-正常、1-注意、2-异常)
高频部分输出编码连接同一个回归器(多个编码,每个编码连接同一个回归器),用于评估部件状态(1~0,数值表示健康状态) | 利用工单,计算统计量的正常与否(012)
利用工单,计算部件的健康状态(0~1) |
| | | | | | |
| | | | | | |
### 结构设计
encode-decode 或 decode only?
| **特性** | **Decoder-only (GPT)** | **Encoder-Decoder (T5/BART)** |
| :--------------: | :----------------------------: | :-------------------------------: |
| **任务类型** | 生成任务(文本、代码) | 序列到序列(翻译、摘要) |
| **注意力方向** | 单向(因果掩码) | 双向(Encoder) + 单向(Decoder) |
| **训练效率** | 参数共享,扩展性强 | 两部分参数,计算成本更高 |
| **长上下文处理** | 更适合超长文本(如GPT-4 128K) | 双向注意力内存开销大 |
| **多任务适应性** | 通过Prompt统一处理 | 需针对任务设计Encoder-Decoder |
### 如何实现多类下游任务
两种思路:
1. 将输出连接不同的分类器、回归器
2. 类似于文本生成一样,增加一个前置的任务编码,实现输出不同编码
## cms数据测点的映射
### 测点命名原则
SYS_LOC_AXIS
**系统**
| 名称 | 简称 |
|-----|----------------|
| 主轴承 | MB、MB2 |
| 齿轮箱 | GB |
| 发电机 | GEN |
| 塔架 | TOW |
| 主机架 | NAC |
| 叶片 | BLA1、BLA2、BLA3 |
**测点位置**
| 名称 | 简称 | 名称 | 简称 |
|------------|------|---------|-----|
| 齿轮箱输入轴 | INS | 发电机驱动端 | DE |
| 齿轮箱一级行星内齿圈 | INR | 发电机非驱动端 | NDE |
| 齿轮箱二级行星内齿圈 | INR2 | 塔架上端 | UP |
| 齿轮箱低速轴 | LSS | 塔架底商 | BTM |
| 齿轮箱中间轴 | MSS | | |
| 齿轮箱高速轴 | HSS | | |
**径向:** H、V(水平和垂直)
**轴向:** A
**常见测点汇总:**
| 原始名称 | 英文名 |
|:----------:|:---------:|
| 前主轴承径向 | MB_MB_H |
| 前主轴承轴向 | MB_MB_A |
| 后主轴承径向 | MB_MB2_H |
| 后主轴承轴向 | MB_MB2_A |
| 齿轮箱输入端径向 | GB_INS_H |
| 齿轮箱第一行星级径向 | GB_INR_H |
| 齿轮箱第二行星级径向 | GB_INR2_H |
| 齿轮箱低速级径向 | GB_LSS_H |
| 齿轮箱中间级轴向 | GB_MSS_A |
| 齿轮箱高速级径向 | GB_HSS_H |
| 发电机驱动端径向 | GEN_DE_H |
| 发电机非驱动端径向 | GEN_NDE_H |
| 主机架径向 | NAC_NAC_H |
| 主机架轴向 | NAC_NAC_A |
### 映射
**运达csvgz**
- MB_MB_R → MB_MB_H
- GB_INS_R → GB_INS_H
- GB_INR_R → GB_INR_H
- GB_INR2_R → GB_INR2_H
- GB_HSS_R → GB_HSS_H
- GB_LSS_A → GB_LSS_A
- GEN_DE_R → GEN_DE_H
- GEN_DE_R2 → GEN_DE_V
- GEN_NDE_R → GEN_NDE_H
**运达dat**
- MBRNULV → MB_MB_V
- GBXINV → GB_INS_V
- GBX1PSH → GB_INR_H
- GBX2PSH → GB_INR2_H
- GBXIMSA → GB_MSS_A
- GBXHSSV → GB_HSS_V
- GENDEH → GEN_DE_H
- GENNDEH → GEN_NDE_H
**远景dat**
- CH1 → MB_MB_H
- CH2 → MB_MB_A
- CH3 → GB_INS_H
- CH4 → GB_INR_H
- CH5 → GB_INR2_H
- CH6 → GB_MSS_A
- CH7 → GB_HSS_H
- CH8 → GEN_DE_H
- CH9 → GEN_NDE_H
**金风vd**
- MBR1 → MB_MB_H
- MBR2 → MB_MB_H
- MBR4 → MB_MB_H
- MBA1 → MB_MB_A
- GBXLSSR1 → GB_LSS_H
- GBXHSSR1 → GB_HSS_H
- GBX2PSR1 → GB_INR2_H
- GENDER1 → GEN_DE_H
## 输入
输入和关注的系统密切相关,主要关注:发电机、齿轮箱、偏航、变桨系统
不同机型及部件结构下,输入也有区别,要弄清楚不同情况下,要输入什么?
### 机型静态信息
为了准确评估风电机组的健康状况,特别是针对传动链关键部件(如齿轮箱、发电机、轴承等),需要提供以下详细的静态信息(也称为机型信息或资产信息)。这些信息直接影响部件的设计参数、失效模式和健康评估逻辑:
------
**1. 传动链类型(Drivetrain Configuration)**
- **直驱型(Direct Drive)**:无齿轮箱,转子直接连接发电机(需特别关注发电机轴承状态)。
- **半直驱型(Medium Speed / Hybrid)**:带一级或两级齿轮箱(齿轮箱与发电机需平衡监测)。
- **双馈型(DFIG, Doubly-Fed Induction Generator)**:带三级齿轮箱(齿轮箱是主要监测对象)。
------
**2. 功率与转速特性**
- **额定功率(Rated Power)**(单位:MW):影响部件载荷谱计算(如6MW机组齿轮箱扭矩远大于2MW)。
- **额定转速(Rated Rotor Speed)**(单位:rpm):直接影响齿轮箱输入转速与振动频率计算。
- **切出风速(Cut-Out Wind Speed)**:判断极端工况下的载荷。
------
**3. 齿轮箱设计参数(若存在)**
- **齿轮箱类型(Gearbox Type)**:
- 行星轮+平行轴(最常见)
- 纯平行轴
- **传动比(Gear Ratio)**:用于计算齿轮啮合频率(GMF)。
- **齿轮级数(Number of Stages)**:行星轮级数 + 高速级级数。
- **齿数明细**
(关键齿轮齿数,用于计算故障频率):
- 太阳轮齿数
- 行星轮齿数(及行星轮个数)
- 齿圈齿数
- 高速级大/小齿轮齿数
------
**4. 发电机参数**
- 发电机类型:
- 永磁同步发电机(PMSG, 直驱/半直驱常用)
- 双馈异步发电机(DFIG)
- **极对数(Pole Pairs)**:用于计算发电机故障频率。
- **冷却方式**:空冷、水冷(影响温度监控阈值)。
------
**5. 轴承信息**
- **主轴轴承(Main Bearing)**:型号(如SKF 240/600)或几何参数(滚子数、节径等)。
- **齿轮箱轴承**:行星架轴承、高速轴轴承型号。
- **发电机轴承**:驱动端与非驱动端轴承型号。
> ✅ **计算故障频率必备**:轴承型号或几何参数(内径、外径、滚动体数量、接触角)。
------
**6. 结构参数**
- **风轮直径(Rotor Diameter)**:影响气动载荷。
- **轮毂高度(Hub Height)**:影响塔筒动态响应。
- **塔筒类型**:钢制塔筒/混塔(共振频率不同)。
------
**7. 运行历史与维保记录**
- **安装日期(Commissioning Date)**:推算部件老化程度。
- **上次大修时间(Last Overhaul Date)**:齿轮箱更换/翻新时间点。
- **历史故障记录**:如特定轴承更换记录。
------
**8. 传感器配置信息(辅助诊断)**
- CMS传感器位置:
- 齿轮箱输入轴/输出轴轴向
- 发电机驱动端/非驱动端径向
- **SCADA传感器类型**:温度传感器PT100 vs PT1000(影响精度校准)。
**9. 偏航和变桨系统的驱动方式**
液压驱动 or 电机驱动
### SCADA数据
所有情况下都需要的参数
| **参数类别** | **具体参数** | **单位** | **物理意义** | **健康关联性** |
| :----------: | :-----------------: | :------: | :--------------: | :------------: |
| **风机状态** | `operating_status` | 枚举 | 运行/停机/故障 | 区分正常工况 |
| **风速** | `wind_speed` | m/s | 轮毂高度风速 | 载荷来源 |
| **功率输出** | `active_power` | kW | 电网输出功率 | 能量转换效率 |
| **转速** | `rotor_speed` | rpm | 风轮转速 | 机械应力根源 |
| | `generator_speed` | rpm | 发电机转速 | 电气频率来源 |
| **桨距角** | `pitch_angle_1/2/3` | ° | 三个叶片的桨距角 | 功率/载荷控制 |
## 大纲
### 1 风电领域为什么需要大模型?
风电运维领域正面临前所未有的复杂性和挑战,传统的分析模型和方法逐渐力不从心,亟需范式升级。大模型的出现为解决这些挑战提供了革命性的可能性:
- **数据爆炸与“孤岛”困境:** 现代风电场产生海量、异构、高维数据(SCADA秒级/分钟级运行参数、CMS高频振动/声发射信号、视频监控、气象预报、运维工单、部件图纸、专家报告等)。这些数据分散、格式不一、关联性弱,传统方法难以有效融合挖掘其深层价值,形成“数据富矿,知识贫瘠”的局面。大模型的核心能力之一就是处理海量多模态数据。
- **故障模式复杂性与“长尾”问题:** 风机是复杂的机电系统,故障模式多样、耦合性强(机械、电气、控制、环境交互)。许多故障(尤其是早期、复合型、新型故障)样本稀少(“长尾分布”),传统基于特定故障库或小样本训练的模型泛化能力差,难以覆盖所有场景,尤其对罕见但后果严重的故障预警不足。大模型通过海量数据预训练获得通用表征能力,有望解决小样本和未知模式识别问题。
- **运维决策智能化程度不足:** 当前运维决策(如故障诊断、寿命预测、维修排程、备件管理)往往依赖规则库、简单模型或专家经验,缺乏对风机全生命周期状态、外部环境、电网要求、经济性等多因素的综合、动态、优化决策能力。大模型强大的推理和生成能力,为构建更智能的决策支持系统奠定了基础。
- **知识沉淀与传承困难:** 领域专家经验、历史案例、技术文档等隐性知识难以有效结构化、数字化和复用。大模型可作为“知识引擎”,学习、编码和推理这些知识,实现知识的自动化沉淀、检索和应用,降低对个体专家的过度依赖。
- **应对下游任务的“碎片化”与“定制化”:** 风电运维任务繁多(状态监测、故障诊断、功率预测、寿命评估、维修优化、性能提升等),且不同风场、机型、环境下的需求各异。为每个任务单独开发模型成本高、效率低、难以维护。大模型通过“预训练 + 微调/提示”范式,有望用一个基础模型灵活适配多种下游任务,显著提高开发效率和模型复用性。
**总结必要性:** 风电运维大模型是应对**数据复杂性、故障多样性、决策智能化需求、知识管理挑战以及任务碎片化**的必然技术演进方向,旨在实现从“单点智能”到“系统智能”、从“被动响应”到“主动预测与优化”的跃迁。
### 2 风电领域的特点对大模型的设计要求?
#### 适应各种SCADA、CMS输入
不同机型的数据测点有区别
#### 具有高通用性的输出
#### 适应多类型的下游任务
### 3 理论基础:Transformer
### 4 风电大模型结构设计
#### SCADA和CMS分块
#### 结构编码
#### 时间编码
#### 如何解决下游任务(诊断、寿命预测、运维)
#### 基于工单计算模型标签
## rcm参考值
| 部件 | 形状参数 ρ (rho) 估计范围/典型值 | 尺度参数 λ (days) 估计范围/典型值 | 主要失效模式驱动因素 (受乌兰察布环境影响) |
|:----------| :------------------------------- | :-------------------------------- | :-------------------------------------------------------- |
| **UPS** | 0.9 - 1.1 | 1500 - 3000 | 电池老化(温度加速)、电压波动、电子元件故障 |
| 偏航电机 | 1.3 - 1.6 | 350 - 600 | 轴承磨损(沙尘)、齿轮磨损(沙尘、负载变化)、绕组绝缘老化 |
| **偏航电磁阀** | 1.0 - 1.3 | 400 - 800 | 阀芯卡涩(沙尘、水分)、线圈失效(温度、电气过载) |
| 发电机润滑泵 | 1.3 - 1.5 | 250 - 450 | 电机/轴承磨损(沙尘)、油品污染/劣化(温度)、系统堵塞 |
| 发电机编码器 | 1.2 - 1.4 | 500 - 1000 | 振动导致位移/损坏、电信号干扰、连接器问题、受潮(结露风险) |
| **发电机风扇** | 1.4 - 1.7 | 200 - 400 | 轴承磨损(沙尘严重)、扇叶污损/不平衡(沙尘)、电机故障 |
| **变桨润滑泵** | 1.3 - 1.5 | 300 - 500 | 同发电机润滑泵 (工作环境类似) |
| 变桨编码器 | 1.2 - 1.4 | 450 - 850 | 振动(变桨动作频繁)、冲击载荷、电信号干扰、低温影响 |
| **变桨驱动器** | 0.9 - 1.2 | 800 - 1500 | IGBT/Semiconductor失效(温度循环)、电容老化、控制板故障 |
| 变流器IGBT模块 | 0.8 - 1.0 | 1000 - 2000 | 热循环疲劳(环境温度加剧)、功率循环疲劳、过压/过流 |
| 变流器控制器 | 1.0 - 1.2 | 1200 - 2500 | 电子元件老化(温度)、固件/软件Bug、辅助电源问题 |
| 变流器熔丝 | 0.9 - 1.1 | 2000 - 4000 | 过电流事件(雷击、电网扰动)、老化失效(高温) |
| 变流器继电器 | 1.0 - 1.3 | 1500 - 3000 | 触点烧蚀/粘连(电弧)、线圈故障、机械卡死 |
| 变流器编码器 | 1.1 - 1.3 | 700 - 1200 | 振动、电信号干扰、连接可靠性 |
| 变流器风扇 | 1.5 - 1.8 | 150 - 350 | 轴承磨损(沙尘)、扇叶污损/不平衡(沙尘严重)、电机烧毁 |
| 变流器驱动板 | 1.0 - 1.2 | 1000 - 1800 | 电容老化(温度)、焊点疲劳(振动/温循)、接口问题 |
| 变频器功率模块 | 0.8 - 1.0 | 900 - 1800 | (注:通常变桨驱动器/变流器内部功率模块) 同IGBT模块 |
| 轮毂断路器 | 1.1 - 1.4 | 500 - 800 | 机械机构卡滞(低温、润滑脂问题)、触点问题、线圈故障 |
| 风速仪 | 1.0 - 1.3 | 600 - 1200 | 轴承卡死(沙尘、结冰)、加热元件失效(结冰)、信号故障 |
| 齿轮箱冷却风扇 | 1.4 - 1.7 | 180 - 350 | 轴承磨损(沙尘)、扇叶污损/不平衡(沙尘)、电机故障 |
| 齿轮箱润滑泵 | 1.3 - 1.6 | 400 - 700 | 轴承/齿轮磨损(沙尘、载荷)、油品污染/劣化(温度、水分) |
| 齿轮箱温控阀 | 1.1 - 1.4 | 300 - 550 | 阀芯卡涩(油泥、低温流动性差)、感温元件失效(温度变化大) |
| 齿轮箱滤芯 | 1.4 - 1.7 | 150 - 300 | 堵塞加速(沙尘污染严重)、压差过高导致旁通、滤材破裂 |