PHM 端到端预测寿命（End-to-End RUL）-——从设备数据到可执行维护决策的工程化体系

1. 为什么要强调“端到端 RUL”

在真实制造业场景中，很多所谓“RUL 项目”会失败，原因通常不是算法不先进，而是：

❌ 只做了模型，没有工程闭环
❌ 只在单设备/单部件成立，无法规模化
❌ 输出一个“天数”，但维护部门不知道如何用
❌ 数据漂移后模型迅速失效

端到端 RUL关注的不是“预测准不准”，而是：

预测结果是否能持续、可信、可解释地驱动维护决策

这意味着：
RUL 必须被设计为一个 系统能力（System Capability），而不是一个孤立算法。

2. 端到端 RUL 的总体架构视角

从工程角度，一个完整的 PHM RUL 系统至少包含 6 个层级：

设备 → 数据 → 健康表征 → 退化建模 → RUL 推断 → 维护决策

展开为工业可实施架构：

┌─────────────────────────────────────────┐
│ ① Physical Asset / Equipment            │
│   注塑机 / 加工中心 / 主轴 / 轴承        │
└───────────────┬─────────────────────────┘
                │
┌───────────────▼─────────────────────────┐
│ ② Condition & Usage Data Layer          │
│   传感器 + 控制参数 + 工况 + 累计量      │
└───────────────┬─────────────────────────┘
                │
┌───────────────▼─────────────────────────┐
│ ③ Health Indicator (HI) Layer           │
│   健康度、退化指标、状态评分             │
└───────────────┬─────────────────────────┘
                │
┌───────────────▼─────────────────────────┐
│ ④ Degradation Model Layer               │
│   物理 / 统计 / 数据驱动 / 混合模型     │
└───────────────┬─────────────────────────┘
                │
┌───────────────▼─────────────────────────┐
│ ⑤ RUL Inference Engine                  │
│   Usage-based / Degradation-based / AI  │
└───────────────┬─────────────────────────┘
                │
┌───────────────▼─────────────────────────┐
│ ⑥ Decision & Action Layer               │
│   维修策略 / 备件计划 / 风险预警         │
└─────────────────────────────────────────┘

3. 数据层：端到端 RUL 的“地基工程”

3.1 RUL 的三类核心数据

（1）Condition Data（状态数据）

典型如：

振动（RMS、Envelope、频谱）
温度、压力、流量
电流、电压、功率
油液、水分、颗粒度

描述 “当前健康状态”

（2）Usage / Load Data（使用与负载）

典型如：

运行时间 / 循环次数
加工节拍、负载比例
注塑机：锁模力、保压时间、射胶压力
主轴：转速、切削负载

描述 “消耗速度”

（3）Context / Event Data（上下文）

典型如：

工单 / 工艺参数（MES / PLM）
环境温湿度
维护、换件、异常事件

决定 模型是否可泛化

3.2 工程经验结论

没有 Usage 数据的 RUL，必然不可泛化

这也是为什么单靠振动深度学习，在工业现场常常“实验室很准，现场很差”。

4. 健康表征（HI）：RUL 的中间语言

4.1 为什么不能直接从原始信号预测 RUL

在工业系统中：

原始信号维度高
工况变化剧烈
同一“寿命阶段”信号差异很大

工程上必须引入“健康中间层”。

4.2 健康指标（HI）的三种形态

（1）物理含义型 HI（首选）

例子：

轴承：特征频率能量比
主轴：振动/负载比
液压系统：压力建立时间、保压时间漂移

优点：

可解释
可审核
易被工程师接受

（2）统计退化型 HI

例子：

趋势 RMS
滑动窗口 Z-score
PCA / KPCA 第一主成分

常用于 无明确物理模型 的系统。

（3）学习型 HI（Embedding）

AutoEncoder latent
CNN / Transformer embedding

工程上 不直接作为 RUL 输出，而是作为退化建模输入。

5. 退化建模：RUL 的核心物理逻辑

5.1 三大退化建模范式

MathWorks 对 PHM 的经典总结非常工程化：
物理、统计、混合 (MathWorks)

5.2 ① Usage-based RUL（兜底模型）

思想：

“某些部件本质上是消耗品”

工程公式：

RUL = (设计寿命 - 已使用量) / 使用强度系数

示例：

注塑机油泵：
RUL = 剩余设计小时 - 累计运行小时
丝杠：
RUL = 最大行程次数 - 已完成行程

作用定位：

最稳定
最容易被客户接受
作为 RUL Engine 的保底输出

5.3 ② Degradation-based RUL（主力模型）

这是工业 PHM 的“正统路线”。

核心思路：

健康指标 HI 随时间单调退化
建立 HI(t) → Failure Threshold
外推到失效点

常见工程模型

模型	工程特性
线性/分段线性	简单、稳定
指数 / 幂律	符合疲劳
Wiener / Gamma Process	可给不确定度
状态空间 + Kalman	工况自适应

工业界非常偏爱随机退化过程，因为它能自然给出 RUL 置信区间。

5.4 ③ Data-driven RUL（增强模型）

深度学习在 RUL 中的正确定位是：

增强，而不是替代退化逻辑

典型用途：

学习复杂 HI
多传感器融合
工况迁移（Domain Adaptation）

当前学术界大量工作集中在这点，如 LSTM、Transformer、混合模型等（NASA C-MAPSS、PRONOSTIA 数据集）(arXiv)。

6. RUL Engine：工程化多模型融合

你前面提出的这个结构是非常正确的：

RUL Engine
 ├─ Usage-based RUL（兜底）
 ├─ Degradation-based RUL（主力）
 └─ Data-driven RUL（增强）

但还缺 4 个关键工程模块：

6.1 必补模块一：Confidence & Uncertainty

工业现场 不接受一个单点 RUL 数值：

必须输出：
- P10 / P50 / P90
- 或 Remaining Life Interval

否则维护无法决策。

6.2 必补模块二：Model Validity Monitor

必须持续判断：

当前工况是否超出训练分布
HI 是否仍然单调
模型是否需要降级

否则 RUL 会“悄悄失效”。

6.3 必补模块三：Event Reset Logic

典型问题：

换轴承后，HI 是否清零？
半维修，寿命恢复多少？

工程做法：

维护事件 → Health Rebaseline
引入 Effective Age

6.4 必补模块四：Decision Mapping

RUL ≠ 行动
必须映射为：

红/黄/绿
检修窗口建议
备件采购提前期

7. 端到端闭环：RUL 如何“活着”

一个成熟 PHM 系统必须形成闭环：

预测 → 维修 → 反馈 → 校准

包括：

预测 vs 实际失效误差
提前/滞后维修评估
模型再训练或参数修正

8. 一个真实可落地的总结公式

工业级端到端 RUL =
Usage 兜底 × Degradation 主线 × AI 增强 × 工程治理

9. 写在最后：一个关键认知

RUL 不是“寿命预测问题”，而是“可信决策问题”

真正成功的 PHM 系统（如 IBM Maximo、GE APM、Bently Nevada）之所以成功，从来不是因为模型更复杂，而是：

退化逻辑清晰
工程约束明确
输出可解释、可审计