name: ai-ml-timeseries description: “时间序列预测的操作模式、模板和决策规则（现代最佳实践）：树基方法（LightGBM）、深度学习（Transformers、RNN）、未来引导学习、时间验证、特征工程、生成式时间序列（Chronos）和生产部署。强调可解释性、长期依赖处理和自适应预测。”

时间序列预测 — 现代模式与生产最佳实践

现代最佳实践（2026年1月）：

将时间视为第一类轴：时间分割、滚动回测和点时间正确性。
在复杂模型之前默认使用强基线（朴素/季节性朴素）。
防止泄漏：特征窗口和聚合必须仅使用预测时可用的信息。
按地平线和段评估；单个聚合指标隐藏失败。
当决策对风险敏感时，偏好概率性预测（分位数/区间）；评估校准（覆盖度）并使用pinball/CRPS。
对于许多相关序列，考虑全局+分层方法（共享模型+协调）；跨层次和关键段验证。
将时区/夏令时视为第一类；在特征生成前验证时间戳对齐。
定义重训练节奏和降级模式（回退模型、最后已知良好预测）。

这个技能提供操作性的、可复制粘贴的工作流程，用于使用最新进展进行预测：TS特定EDA、时间验证、滞后/滚动特征、模型选择、多步预测、回测、生成式AI（Chronos、TimesFM）以及带有漂移监控的生产部署。

它专注于实践性预测执行，而非理论。

何时使用这个技能

Claude应在用户询问实践性时间序列预测时调用这个技能，例如：

“为X构建一个时间序列模型。”
“创建滞后特征/滚动窗口。”
“帮助设计一个预测回测。”
“为我的数据选择正确的预测模型。”
“修复预测中的泄漏问题。”
“评估多地平线预测。”
“使用LLM或生成式模型进行TS。”
“为预测系统设置监控。”
“为时间序列实现LightGBM。”
“使用Transformer模型（TimesFM、Chronos）进行预测。”
“应用时间分类/生存建模进行事件预测。”

如果用户询问通用ML建模、部署或基础设施，优先选择：

ai-ml-data-science - 通用数据科学工作流程、EDA、特征工程、评估
ai-mlops - 模型部署、监控、漂移检测、重训练自动化

如果用户询问LLM/RAG/搜索，优先选择：

ai-llm - LLM微调、提示、评估
ai-rag - RAG管道设计和优化

快速参考

任务	工具/框架	命令	何时使用
TS EDA与分解	Pandas, statsmodels	`seasonal_decompose()`, `df.plot()`	识别趋势、季节性、异常值
滞后/滚动特征	Pandas, NumPy	`df.shift()`, `df.rolling()`	为ML模型创建时间特征
模型训练（树基）	LightGBM, XGBoost	`lgb.train()`, `xgb.train()`	具有季节性、协变量的表格TS
深度学习（序列模型）	Transformers, RNNs	`model.forecast()`	长期依赖、复杂模式
事件预测	二元/时间到事件模型	时间标签+滚动验证	稀疏事件和警报
回测	自定义滚动窗口	`for window in windows: train(), test()`	无泄漏的时间验证
指标评估	scikit-learn, custom	`mean_absolute_error()`, MAPE, MASE	多地平线预测准确性
生产部署	MLflow, Airflow	计划管道	自动化重训练、漂移监控

决策树：选择时间序列方法

用户需要时间序列预测用于：[数据类型]
    ├─ 强季节性？
    │   ├─ 简单模式？ → LightGBM带季节性特征
    │   ├─ 复杂模式？ → LightGBM + Prophet比较
    │   └─ 多重季节性？ → Prophet或TBATS
    │
    ├─ 长期依赖（>50步）？
    │   ├─ Transformers（TimesFM、Chronos） → 最适合复杂模式
    │   └─ RNNs/LSTMs → 适合序列依赖
    │
    ├─ 事件预测（二元结果）？
    │   └─ 时间分类/生存建模 → 使用基于时间的分割验证
    │
    ├─ 间歇性/稀疏数据（许多零）？
    │   ├─ Croston/SBA → 经典间歇方法
    │   └─ LightGBM带零膨胀特征 → 现代方法
    │
    ├─ 多重协变量？
    │   ├─ LightGBM → 最适合许多特征
    │   └─ TFT/DeepAR → 如果需要深度学习
    │
    └─ 需要可解释性（医疗、金融）？
        ├─ LightGBM → SHAP值、特征重要性
        └─ 线性模型 → 最可解释

核心概念（供应商无关）

时间轴：分割、特征和标签必须尊重时间顺序和可用性。
非平稳性：季节性、趋势和制度转移是正常的；有意监控和重训练。
评估：滚动/扩展回测；报告地平线层面和段层面的性能。
操作化：定义重训练节奏、回退模型和数据新鲜度合约。
数据治理：将时间序列视为潜在敏感；在日志中实施访问控制、保留和PII擦除。

实施实践（工具示例）

使用明确时间窗口构建特征；存储每个训练运行的截止时间戳。
使用标准化框架回测（滚动/扩展窗口、地平线层面指标）。
记录生产预测带元数据（模型版本、地平线、数据截止）以启用调试。
实施回退（基线模型、最后已知良好、“数据不足”处理）用于中断和异常。

做 / 避免

做

开始使用朴素/季节性朴素基线与学习模型比较（预测：原则与实践：https://otexts.com/fpp3/）。
使用滚动窗口回测并保持点时间正确性。
监控数据管道变化（缺失时间戳、水平转移、日历变化）。
将指标/损失与决策对齐：非对称成本、服务水平、概率性目标（分位数/区间）在需要时。

避免

避免随机分割用于预测问题。
避免使用未来信息的特征（未来聚合、通过目标编码泄漏）。
避免仅优化聚合指标；始终检查地平线层面错误和最差段。
当目标可为0或接近0时避免MAPE；偏好MASE/WAPE/sMAPE和地平线层面报告。

导航：核心模式

时间序列EDA与数据准备

TS EDA最佳实践
- 频率检测、缺失时间戳、分解
- 异常值检测、水平转移、季节性分析
- 粒度选择和稳定性检查

特征工程

滞后与滚动模式
- 滞后特征（每日数据的lag_1、lag_7、lag_28）
- 滚动窗口（均值、标准差、最小值、最大值、EWM）
- 避免泄漏、季节性滞后、日期时间特征

模型选择

模型选择指南
- 决策规则：强季节性 → LightGBM，长期 → Transformers
- 基准比较：LightGBM vs Prophet vs Transformers vs RNNs
- 任务关键域的可解释性考虑
LightGBM TS模式 （基于特征的预测最佳实践）
- 为什么LightGBM优秀：性能+效率+可解释性
- 树基模型的特征工程
- 时间序列的超参数调优

预测策略

多步预测模式
- 直接策略（每个地平线单独模型）
- 递归策略（反馈预测）
- Seq2Seq策略（Transformers、RNNs用于长地平线）
间歇需求模式
- Croston、SBA、ADIDA用于稀疏数据
- LightGBM带零膨胀特征（现代方法）
- 两阶段障碍模型、分层贝叶斯

验证与评估

回测模式
- 滚动窗口回测、扩展窗口
- 时间训练/验证分割（无IID分割！）
- 地平线层面指标、段层面评估

生成式与高级模型

TS-LLM模式
- Chronos、TimesFM、Lag-Llama（Transformer模型）
- 事件预测模式（时间分类、生存建模）
- 标记化、离散化、轨迹采样

生产部署

生产部署模式
- 特征管道（训练/服务相同代码）
- 重训练策略（基于时间、漂移触发）
- 监控（错误漂移、特征漂移、体积漂移）
- 回退策略、流式摄入、数据治理

导航：模板（可复制粘贴）

数据准备

TS EDA模板 - 可重现的时间序列分析结构
重采样与填充模板 - 处理缺失时间戳和重采样

特征模板

滞后与滚动特征 - 为ML模型创建时间特征
日历特征 - 商业日历、节假日、事件

模型模板

预测模型模板 - 端到端预测管道（LightGBM、transformers、RNNs）
多步策略 - 直接、递归和seq2seq方法

评估模板

回测模板 - 滚动窗口验证设置
TS指标模板 - MAPE、MAE、RMSE、MASE、pinball损失

高级模板

TS-LLM模板 - 时间序列基础模型模式和实验方法

外部资源

参见 data/sources.json 获取精选网络资源，包括：

经典方法（statsmodels、Prophet、ARIMA）
深度学习框架（PyTorch Forecasting、GluonTS、Darts、NeuralProphet）
Transformer模型（TimesFM、Chronos、Lag-Llama、Informer、Autoformer）
异常检测工具（PyOD、STUMPY、Isolation Forest）
特征工程库（tsfresh、TSFuse、Featuretools）
生产部署（Kats、MLflow、sktime）
基准和数据集（M5 Competition、Monash Time Series、UCI）

使用说明

对于Claude：

为实践性预测任务、特征工程、回测或生产设置激活这个技能
从快速参考和决策树开始获取快速指导
深入references/获取详细实施模式
使用assets/获取可复制粘贴代码
始终检查时间泄漏（训练中的未来数据）
从强基线开始；基于地平线、协变量和延迟/成本约束选择模型家族
为医疗/金融域强调可解释性
在生产中监控数据分布转移

关键原则： 时间序列预测是关于时间结构，而非IID假设。使用时间验证，避免未来泄漏，并根据地平线长度和数据特征选择模型。

时间序列预测模式Skill ai-ml-timeseries