name: ai-ml-timeseries description: “时间序列预测的操作模式、模板和决策规则(现代最佳实践):树基方法(LightGBM)、深度学习(Transformers、RNN)、未来引导学习、时间验证、特征工程、生成式时间序列(Chronos)和生产部署。强调可解释性、长期依赖处理和自适应预测。”
时间序列预测 — 现代模式与生产最佳实践
现代最佳实践(2026年1月):
- 将时间视为第一类轴:时间分割、滚动回测和点时间正确性。
- 在复杂模型之前默认使用强基线(朴素/季节性朴素)。
- 防止泄漏:特征窗口和聚合必须仅使用预测时可用的信息。
- 按地平线和段评估;单个聚合指标隐藏失败。
- 当决策对风险敏感时,偏好概率性预测(分位数/区间);评估校准(覆盖度)并使用pinball/CRPS。
- 对于许多相关序列,考虑全局+分层方法(共享模型+协调);跨层次和关键段验证。
- 将时区/夏令时视为第一类;在特征生成前验证时间戳对齐。
- 定义重训练节奏和降级模式(回退模型、最后已知良好预测)。
这个技能提供操作性的、可复制粘贴的工作流程,用于使用最新进展进行预测:TS特定EDA、时间验证、滞后/滚动特征、模型选择、多步预测、回测、生成式AI(Chronos、TimesFM)以及带有漂移监控的生产部署。
它专注于实践性预测执行,而非理论。
何时使用这个技能
Claude应在用户询问实践性时间序列预测时调用这个技能,例如:
- “为X构建一个时间序列模型。”
- “创建滞后特征/滚动窗口。”
- “帮助设计一个预测回测。”
- “为我的数据选择正确的预测模型。”
- “修复预测中的泄漏问题。”
- “评估多地平线预测。”
- “使用LLM或生成式模型进行TS。”
- “为预测系统设置监控。”
- “为时间序列实现LightGBM。”
- “使用Transformer模型(TimesFM、Chronos)进行预测。”
- “应用时间分类/生存建模进行事件预测。”
如果用户询问通用ML建模、部署或基础设施,优先选择:
- ai-ml-data-science - 通用数据科学工作流程、EDA、特征工程、评估
- ai-mlops - 模型部署、监控、漂移检测、重训练自动化
如果用户询问LLM/RAG/搜索,优先选择:
快速参考
| 任务 | 工具/框架 | 命令 | 何时使用 |
|---|---|---|---|
| TS EDA与分解 | Pandas, statsmodels | seasonal_decompose(), df.plot() |
识别趋势、季节性、异常值 |
| 滞后/滚动特征 | Pandas, NumPy | df.shift(), df.rolling() |
为ML模型创建时间特征 |
| 模型训练(树基) | LightGBM, XGBoost | lgb.train(), xgb.train() |
具有季节性、协变量的表格TS |
| 深度学习(序列模型) | Transformers, RNNs | model.forecast() |
长期依赖、复杂模式 |
| 事件预测 | 二元/时间到事件模型 | 时间标签+滚动验证 | 稀疏事件和警报 |
| 回测 | 自定义滚动窗口 | for window in windows: train(), test() |
无泄漏的时间验证 |
| 指标评估 | scikit-learn, custom | mean_absolute_error(), MAPE, MASE |
多地平线预测准确性 |
| 生产部署 | MLflow, Airflow | 计划管道 | 自动化重训练、漂移监控 |
决策树:选择时间序列方法
用户需要时间序列预测用于:[数据类型]
├─ 强季节性?
│ ├─ 简单模式? → LightGBM带季节性特征
│ ├─ 复杂模式? → LightGBM + Prophet比较
│ └─ 多重季节性? → Prophet或TBATS
│
├─ 长期依赖(>50步)?
│ ├─ Transformers(TimesFM、Chronos) → 最适合复杂模式
│ └─ RNNs/LSTMs → 适合序列依赖
│
├─ 事件预测(二元结果)?
│ └─ 时间分类/生存建模 → 使用基于时间的分割验证
│
├─ 间歇性/稀疏数据(许多零)?
│ ├─ Croston/SBA → 经典间歇方法
│ └─ LightGBM带零膨胀特征 → 现代方法
│
├─ 多重协变量?
│ ├─ LightGBM → 最适合许多特征
│ └─ TFT/DeepAR → 如果需要深度学习
│
└─ 需要可解释性(医疗、金融)?
├─ LightGBM → SHAP值、特征重要性
└─ 线性模型 → 最可解释
核心概念(供应商无关)
- 时间轴:分割、特征和标签必须尊重时间顺序和可用性。
- 非平稳性:季节性、趋势和制度转移是正常的;有意监控和重训练。
- 评估:滚动/扩展回测;报告地平线层面和段层面的性能。
- 操作化:定义重训练节奏、回退模型和数据新鲜度合约。
- 数据治理:将时间序列视为潜在敏感;在日志中实施访问控制、保留和PII擦除。
实施实践(工具示例)
- 使用明确时间窗口构建特征;存储每个训练运行的截止时间戳。
- 使用标准化框架回测(滚动/扩展窗口、地平线层面指标)。
- 记录生产预测带元数据(模型版本、地平线、数据截止)以启用调试。
- 实施回退(基线模型、最后已知良好、“数据不足”处理)用于中断和异常。
做 / 避免
做
- 开始使用朴素/季节性朴素基线与学习模型比较(预测:原则与实践:https://otexts.com/fpp3/)。
- 使用滚动窗口回测并保持点时间正确性。
- 监控数据管道变化(缺失时间戳、水平转移、日历变化)。
- 将指标/损失与决策对齐:非对称成本、服务水平、概率性目标(分位数/区间)在需要时。
避免
- 避免随机分割用于预测问题。
- 避免使用未来信息的特征(未来聚合、通过目标编码泄漏)。
- 避免仅优化聚合指标;始终检查地平线层面错误和最差段。
- 当目标可为0或接近0时避免MAPE;偏好MASE/WAPE/sMAPE和地平线层面报告。
导航:核心模式
时间序列EDA与数据准备
- TS EDA最佳实践
- 频率检测、缺失时间戳、分解
- 异常值检测、水平转移、季节性分析
- 粒度选择和稳定性检查
特征工程
- 滞后与滚动模式
- 滞后特征(每日数据的lag_1、lag_7、lag_28)
- 滚动窗口(均值、标准差、最小值、最大值、EWM)
- 避免泄漏、季节性滞后、日期时间特征
模型选择
-
- 决策规则:强季节性 → LightGBM,长期 → Transformers
- 基准比较:LightGBM vs Prophet vs Transformers vs RNNs
- 任务关键域的可解释性考虑
-
LightGBM TS模式 (基于特征的预测最佳实践)
- 为什么LightGBM优秀:性能+效率+可解释性
- 树基模型的特征工程
- 时间序列的超参数调优
预测策略
-
- 直接策略(每个地平线单独模型)
- 递归策略(反馈预测)
- Seq2Seq策略(Transformers、RNNs用于长地平线)
-
- Croston、SBA、ADIDA用于稀疏数据
- LightGBM带零膨胀特征(现代方法)
- 两阶段障碍模型、分层贝叶斯
验证与评估
- 回测模式
- 滚动窗口回测、扩展窗口
- 时间训练/验证分割(无IID分割!)
- 地平线层面指标、段层面评估
生成式与高级模型
- TS-LLM模式
- Chronos、TimesFM、Lag-Llama(Transformer模型)
- 事件预测模式(时间分类、生存建模)
- 标记化、离散化、轨迹采样
生产部署
- 生产部署模式
- 特征管道(训练/服务相同代码)
- 重训练策略(基于时间、漂移触发)
- 监控(错误漂移、特征漂移、体积漂移)
- 回退策略、流式摄入、数据治理
导航:模板(可复制粘贴)
数据准备
特征模板
模型模板
评估模板
高级模板
- TS-LLM模板 - 时间序列基础模型模式和实验方法
相关技能
对于相邻主题,参考这些技能:
- ai-ml-data-science - EDA工作流程、特征工程模式、模型评估、SQLMesh转换
- ai-mlops - 生产部署、监控、重训练管道
- ai-llm - 适用于时间序列LLM(Chronos、TimesFM)的微调方法
- ai-prompt-engineering - 时间序列LLM的提示设计模式
- data-sql-optimization - 时间序列数据存储和检索的SQL优化
外部资源
参见 data/sources.json 获取精选网络资源,包括:
- 经典方法(statsmodels、Prophet、ARIMA)
- 深度学习框架(PyTorch Forecasting、GluonTS、Darts、NeuralProphet)
- Transformer模型(TimesFM、Chronos、Lag-Llama、Informer、Autoformer)
- 异常检测工具(PyOD、STUMPY、Isolation Forest)
- 特征工程库(tsfresh、TSFuse、Featuretools)
- 生产部署(Kats、MLflow、sktime)
- 基准和数据集(M5 Competition、Monash Time Series、UCI)
使用说明
对于Claude:
- 为实践性预测任务、特征工程、回测或生产设置激活这个技能
- 从快速参考和决策树开始获取快速指导
- 深入references/获取详细实施模式
- 使用assets/获取可复制粘贴代码
- 始终检查时间泄漏(训练中的未来数据)
- 从强基线开始;基于地平线、协变量和延迟/成本约束选择模型家族
- 为医疗/金融域强调可解释性
- 在生产中监控数据分布转移
关键原则: 时间序列预测是关于时间结构,而非IID假设。使用时间验证,避免未来泄漏,并根据地平线长度和数据特征选择模型。