时间序列预测模式 ai-ml-timeseries

本技能提供时间序列预测的现代操作模式、模板和决策规则,涵盖AI和机器学习方法如LightGBM、Transformers、RNNs,以及特征工程、生成式AI(如Chronos)、时间验证、回测和生产部署。强调可解释性、长期依赖处理和自适应预测,适用于数据科学、量化金融和AI应用场景。关键词:时间序列预测、AI预测模型、机器学习模板、特征工程、回测系统、生产部署、可解释AI、生成式时间序列、概率预测。

机器学习 0 次安装 0 次浏览 更新于 3/7/2026

name: ai-ml-timeseries description: “时间序列预测的操作模式、模板和决策规则(现代最佳实践):树基方法(LightGBM)、深度学习(Transformers、RNN)、未来引导学习、时间验证、特征工程、生成式时间序列(Chronos)和生产部署。强调可解释性、长期依赖处理和自适应预测。”

时间序列预测 — 现代模式与生产最佳实践

现代最佳实践(2026年1月)

  • 时间视为第一类轴:时间分割、滚动回测和点时间正确性。
  • 在复杂模型之前默认使用强基线(朴素/季节性朴素)。
  • 防止泄漏:特征窗口和聚合必须仅使用预测时可用的信息。
  • 地平线评估;单个聚合指标隐藏失败。
  • 当决策对风险敏感时,偏好概率性预测(分位数/区间);评估校准(覆盖度)并使用pinball/CRPS。
  • 对于许多相关序列,考虑全局+分层方法(共享模型+协调);跨层次和关键段验证。
  • 时区/夏令时视为第一类;在特征生成前验证时间戳对齐。
  • 定义重训练节奏和降级模式(回退模型、最后已知良好预测)。

这个技能提供操作性的、可复制粘贴的工作流程,用于使用最新进展进行预测:TS特定EDA、时间验证、滞后/滚动特征、模型选择、多步预测、回测、生成式AI(Chronos、TimesFM)以及带有漂移监控的生产部署。

它专注于实践性预测执行,而非理论。


何时使用这个技能

Claude应在用户询问实践性时间序列预测时调用这个技能,例如:

  • “为X构建一个时间序列模型。”
  • “创建滞后特征/滚动窗口。”
  • “帮助设计一个预测回测。”
  • “为我的数据选择正确的预测模型。”
  • “修复预测中的泄漏问题。”
  • “评估多地平线预测。”
  • “使用LLM或生成式模型进行TS。”
  • “为预测系统设置监控。”
  • “为时间序列实现LightGBM。”
  • “使用Transformer模型(TimesFM、Chronos)进行预测。”
  • “应用时间分类/生存建模进行事件预测。”

如果用户询问通用ML建模、部署或基础设施,优先选择:

  • ai-ml-data-science - 通用数据科学工作流程、EDA、特征工程、评估
  • ai-mlops - 模型部署、监控、漂移检测、重训练自动化

如果用户询问LLM/RAG/搜索,优先选择:

  • ai-llm - LLM微调、提示、评估
  • ai-rag - RAG管道设计和优化

快速参考

任务 工具/框架 命令 何时使用
TS EDA与分解 Pandas, statsmodels seasonal_decompose(), df.plot() 识别趋势、季节性、异常值
滞后/滚动特征 Pandas, NumPy df.shift(), df.rolling() 为ML模型创建时间特征
模型训练(树基) LightGBM, XGBoost lgb.train(), xgb.train() 具有季节性、协变量的表格TS
深度学习(序列模型) Transformers, RNNs model.forecast() 长期依赖、复杂模式
事件预测 二元/时间到事件模型 时间标签+滚动验证 稀疏事件和警报
回测 自定义滚动窗口 for window in windows: train(), test() 无泄漏的时间验证
指标评估 scikit-learn, custom mean_absolute_error(), MAPE, MASE 多地平线预测准确性
生产部署 MLflow, Airflow 计划管道 自动化重训练、漂移监控

决策树:选择时间序列方法

用户需要时间序列预测用于:[数据类型]
    ├─ 强季节性?
    │   ├─ 简单模式? → LightGBM带季节性特征
    │   ├─ 复杂模式? → LightGBM + Prophet比较
    │   └─ 多重季节性? → Prophet或TBATS
    │
    ├─ 长期依赖(>50步)?
    │   ├─ Transformers(TimesFM、Chronos) → 最适合复杂模式
    │   └─ RNNs/LSTMs → 适合序列依赖
    │
    ├─ 事件预测(二元结果)?
    │   └─ 时间分类/生存建模 → 使用基于时间的分割验证
    │
    ├─ 间歇性/稀疏数据(许多零)?
    │   ├─ Croston/SBA → 经典间歇方法
    │   └─ LightGBM带零膨胀特征 → 现代方法
    │
    ├─ 多重协变量?
    │   ├─ LightGBM → 最适合许多特征
    │   └─ TFT/DeepAR → 如果需要深度学习
    │
    └─ 需要可解释性(医疗、金融)?
        ├─ LightGBM → SHAP值、特征重要性
        └─ 线性模型 → 最可解释

核心概念(供应商无关)

  • 时间轴:分割、特征和标签必须尊重时间顺序和可用性。
  • 非平稳性:季节性、趋势和制度转移是正常的;有意监控和重训练。
  • 评估:滚动/扩展回测;报告地平线层面和段层面的性能。
  • 操作化:定义重训练节奏、回退模型和数据新鲜度合约。
  • 数据治理:将时间序列视为潜在敏感;在日志中实施访问控制、保留和PII擦除。

实施实践(工具示例)

  • 使用明确时间窗口构建特征;存储每个训练运行的截止时间戳。
  • 使用标准化框架回测(滚动/扩展窗口、地平线层面指标)。
  • 记录生产预测带元数据(模型版本、地平线、数据截止)以启用调试。
  • 实施回退(基线模型、最后已知良好、“数据不足”处理)用于中断和异常。

做 / 避免

  • 开始使用朴素/季节性朴素基线与学习模型比较(预测:原则与实践:https://otexts.com/fpp3/)。
  • 使用滚动窗口回测并保持点时间正确性。
  • 监控数据管道变化(缺失时间戳、水平转移、日历变化)。
  • 将指标/损失与决策对齐:非对称成本、服务水平、概率性目标(分位数/区间)在需要时。

避免

  • 避免随机分割用于预测问题。
  • 避免使用未来信息的特征(未来聚合、通过目标编码泄漏)。
  • 避免仅优化聚合指标;始终检查地平线层面错误和最差段。
  • 当目标可为0或接近0时避免MAPE;偏好MASE/WAPE/sMAPE和地平线层面报告。

导航:核心模式

时间序列EDA与数据准备

  • TS EDA最佳实践
    • 频率检测、缺失时间戳、分解
    • 异常值检测、水平转移、季节性分析
    • 粒度选择和稳定性检查

特征工程

  • 滞后与滚动模式
    • 滞后特征(每日数据的lag_1、lag_7、lag_28)
    • 滚动窗口(均值、标准差、最小值、最大值、EWM)
    • 避免泄漏、季节性滞后、日期时间特征

模型选择

  • 模型选择指南

    • 决策规则:强季节性 → LightGBM,长期 → Transformers
    • 基准比较:LightGBM vs Prophet vs Transformers vs RNNs
    • 任务关键域的可解释性考虑
  • LightGBM TS模式 (基于特征的预测最佳实践)

    • 为什么LightGBM优秀:性能+效率+可解释性
    • 树基模型的特征工程
    • 时间序列的超参数调优

预测策略

  • 多步预测模式

    • 直接策略(每个地平线单独模型)
    • 递归策略(反馈预测)
    • Seq2Seq策略(Transformers、RNNs用于长地平线)
  • 间歇需求模式

    • Croston、SBA、ADIDA用于稀疏数据
    • LightGBM带零膨胀特征(现代方法)
    • 两阶段障碍模型、分层贝叶斯

验证与评估

  • 回测模式
    • 滚动窗口回测、扩展窗口
    • 时间训练/验证分割(无IID分割!)
    • 地平线层面指标、段层面评估

生成式与高级模型

  • TS-LLM模式
    • Chronos、TimesFM、Lag-Llama(Transformer模型)
    • 事件预测模式(时间分类、生存建模)
    • 标记化、离散化、轨迹采样

生产部署

  • 生产部署模式
    • 特征管道(训练/服务相同代码)
    • 重训练策略(基于时间、漂移触发)
    • 监控(错误漂移、特征漂移、体积漂移)
    • 回退策略、流式摄入、数据治理

导航:模板(可复制粘贴)

数据准备

特征模板

模型模板

评估模板

高级模板

  • TS-LLM模板 - 时间序列基础模型模式和实验方法

相关技能

对于相邻主题,参考这些技能:


外部资源

参见 data/sources.json 获取精选网络资源,包括:

  • 经典方法(statsmodels、Prophet、ARIMA)
  • 深度学习框架(PyTorch Forecasting、GluonTS、Darts、NeuralProphet)
  • Transformer模型(TimesFM、Chronos、Lag-Llama、Informer、Autoformer)
  • 异常检测工具(PyOD、STUMPY、Isolation Forest)
  • 特征工程库(tsfresh、TSFuse、Featuretools)
  • 生产部署(Kats、MLflow、sktime)
  • 基准和数据集(M5 Competition、Monash Time Series、UCI)

使用说明

对于Claude:

  • 为实践性预测任务、特征工程、回测或生产设置激活这个技能
  • 快速参考决策树开始获取快速指导
  • 深入references/获取详细实施模式
  • 使用assets/获取可复制粘贴代码
  • 始终检查时间泄漏(训练中的未来数据)
  • 从强基线开始;基于地平线、协变量和延迟/成本约束选择模型家族
  • 为医疗/金融域强调可解释性
  • 在生产中监控数据分布转移

关键原则: 时间序列预测是关于时间结构,而非IID假设。使用时间验证,避免未来泄漏,并根据地平线长度和数据特征选择模型。