统计建模与计量经济学分析Skill statsmodels

Statsmodels 是 Python 的一个开源库,专门用于统计建模、计量经济学分析和时间序列分析。它提供了广泛的统计方法,包括线性回归、广义线性模型、逻辑回归、ARIMA 等,用于数据分析和预测。关键词:统计建模,Python,回归分析,时间序列,计量经济学,假设检验,数据分析,预测建模。

预测建模 0 次安装 0 次浏览 更新于 3/16/2026

名称: statsmodels 描述: “统计建模工具包。OLS、GLM、逻辑回归、ARIMA、时间序列、假设检验、诊断、AIC/BIC,用于严格的统计推断和计量经济学分析。”

Statsmodels:统计建模与计量经济学

概述

Statsmodels 是 Python 中顶级的统计建模库,提供估计、推断和诊断工具,适用于广泛的统计方法。应用此技能进行严格的统计分析,从简单线性回归到复杂时间序列模型和计量经济学分析。

何时使用此技能

此技能应用于:

  • 拟合回归模型(OLS、WLS、GLS、分位数回归)
  • 执行广义线性建模(逻辑、泊松、伽马等)
  • 分析离散结果(二元、多项、计数、有序)
  • 进行时间序列分析(ARIMA、SARIMAX、VAR、预测)
  • 运行统计检验和诊断
  • 测试模型假设(异方差性、自相关、正态性)
  • 检测异常值和有影响力的观测
  • 比较模型(AIC/BIC、似然比检验)
  • 估计因果效应
  • 生成发表级别的统计表和推断

快速入门指南

线性回归(OLS)

import statsmodels.api as sm
import numpy as np
import pandas as pd

# 准备数据 - 始终添加常数项用于截距
X = sm.add_constant(X_data)

# 拟合 OLS 模型
model = sm.OLS(y, X)
results = model.fit()

# 查看全面结果
print(results.summary())

# 关键结果
print(f"R平方: {results.rsquared:.4f}")
print(f"系数:\
{results.params}")
print(f"P值:\
{results.pvalues}")

# 带有置信区间的预测
predictions = results.get_prediction(X_new)
pred_summary = predictions.summary_frame()
print(pred_summary)  # 包括均值、CI、预测区间

# 诊断
from statsmodels.stats.diagnostic import het_breuschpagan
bp_test = het_breuschpagan(results.resid, X)
print(f"Breusch-Pagan p值: {bp_test[1]:.4f}")

# 可视化残差
import matplotlib.pyplot as plt
plt.scatter(results.fittedvalues, results.resid)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('拟合值')
plt.ylabel('残差')
plt.show()

逻辑回归(二元结果)

from statsmodels.discrete.discrete_model import Logit

# 添加常数
X = sm.add_constant(X_data)

# 拟合 logit 模型
model = Logit(y_binary, X)
results = model.fit()

print(results.summary())

# 优势比
odds_ratios = np.exp(results.params)
print("优势比:\
", odds_ratios)

# 预测概率
probs = results.predict(X)

# 二元预测(0.5阈值)
predictions = (probs > 0.5).astype(int)

# 模型评估
from sklearn.metrics import classification_report, roc_auc_score

print(classification_report(y_binary, predictions))
print(f"AUC: {roc_auc_score(y_binary, probs):.4f}")

# 边际效应
marginal = results.get_margeff()
print(marginal.summary())

时间序列(ARIMA)

from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# 检查平稳性
from statsmodels.tsa.stattools import adfuller

adf_result = adfuller(y_series)
print(f"ADF p值: {adf_result[1]:.4f}")

if adf_result[1] > 0.05:
    # 序列非平稳,差分处理
    y_diff = y_series.diff().dropna()

# 绘制 ACF/PACF 以识别 p, q
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8))
plot_acf(y_diff, lags=40, ax=ax1)
plot_pacf(y_diff, lags=40, ax=ax2)
plt.show()

# 拟合 ARIMA(p,d,q)
model = ARIMA(y_series, order=(1, 1, 1))
results = model.fit()

print(results.summary())

# 预测
forecast = results.forecast(steps=10)
forecast_obj = results.get_forecast(steps=10)
forecast_df = forecast_obj.summary_frame()

print(forecast_df)  # 包括均值和置信区间

# 残差诊断
results.plot_diagnostics(figsize=(12, 8))
plt.show()

广义线性模型(GLM)

import statsmodels.api as sm

# 泊松回归用于计数数据
X = sm.add_constant(X_data)
model = sm.GLM(y_counts, X, family=sm.families.Poisson())
results = model.fit()

print(results.summary())

# 比率比(用于对数链接的泊松回归)
rate_ratios = np.exp(results.params)
print("比率比:\
", rate_ratios)

# 检查过度分散
overdispersion = results.pearson_chi2 / results.df_resid
print(f"过度分散: {overdispersion:.2f}")

if overdispersion > 1.5:
    # 使用负二项回归
    from statsmodels.discrete.count_model import NegativeBinomial
    nb_model = NegativeBinomial(y_counts, X)
    nb_results = nb_model.fit()
    print(nb_results.summary())

核心统计建模能力

1. 线性回归模型

用于连续结果的全面线性模型套件,支持各种误差结构。

可用模型:

  • OLS:标准线性回归,假设独立同分布误差
  • WLS:加权最小二乘,用于异方差误差
  • GLS:广义最小二乘,用于任意协方差结构
  • GLSAR:具有自回归误差的 GLS,用于时间序列
  • 分位数回归:条件分位数(对异常值稳健)
  • 混合效应模型:具有随机效应的层次/多级模型
  • 递归/滚动回归:时变参数估计

关键特性:

  • 全面的诊断测试
  • 稳健标准误差(HC、HAC、聚类稳健)
  • 影响统计(Cook’s 距离、杠杆、DFFITS)
  • 假设检验(F 检验、Wald 检验)
  • 模型比较(AIC、BIC、似然比检验)
  • 带有置信和预测区间的预测

何时使用: 连续结果变量,需要系数推断和诊断

参考: 参见 references/linear_models.md 获取模型选择、诊断和最佳实践的详细指导。

2. 广义线性模型(GLM)

灵活框架,将线性模型扩展到非正态分布。

分布族:

  • 二项分布:二元结果或比例(逻辑回归)
  • 泊松分布:计数数据
  • 负二项分布:过度分散的计数
  • 伽马分布:正连续、右偏数据
  • 逆高斯分布:具有特定方差结构的正连续数据
  • 高斯分布:等价于 OLS
  • Tweedie 分布:灵活族,用于半连续数据

链接函数:

  • Logit、Probit、Log、Identity、Inverse、Sqrt、CLogLog、Power
  • 基于解释需求和模型拟合选择

关键特性:

  • 通过 IRLS 进行最大似然估计
  • 偏差和 Pearson 残差
  • 拟合优度统计
  • 伪 R 平方度量
  • 稳健标准误差

何时使用: 非正态结果,需要灵活的方差和链接规范

参考: 参见 references/glm.md 获取族选择、链接函数、解释和诊断的指南。

3. 离散选择模型

用于分类和计数结果的模型。

二元模型:

  • Logit:逻辑回归(优势比)
  • Probit:Probit 回归(正态分布)

多项模型:

  • MNLogit:无序类别(3+ 级)
  • 条件 Logit:具有替代特定变量的选择模型
  • 有序模型:有序结果(有序类别)

计数模型:

  • 泊松:标准计数模型
  • 负二项:过度分散的计数
  • 零膨胀模型:多余零(ZIP、ZINB)
  • 障碍模型:用于零重数据的两阶段模型

关键特性:

  • 最大似然估计
  • 在均值或平均边际效应处的边际效应
  • 通过 AIC/BIC 进行模型比较
  • 预测概率和分类
  • 拟合优度检验

何时使用: 二元、分类或计数结果

参考: 参见 references/discrete_choice.md 获取模型选择、解释和评估的指南。

4. 时间序列分析

全面的时间序列建模和预测能力。

单变量模型:

  • AutoReg (AR):自回归模型
  • ARIMA:自回归积分滑动平均
  • SARIMAX:具有外生变量的季节性 ARIMA
  • 指数平滑:简单、Holt、Holt-Winters
  • ETS:创新状态空间模型

多变量模型:

  • VAR:向量自回归
  • VARMAX:具有 MA 和外生变量的 VAR
  • 动态因子模型:提取公共因子
  • VECM:向量误差修正模型(协整)

高级模型:

  • 状态空间模型:卡尔曼滤波、自定义规范
  • 制度转换模型:马尔可夫转换模型
  • ARDL:自回归分布滞后

关键特性:

  • ACF/PACF 分析用于模型识别
  • 平稳性检验(ADF、KPSS)
  • 带有预测区间的预测
  • 残差诊断(Ljung-Box、异方差性)
  • Granger 因果性检验
  • 脉冲响应函数(IRF)
  • 预测误差方差分解(FEVD)

何时使用: 时间顺序数据、预测、理解时间动态

参考: 参见 references/time_series.md 获取模型选择、诊断和预测方法的指南。

5. 统计检验和诊断

广泛的测试和诊断能力,用于模型验证。

残差诊断:

  • 自相关检验(Ljung-Box、Durbin-Watson、Breusch-Godfrey)
  • 异方差性检验(Breusch-Pagan、White、ARCH)
  • 正态性检验(Jarque-Bera、Omnibus、Anderson-Darling、Lilliefors)
  • 规范检验(RESET、Harvey-Collier)

影响和异常值:

  • 杠杆(帽子值)
  • Cook’s 距离
  • DFFITS 和 DFBETAs
  • 学生化残差
  • 影响图

假设检验:

  • t 检验(单样本、双样本、配对)
  • 比例检验
  • 卡方检验
  • 非参数检验(Mann-Whitney、Wilcoxon、Kruskal-Wallis)
  • ANOVA(单因素、双因素、重复测量)

多重比较:

  • Tukey’s HSD
  • Bonferroni 校正
  • 错误发现率(FDR)

效应大小和统计功效:

  • Cohen’s d、eta 平方
  • 用于 t 检验、比例的统计功效分析
  • 样本量计算

稳健推断:

  • 异方差性一致标准误差(HC0-HC3)
  • HAC 标准误差(Newey-West)
  • 聚类稳健标准误差

何时使用: 验证假设、检测问题、确保稳健推断

参考: 参见 references/stats_diagnostics.md 获取全面的测试和诊断程序指南。

公式 API(R 风格)

Statsmodels 支持 R 风格公式进行直观的模型规范:

import statsmodels.formula.api as smf

# 使用公式的 OLS
results = smf.ols('y ~ x1 + x2 + x1:x2', data=df).fit()

# 分类变量(自动虚拟编码)
results = smf.ols('y ~ x1 + C(category)', data=df).fit()

# 交互作用
results = smf.ols('y ~ x1 * x2', data=df).fit()  # x1 + x2 + x1:x2

# 多项式项
results = smf.ols('y ~ x + I(x**2)', data=df).fit()

# Logit
results = smf.logit('y ~ x1 + x2 + C(group)', data=df).fit()

# Poisson
results = smf.poisson('count ~ x1 + x2', data=df).fit()

# ARIMA(不可用公式 API,使用常规 API)

模型选择和比较

信息准则

# 使用 AIC/BIC 比较模型
models = {
    '模型 1': model1_results,
    '模型 2': model2_results,
    '模型 3': model3_results
}

comparison = pd.DataFrame({
    'AIC': {name: res.aic for name, res in models.items()},
    'BIC': {name: res.bic for name, res in models.items()},
    '对数似然': {name: res.llf for name, res in models.items()}
})

print(comparison.sort_values('AIC'))
# 较低的 AIC/BIC 表示更好的模型

似然比检验(嵌套模型)

# 对于嵌套模型(一个是另一个的子集)
from scipy import stats

lr_stat = 2 * (full_model.llf - reduced_model.llf)
df = full_model.df_model - reduced_model.df_model
p_value = 1 - stats.chi2.cdf(lr_stat, df)

print(f"LR 统计量: {lr_stat:.4f}")
print(f"p 值: {p_value:.4f}")

if p_value < 0.05:
    print("完整模型显著更好")
else:
    print("简约模型更优")

交叉验证

from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error

kf = KFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = []

for train_idx, val_idx in kf.split(X):
    X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
    y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]

    # 拟合模型
    model = sm.OLS(y_train, X_train).fit()

    # 预测
    y_pred = model.predict(X_val)

    # 评分
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    cv_scores.append(rmse)

print(f"CV RMSE: {np.mean(cv_scores):.4f} ± {np.std(cv_scores):.4f}")

最佳实践

数据准备

  1. 始终添加常数项:使用 sm.add_constant(),除非排除截距
  2. 检查缺失值:在拟合前处理或填补
  3. 根据需要缩放:改善收敛和解释(但树模型不需要)
  4. 编码分类变量:使用公式 API 或手动虚拟编码

模型构建

  1. 从简单开始:从基本模型开始,根据需要增加复杂性
  2. 检查假设:测试残差、异方差性、自相关
  3. 使用合适的模型:匹配结果类型(二元→Logit、计数→泊松)
  4. 考虑替代方案:如果假设被违反,使用稳健方法或不同模型

推断

  1. 报告效应大小:不仅仅是 p 值
  2. 使用稳健标准误差:当存在异方差性或聚类时
  3. 多重比较:在测试多个假设时校正
  4. 置信区间:始终与点估计一起报告

模型评估

  1. 检查残差:绘制残差 vs 拟合值、Q-Q 图
  2. 影响诊断:识别和调查有影响的观测
  3. 样本外验证:在保留集上测试或交叉验证
  4. 比较模型:使用 AIC/BIC 用于非嵌套,LR 检验用于嵌套

报告

  1. 全面摘要:使用 .summary() 获取详细输出
  2. 记录决策:注意转换、排除的观测
  3. 谨慎解释:考虑链接函数(例如,对数链接的 exp(β))
  4. 可视化:绘制预测、置信区间、诊断

常见工作流程

工作流程 1:线性回归分析

  1. 探索数据(绘图、描述性统计)
  2. 拟合初始 OLS 模型
  3. 检查残差诊断
  4. 测试异方差性、自相关
  5. 检查多重共线性(VIF)
  6. 识别有影响的观测
  7. 如果需要,使用稳健标准误差重新拟合
  8. 解释系数和推断
  9. 在保留集或通过 CV 验证

工作流程 2:二元分类

  1. 拟合逻辑回归(Logit)
  2. 检查收敛问题
  3. 解释优势比
  4. 计算边际效应
  5. 评估分类性能(AUC、混淆矩阵)
  6. 检查有影响的观测
  7. 与替代模型比较(Probit)
  8. 在测试集上验证预测

工作流程 3:计数数据分析

  1. 拟合泊松回归
  2. 检查过度分散
  3. 如果过度分散,拟合负二项回归
  4. 检查多余零(考虑 ZIP/ZINB)
  5. 解释比率比
  6. 评估拟合优度
  7. 通过 AIC 比较模型
  8. 验证预测

工作流程 4:时间序列预测

  1. 绘制序列,检查趋势/季节性
  2. 测试平稳性(ADF、KPSS)
  3. 如果非平稳,差分处理
  4. 从 ACF/PACF 识别 p, q
  5. 拟合 ARIMA 或 SARIMAX
  6. 检查残差诊断(Ljung-Box)
  7. 生成带有置信区间的预测
  8. 在测试集上评估预测准确性

参考文档

此技能包括用于详细指导的全面参考文件:

references/linear_models.md

线性回归模型的详细覆盖,包括:

  • OLS、WLS、GLS、GLSAR、分位数回归
  • 混合效应模型
  • 递归和滚动回归
  • 全面诊断(异方差性、自相关、多重共线性)
  • 影响统计和异常值检测
  • 稳健标准误差(HC、HAC、聚类)
  • 假设检验和模型比较

references/glm.md

广义线性模型的完整指南:

  • 所有分布族(二项、泊松、伽马等)
  • 链接函数及何时使用每个
  • 模型拟合和解释
  • 伪 R 平方和拟合优度
  • 诊断和残差分析
  • 应用(逻辑、泊松、伽马回归)

references/discrete_choice.md

离散结果模型的全面指南:

  • 二元模型(Logit、Probit)
  • 多项模型(MNLogit、条件 Logit)
  • 计数模型(泊松、负二项、零膨胀、障碍)
  • 有序模型
  • 边际效应和解释
  • 模型诊断和比较

references/time_series.md

深入的时间序列分析指导:

  • 单变量模型(AR、ARIMA、SARIMAX、指数平滑)
  • 多变量模型(VAR、VARMAX、动态因子)
  • 状态空间模型
  • 平稳性测试和诊断
  • 预测方法和评估
  • Granger 因果性、IRF、FEVD

references/stats_diagnostics.md

全面的统计测试和诊断:

  • 残差诊断(自相关、异方差性、正态性)
  • 影响和异常值检测
  • 假设检验(参数和非参数)
  • ANOVA 和事后检验
  • 多重比较校正
  • 稳健协方差矩阵
  • 统计功效分析和效应大小

何时参考:

  • 需要详细的参数解释
  • 在类似模型之间选择
  • 解决收敛或诊断问题
  • 理解特定的检验统计量
  • 查找高级功能的代码示例

搜索模式:

# 查找特定模型的信息
grep -r "分位数回归" references/

# 查找诊断测试
grep -r "Breusch-Pagan" references/stats_diagnostics.md

# 查找时间序列指导
grep -r "SARIMAX" references/time_series.md

常见陷阱避免

  1. 忘记常数项:始终使用 sm.add_constant(),除非不想要截距
  2. 忽略假设:检查残差、异方差性、自相关
  3. 错误模型用于结果类型:二元→Logit/Probit、计数→泊松/NB,不是 OLS
  4. 不检查收敛:查看优化警告
  5. 误解系数:记住链接函数(对数、logit 等)
  6. 使用泊松回归处理过度分散:检查分散,如果需要使用负二项回归
  7. 不使用稳健标准误差:当存在异方差性或聚类时
  8. 过拟合:参数过多相对于样本量
  9. 数据泄漏:在测试数据上拟合或使用未来信息
  10. 不验证预测:始终检查样本外性能
  11. 比较非嵌套模型:使用 AIC/BIC,不是 LR 检验
  12. 忽略有影响的观测:检查 Cook’s 距离和杠杆
  13. 多重测试:在测试多个假设时校正 p 值
  14. 不差分时间序列:在非平稳数据上拟合 ARIMA
  15. 混淆预测与置信区间:预测区间更宽

获取帮助

详细文档和示例: