名称: statsmodels 描述: “统计建模工具包。OLS、GLM、逻辑回归、ARIMA、时间序列、假设检验、诊断、AIC/BIC，用于严格的统计推断和计量经济学分析。”

Statsmodels：统计建模与计量经济学

概述

Statsmodels 是 Python 中顶级的统计建模库，提供估计、推断和诊断工具，适用于广泛的统计方法。应用此技能进行严格的统计分析，从简单线性回归到复杂时间序列模型和计量经济学分析。

何时使用此技能

此技能应用于：

拟合回归模型（OLS、WLS、GLS、分位数回归）
执行广义线性建模（逻辑、泊松、伽马等）
分析离散结果（二元、多项、计数、有序）
进行时间序列分析（ARIMA、SARIMAX、VAR、预测）
运行统计检验和诊断
测试模型假设（异方差性、自相关、正态性）
检测异常值和有影响力的观测
比较模型（AIC/BIC、似然比检验）
估计因果效应
生成发表级别的统计表和推断

快速入门指南

线性回归（OLS）

import statsmodels.api as sm
import numpy as np
import pandas as pd

# 准备数据 - 始终添加常数项用于截距
X = sm.add_constant(X_data)

# 拟合 OLS 模型
model = sm.OLS(y, X)
results = model.fit()

# 查看全面结果
print(results.summary())

# 关键结果
print(f"R平方: {results.rsquared:.4f}")
print(f"系数:\
{results.params}")
print(f"P值:\
{results.pvalues}")

# 带有置信区间的预测
predictions = results.get_prediction(X_new)
pred_summary = predictions.summary_frame()
print(pred_summary)  # 包括均值、CI、预测区间

# 诊断
from statsmodels.stats.diagnostic import het_breuschpagan
bp_test = het_breuschpagan(results.resid, X)
print(f"Breusch-Pagan p值: {bp_test[1]:.4f}")

# 可视化残差
import matplotlib.pyplot as plt
plt.scatter(results.fittedvalues, results.resid)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('拟合值')
plt.ylabel('残差')
plt.show()

逻辑回归（二元结果）

from statsmodels.discrete.discrete_model import Logit

# 添加常数
X = sm.add_constant(X_data)

# 拟合 logit 模型
model = Logit(y_binary, X)
results = model.fit()

print(results.summary())

# 优势比
odds_ratios = np.exp(results.params)
print("优势比:\
", odds_ratios)

# 预测概率
probs = results.predict(X)

# 二元预测（0.5阈值）
predictions = (probs > 0.5).astype(int)

# 模型评估
from sklearn.metrics import classification_report, roc_auc_score

print(classification_report(y_binary, predictions))
print(f"AUC: {roc_auc_score(y_binary, probs):.4f}")

# 边际效应
marginal = results.get_margeff()
print(marginal.summary())

时间序列（ARIMA）

from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# 检查平稳性
from statsmodels.tsa.stattools import adfuller

adf_result = adfuller(y_series)
print(f"ADF p值: {adf_result[1]:.4f}")

if adf_result[1] > 0.05:
    # 序列非平稳，差分处理
    y_diff = y_series.diff().dropna()

# 绘制 ACF/PACF 以识别 p, q
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8))
plot_acf(y_diff, lags=40, ax=ax1)
plot_pacf(y_diff, lags=40, ax=ax2)
plt.show()

# 拟合 ARIMA(p,d,q)
model = ARIMA(y_series, order=(1, 1, 1))
results = model.fit()

print(results.summary())

# 预测
forecast = results.forecast(steps=10)
forecast_obj = results.get_forecast(steps=10)
forecast_df = forecast_obj.summary_frame()

print(forecast_df)  # 包括均值和置信区间

# 残差诊断
results.plot_diagnostics(figsize=(12, 8))
plt.show()

广义线性模型（GLM）

import statsmodels.api as sm

# 泊松回归用于计数数据
X = sm.add_constant(X_data)
model = sm.GLM(y_counts, X, family=sm.families.Poisson())
results = model.fit()

print(results.summary())

# 比率比（用于对数链接的泊松回归）
rate_ratios = np.exp(results.params)
print("比率比:\
", rate_ratios)

# 检查过度分散
overdispersion = results.pearson_chi2 / results.df_resid
print(f"过度分散: {overdispersion:.2f}")

if overdispersion > 1.5:
    # 使用负二项回归
    from statsmodels.discrete.count_model import NegativeBinomial
    nb_model = NegativeBinomial(y_counts, X)
    nb_results = nb_model.fit()
    print(nb_results.summary())

核心统计建模能力

1. 线性回归模型

用于连续结果的全面线性模型套件，支持各种误差结构。

可用模型：

OLS：标准线性回归，假设独立同分布误差
WLS：加权最小二乘，用于异方差误差
GLS：广义最小二乘，用于任意协方差结构
GLSAR：具有自回归误差的 GLS，用于时间序列
分位数回归：条件分位数（对异常值稳健）
混合效应模型：具有随机效应的层次/多级模型
递归/滚动回归：时变参数估计

关键特性：

全面的诊断测试
稳健标准误差（HC、HAC、聚类稳健）
影响统计（Cook’s 距离、杠杆、DFFITS）
假设检验（F 检验、Wald 检验）
模型比较（AIC、BIC、似然比检验）
带有置信和预测区间的预测

何时使用： 连续结果变量，需要系数推断和诊断

参考： 参见 references/linear_models.md 获取模型选择、诊断和最佳实践的详细指导。

2. 广义线性模型（GLM）

灵活框架，将线性模型扩展到非正态分布。

分布族：

二项分布：二元结果或比例（逻辑回归）
泊松分布：计数数据
负二项分布：过度分散的计数
伽马分布：正连续、右偏数据
逆高斯分布：具有特定方差结构的正连续数据
高斯分布：等价于 OLS
Tweedie 分布：灵活族，用于半连续数据

链接函数：

Logit、Probit、Log、Identity、Inverse、Sqrt、CLogLog、Power
基于解释需求和模型拟合选择

关键特性：

通过 IRLS 进行最大似然估计
偏差和 Pearson 残差
拟合优度统计
伪 R 平方度量
稳健标准误差

何时使用： 非正态结果，需要灵活的方差和链接规范

参考： 参见 references/glm.md 获取族选择、链接函数、解释和诊断的指南。

3. 离散选择模型

用于分类和计数结果的模型。

二元模型：

Logit：逻辑回归（优势比）
Probit：Probit 回归（正态分布）

多项模型：

MNLogit：无序类别（3+ 级）
条件 Logit：具有替代特定变量的选择模型
有序模型：有序结果（有序类别）

计数模型：

泊松：标准计数模型
负二项：过度分散的计数
零膨胀模型：多余零（ZIP、ZINB）
障碍模型：用于零重数据的两阶段模型

关键特性：

最大似然估计
在均值或平均边际效应处的边际效应
通过 AIC/BIC 进行模型比较
预测概率和分类
拟合优度检验

何时使用： 二元、分类或计数结果

参考： 参见 references/discrete_choice.md 获取模型选择、解释和评估的指南。

4. 时间序列分析

全面的时间序列建模和预测能力。

单变量模型：

AutoReg (AR)：自回归模型
ARIMA：自回归积分滑动平均
SARIMAX：具有外生变量的季节性 ARIMA
指数平滑：简单、Holt、Holt-Winters
ETS：创新状态空间模型

多变量模型：

VAR：向量自回归
VARMAX：具有 MA 和外生变量的 VAR
动态因子模型：提取公共因子
VECM：向量误差修正模型（协整）

高级模型：

状态空间模型：卡尔曼滤波、自定义规范
制度转换模型：马尔可夫转换模型
ARDL：自回归分布滞后

关键特性：

ACF/PACF 分析用于模型识别
平稳性检验（ADF、KPSS）
带有预测区间的预测
残差诊断（Ljung-Box、异方差性）
Granger 因果性检验
脉冲响应函数（IRF）
预测误差方差分解（FEVD）

何时使用： 时间顺序数据、预测、理解时间动态

参考： 参见 references/time_series.md 获取模型选择、诊断和预测方法的指南。

5. 统计检验和诊断

广泛的测试和诊断能力，用于模型验证。

残差诊断：

自相关检验（Ljung-Box、Durbin-Watson、Breusch-Godfrey）
异方差性检验（Breusch-Pagan、White、ARCH）
正态性检验（Jarque-Bera、Omnibus、Anderson-Darling、Lilliefors）
规范检验（RESET、Harvey-Collier）

影响和异常值：

杠杆（帽子值）
Cook’s 距离
DFFITS 和 DFBETAs
学生化残差
影响图

假设检验：

t 检验（单样本、双样本、配对）
比例检验
卡方检验
非参数检验（Mann-Whitney、Wilcoxon、Kruskal-Wallis）
ANOVA（单因素、双因素、重复测量）

多重比较：

Tukey’s HSD
Bonferroni 校正
错误发现率（FDR）

效应大小和统计功效：

Cohen’s d、eta 平方
用于 t 检验、比例的统计功效分析
样本量计算

稳健推断：

异方差性一致标准误差（HC0-HC3）
HAC 标准误差（Newey-West）
聚类稳健标准误差

何时使用： 验证假设、检测问题、确保稳健推断

参考： 参见 references/stats_diagnostics.md 获取全面的测试和诊断程序指南。

公式 API（R 风格）

Statsmodels 支持 R 风格公式进行直观的模型规范：

import statsmodels.formula.api as smf

# 使用公式的 OLS
results = smf.ols('y ~ x1 + x2 + x1:x2', data=df).fit()

# 分类变量（自动虚拟编码）
results = smf.ols('y ~ x1 + C(category)', data=df).fit()

# 交互作用
results = smf.ols('y ~ x1 * x2', data=df).fit()  # x1 + x2 + x1:x2

# 多项式项
results = smf.ols('y ~ x + I(x**2)', data=df).fit()

# Logit
results = smf.logit('y ~ x1 + x2 + C(group)', data=df).fit()

# Poisson
results = smf.poisson('count ~ x1 + x2', data=df).fit()

# ARIMA（不可用公式 API，使用常规 API）

模型选择和比较

信息准则

# 使用 AIC/BIC 比较模型
models = {
    '模型 1': model1_results,
    '模型 2': model2_results,
    '模型 3': model3_results
}

comparison = pd.DataFrame({
    'AIC': {name: res.aic for name, res in models.items()},
    'BIC': {name: res.bic for name, res in models.items()},
    '对数似然': {name: res.llf for name, res in models.items()}
})

print(comparison.sort_values('AIC'))
# 较低的 AIC/BIC 表示更好的模型

似然比检验（嵌套模型）

# 对于嵌套模型（一个是另一个的子集）
from scipy import stats

lr_stat = 2 * (full_model.llf - reduced_model.llf)
df = full_model.df_model - reduced_model.df_model
p_value = 1 - stats.chi2.cdf(lr_stat, df)

print(f"LR 统计量: {lr_stat:.4f}")
print(f"p 值: {p_value:.4f}")

if p_value < 0.05:
    print("完整模型显著更好")
else:
    print("简约模型更优")

交叉验证

from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error

kf = KFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = []

for train_idx, val_idx in kf.split(X):
    X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
    y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]

    # 拟合模型
    model = sm.OLS(y_train, X_train).fit()

    # 预测
    y_pred = model.predict(X_val)

    # 评分
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    cv_scores.append(rmse)

print(f"CV RMSE: {np.mean(cv_scores):.4f} ± {np.std(cv_scores):.4f}")

最佳实践

数据准备

始终添加常数项：使用 sm.add_constant()，除非排除截距
检查缺失值：在拟合前处理或填补
根据需要缩放：改善收敛和解释（但树模型不需要）
编码分类变量：使用公式 API 或手动虚拟编码

模型构建

从简单开始：从基本模型开始，根据需要增加复杂性
检查假设：测试残差、异方差性、自相关
使用合适的模型：匹配结果类型（二元→Logit、计数→泊松）
考虑替代方案：如果假设被违反，使用稳健方法或不同模型

推断

报告效应大小：不仅仅是 p 值
使用稳健标准误差：当存在异方差性或聚类时
多重比较：在测试多个假设时校正
置信区间：始终与点估计一起报告

模型评估

检查残差：绘制残差 vs 拟合值、Q-Q 图
影响诊断：识别和调查有影响的观测
样本外验证：在保留集上测试或交叉验证
比较模型：使用 AIC/BIC 用于非嵌套，LR 检验用于嵌套

报告

全面摘要：使用 .summary() 获取详细输出
记录决策：注意转换、排除的观测
谨慎解释：考虑链接函数（例如，对数链接的 exp(β)）
可视化：绘制预测、置信区间、诊断

常见工作流程

工作流程 1：线性回归分析

探索数据（绘图、描述性统计）
拟合初始 OLS 模型
检查残差诊断
测试异方差性、自相关
检查多重共线性（VIF）
识别有影响的观测
如果需要，使用稳健标准误差重新拟合
解释系数和推断
在保留集或通过 CV 验证

工作流程 2：二元分类

拟合逻辑回归（Logit）
检查收敛问题
解释优势比
计算边际效应
评估分类性能（AUC、混淆矩阵）
检查有影响的观测
与替代模型比较（Probit）
在测试集上验证预测

工作流程 3：计数数据分析

拟合泊松回归
检查过度分散
如果过度分散，拟合负二项回归
检查多余零（考虑 ZIP/ZINB）
解释比率比
评估拟合优度
通过 AIC 比较模型
验证预测

工作流程 4：时间序列预测

绘制序列，检查趋势/季节性
测试平稳性（ADF、KPSS）
如果非平稳，差分处理
从 ACF/PACF 识别 p, q
拟合 ARIMA 或 SARIMAX
检查残差诊断（Ljung-Box）
生成带有置信区间的预测
在测试集上评估预测准确性

参考文档

此技能包括用于详细指导的全面参考文件：

references/linear_models.md

线性回归模型的详细覆盖，包括：

OLS、WLS、GLS、GLSAR、分位数回归
混合效应模型
递归和滚动回归
全面诊断（异方差性、自相关、多重共线性）
影响统计和异常值检测
稳健标准误差（HC、HAC、聚类）
假设检验和模型比较

references/glm.md

广义线性模型的完整指南：

所有分布族（二项、泊松、伽马等）
链接函数及何时使用每个
模型拟合和解释
伪 R 平方和拟合优度
诊断和残差分析
应用（逻辑、泊松、伽马回归）

references/discrete_choice.md

离散结果模型的全面指南：

二元模型（Logit、Probit）
多项模型（MNLogit、条件 Logit）
计数模型（泊松、负二项、零膨胀、障碍）
有序模型
边际效应和解释
模型诊断和比较

references/time_series.md

深入的时间序列分析指导：

单变量模型（AR、ARIMA、SARIMAX、指数平滑）
多变量模型（VAR、VARMAX、动态因子）
状态空间模型
平稳性测试和诊断
预测方法和评估
Granger 因果性、IRF、FEVD

references/stats_diagnostics.md

全面的统计测试和诊断：

残差诊断（自相关、异方差性、正态性）
影响和异常值检测
假设检验（参数和非参数）
ANOVA 和事后检验
多重比较校正
稳健协方差矩阵
统计功效分析和效应大小

何时参考：

需要详细的参数解释
在类似模型之间选择
解决收敛或诊断问题
理解特定的检验统计量
查找高级功能的代码示例

搜索模式：

# 查找特定模型的信息
grep -r "分位数回归" references/

# 查找诊断测试
grep -r "Breusch-Pagan" references/stats_diagnostics.md

# 查找时间序列指导
grep -r "SARIMAX" references/time_series.md

常见陷阱避免

忘记常数项：始终使用 sm.add_constant()，除非不想要截距
忽略假设：检查残差、异方差性、自相关
错误模型用于结果类型：二元→Logit/Probit、计数→泊松/NB，不是 OLS
不检查收敛：查看优化警告
误解系数：记住链接函数（对数、logit 等）
使用泊松回归处理过度分散：检查分散，如果需要使用负二项回归
不使用稳健标准误差：当存在异方差性或聚类时
过拟合：参数过多相对于样本量
数据泄漏：在测试数据上拟合或使用未来信息
不验证预测：始终检查样本外性能
比较非嵌套模型：使用 AIC/BIC，不是 LR 检验
忽略有影响的观测：检查 Cook’s 距离和杠杆
多重测试：在测试多个假设时校正 p 值
不差分时间序列：在非平稳数据上拟合 ARIMA
混淆预测与置信区间：预测区间更宽

获取帮助

详细文档和示例：

官方文档：https://www.statsmodels.org/stable/
用户指南：https://www.statsmodels.org/stable/user-guide.html
示例：https://www.statsmodels.org/stable/examples/index.html
API 参考：https://www.statsmodels.org/stable/api.html