名称: statsmodels 描述: “统计建模工具包。OLS、GLM、逻辑回归、ARIMA、时间序列、假设检验、诊断、AIC/BIC,用于严格的统计推断和计量经济学分析。”
Statsmodels:统计建模与计量经济学
概述
Statsmodels 是 Python 中顶级的统计建模库,提供估计、推断和诊断工具,适用于广泛的统计方法。应用此技能进行严格的统计分析,从简单线性回归到复杂时间序列模型和计量经济学分析。
何时使用此技能
此技能应用于:
- 拟合回归模型(OLS、WLS、GLS、分位数回归)
- 执行广义线性建模(逻辑、泊松、伽马等)
- 分析离散结果(二元、多项、计数、有序)
- 进行时间序列分析(ARIMA、SARIMAX、VAR、预测)
- 运行统计检验和诊断
- 测试模型假设(异方差性、自相关、正态性)
- 检测异常值和有影响力的观测
- 比较模型(AIC/BIC、似然比检验)
- 估计因果效应
- 生成发表级别的统计表和推断
快速入门指南
线性回归(OLS)
import statsmodels.api as sm
import numpy as np
import pandas as pd
# 准备数据 - 始终添加常数项用于截距
X = sm.add_constant(X_data)
# 拟合 OLS 模型
model = sm.OLS(y, X)
results = model.fit()
# 查看全面结果
print(results.summary())
# 关键结果
print(f"R平方: {results.rsquared:.4f}")
print(f"系数:\
{results.params}")
print(f"P值:\
{results.pvalues}")
# 带有置信区间的预测
predictions = results.get_prediction(X_new)
pred_summary = predictions.summary_frame()
print(pred_summary) # 包括均值、CI、预测区间
# 诊断
from statsmodels.stats.diagnostic import het_breuschpagan
bp_test = het_breuschpagan(results.resid, X)
print(f"Breusch-Pagan p值: {bp_test[1]:.4f}")
# 可视化残差
import matplotlib.pyplot as plt
plt.scatter(results.fittedvalues, results.resid)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('拟合值')
plt.ylabel('残差')
plt.show()
逻辑回归(二元结果)
from statsmodels.discrete.discrete_model import Logit
# 添加常数
X = sm.add_constant(X_data)
# 拟合 logit 模型
model = Logit(y_binary, X)
results = model.fit()
print(results.summary())
# 优势比
odds_ratios = np.exp(results.params)
print("优势比:\
", odds_ratios)
# 预测概率
probs = results.predict(X)
# 二元预测(0.5阈值)
predictions = (probs > 0.5).astype(int)
# 模型评估
from sklearn.metrics import classification_report, roc_auc_score
print(classification_report(y_binary, predictions))
print(f"AUC: {roc_auc_score(y_binary, probs):.4f}")
# 边际效应
marginal = results.get_margeff()
print(marginal.summary())
时间序列(ARIMA)
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
# 检查平稳性
from statsmodels.tsa.stattools import adfuller
adf_result = adfuller(y_series)
print(f"ADF p值: {adf_result[1]:.4f}")
if adf_result[1] > 0.05:
# 序列非平稳,差分处理
y_diff = y_series.diff().dropna()
# 绘制 ACF/PACF 以识别 p, q
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 8))
plot_acf(y_diff, lags=40, ax=ax1)
plot_pacf(y_diff, lags=40, ax=ax2)
plt.show()
# 拟合 ARIMA(p,d,q)
model = ARIMA(y_series, order=(1, 1, 1))
results = model.fit()
print(results.summary())
# 预测
forecast = results.forecast(steps=10)
forecast_obj = results.get_forecast(steps=10)
forecast_df = forecast_obj.summary_frame()
print(forecast_df) # 包括均值和置信区间
# 残差诊断
results.plot_diagnostics(figsize=(12, 8))
plt.show()
广义线性模型(GLM)
import statsmodels.api as sm
# 泊松回归用于计数数据
X = sm.add_constant(X_data)
model = sm.GLM(y_counts, X, family=sm.families.Poisson())
results = model.fit()
print(results.summary())
# 比率比(用于对数链接的泊松回归)
rate_ratios = np.exp(results.params)
print("比率比:\
", rate_ratios)
# 检查过度分散
overdispersion = results.pearson_chi2 / results.df_resid
print(f"过度分散: {overdispersion:.2f}")
if overdispersion > 1.5:
# 使用负二项回归
from statsmodels.discrete.count_model import NegativeBinomial
nb_model = NegativeBinomial(y_counts, X)
nb_results = nb_model.fit()
print(nb_results.summary())
核心统计建模能力
1. 线性回归模型
用于连续结果的全面线性模型套件,支持各种误差结构。
可用模型:
- OLS:标准线性回归,假设独立同分布误差
- WLS:加权最小二乘,用于异方差误差
- GLS:广义最小二乘,用于任意协方差结构
- GLSAR:具有自回归误差的 GLS,用于时间序列
- 分位数回归:条件分位数(对异常值稳健)
- 混合效应模型:具有随机效应的层次/多级模型
- 递归/滚动回归:时变参数估计
关键特性:
- 全面的诊断测试
- 稳健标准误差(HC、HAC、聚类稳健)
- 影响统计(Cook’s 距离、杠杆、DFFITS)
- 假设检验(F 检验、Wald 检验)
- 模型比较(AIC、BIC、似然比检验)
- 带有置信和预测区间的预测
何时使用: 连续结果变量,需要系数推断和诊断
参考: 参见 references/linear_models.md 获取模型选择、诊断和最佳实践的详细指导。
2. 广义线性模型(GLM)
灵活框架,将线性模型扩展到非正态分布。
分布族:
- 二项分布:二元结果或比例(逻辑回归)
- 泊松分布:计数数据
- 负二项分布:过度分散的计数
- 伽马分布:正连续、右偏数据
- 逆高斯分布:具有特定方差结构的正连续数据
- 高斯分布:等价于 OLS
- Tweedie 分布:灵活族,用于半连续数据
链接函数:
- Logit、Probit、Log、Identity、Inverse、Sqrt、CLogLog、Power
- 基于解释需求和模型拟合选择
关键特性:
- 通过 IRLS 进行最大似然估计
- 偏差和 Pearson 残差
- 拟合优度统计
- 伪 R 平方度量
- 稳健标准误差
何时使用: 非正态结果,需要灵活的方差和链接规范
参考: 参见 references/glm.md 获取族选择、链接函数、解释和诊断的指南。
3. 离散选择模型
用于分类和计数结果的模型。
二元模型:
- Logit:逻辑回归(优势比)
- Probit:Probit 回归(正态分布)
多项模型:
- MNLogit:无序类别(3+ 级)
- 条件 Logit:具有替代特定变量的选择模型
- 有序模型:有序结果(有序类别)
计数模型:
- 泊松:标准计数模型
- 负二项:过度分散的计数
- 零膨胀模型:多余零(ZIP、ZINB)
- 障碍模型:用于零重数据的两阶段模型
关键特性:
- 最大似然估计
- 在均值或平均边际效应处的边际效应
- 通过 AIC/BIC 进行模型比较
- 预测概率和分类
- 拟合优度检验
何时使用: 二元、分类或计数结果
参考: 参见 references/discrete_choice.md 获取模型选择、解释和评估的指南。
4. 时间序列分析
全面的时间序列建模和预测能力。
单变量模型:
- AutoReg (AR):自回归模型
- ARIMA:自回归积分滑动平均
- SARIMAX:具有外生变量的季节性 ARIMA
- 指数平滑:简单、Holt、Holt-Winters
- ETS:创新状态空间模型
多变量模型:
- VAR:向量自回归
- VARMAX:具有 MA 和外生变量的 VAR
- 动态因子模型:提取公共因子
- VECM:向量误差修正模型(协整)
高级模型:
- 状态空间模型:卡尔曼滤波、自定义规范
- 制度转换模型:马尔可夫转换模型
- ARDL:自回归分布滞后
关键特性:
- ACF/PACF 分析用于模型识别
- 平稳性检验(ADF、KPSS)
- 带有预测区间的预测
- 残差诊断(Ljung-Box、异方差性)
- Granger 因果性检验
- 脉冲响应函数(IRF)
- 预测误差方差分解(FEVD)
何时使用: 时间顺序数据、预测、理解时间动态
参考: 参见 references/time_series.md 获取模型选择、诊断和预测方法的指南。
5. 统计检验和诊断
广泛的测试和诊断能力,用于模型验证。
残差诊断:
- 自相关检验(Ljung-Box、Durbin-Watson、Breusch-Godfrey)
- 异方差性检验(Breusch-Pagan、White、ARCH)
- 正态性检验(Jarque-Bera、Omnibus、Anderson-Darling、Lilliefors)
- 规范检验(RESET、Harvey-Collier)
影响和异常值:
- 杠杆(帽子值)
- Cook’s 距离
- DFFITS 和 DFBETAs
- 学生化残差
- 影响图
假设检验:
- t 检验(单样本、双样本、配对)
- 比例检验
- 卡方检验
- 非参数检验(Mann-Whitney、Wilcoxon、Kruskal-Wallis)
- ANOVA(单因素、双因素、重复测量)
多重比较:
- Tukey’s HSD
- Bonferroni 校正
- 错误发现率(FDR)
效应大小和统计功效:
- Cohen’s d、eta 平方
- 用于 t 检验、比例的统计功效分析
- 样本量计算
稳健推断:
- 异方差性一致标准误差(HC0-HC3)
- HAC 标准误差(Newey-West)
- 聚类稳健标准误差
何时使用: 验证假设、检测问题、确保稳健推断
参考: 参见 references/stats_diagnostics.md 获取全面的测试和诊断程序指南。
公式 API(R 风格)
Statsmodels 支持 R 风格公式进行直观的模型规范:
import statsmodels.formula.api as smf
# 使用公式的 OLS
results = smf.ols('y ~ x1 + x2 + x1:x2', data=df).fit()
# 分类变量(自动虚拟编码)
results = smf.ols('y ~ x1 + C(category)', data=df).fit()
# 交互作用
results = smf.ols('y ~ x1 * x2', data=df).fit() # x1 + x2 + x1:x2
# 多项式项
results = smf.ols('y ~ x + I(x**2)', data=df).fit()
# Logit
results = smf.logit('y ~ x1 + x2 + C(group)', data=df).fit()
# Poisson
results = smf.poisson('count ~ x1 + x2', data=df).fit()
# ARIMA(不可用公式 API,使用常规 API)
模型选择和比较
信息准则
# 使用 AIC/BIC 比较模型
models = {
'模型 1': model1_results,
'模型 2': model2_results,
'模型 3': model3_results
}
comparison = pd.DataFrame({
'AIC': {name: res.aic for name, res in models.items()},
'BIC': {name: res.bic for name, res in models.items()},
'对数似然': {name: res.llf for name, res in models.items()}
})
print(comparison.sort_values('AIC'))
# 较低的 AIC/BIC 表示更好的模型
似然比检验(嵌套模型)
# 对于嵌套模型(一个是另一个的子集)
from scipy import stats
lr_stat = 2 * (full_model.llf - reduced_model.llf)
df = full_model.df_model - reduced_model.df_model
p_value = 1 - stats.chi2.cdf(lr_stat, df)
print(f"LR 统计量: {lr_stat:.4f}")
print(f"p 值: {p_value:.4f}")
if p_value < 0.05:
print("完整模型显著更好")
else:
print("简约模型更优")
交叉验证
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error
kf = KFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = []
for train_idx, val_idx in kf.split(X):
X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]
# 拟合模型
model = sm.OLS(y_train, X_train).fit()
# 预测
y_pred = model.predict(X_val)
# 评分
rmse = np.sqrt(mean_squared_error(y_val, y_pred))
cv_scores.append(rmse)
print(f"CV RMSE: {np.mean(cv_scores):.4f} ± {np.std(cv_scores):.4f}")
最佳实践
数据准备
- 始终添加常数项:使用
sm.add_constant(),除非排除截距 - 检查缺失值:在拟合前处理或填补
- 根据需要缩放:改善收敛和解释(但树模型不需要)
- 编码分类变量:使用公式 API 或手动虚拟编码
模型构建
- 从简单开始:从基本模型开始,根据需要增加复杂性
- 检查假设:测试残差、异方差性、自相关
- 使用合适的模型:匹配结果类型(二元→Logit、计数→泊松)
- 考虑替代方案:如果假设被违反,使用稳健方法或不同模型
推断
- 报告效应大小:不仅仅是 p 值
- 使用稳健标准误差:当存在异方差性或聚类时
- 多重比较:在测试多个假设时校正
- 置信区间:始终与点估计一起报告
模型评估
- 检查残差:绘制残差 vs 拟合值、Q-Q 图
- 影响诊断:识别和调查有影响的观测
- 样本外验证:在保留集上测试或交叉验证
- 比较模型:使用 AIC/BIC 用于非嵌套,LR 检验用于嵌套
报告
- 全面摘要:使用
.summary()获取详细输出 - 记录决策:注意转换、排除的观测
- 谨慎解释:考虑链接函数(例如,对数链接的 exp(β))
- 可视化:绘制预测、置信区间、诊断
常见工作流程
工作流程 1:线性回归分析
- 探索数据(绘图、描述性统计)
- 拟合初始 OLS 模型
- 检查残差诊断
- 测试异方差性、自相关
- 检查多重共线性(VIF)
- 识别有影响的观测
- 如果需要,使用稳健标准误差重新拟合
- 解释系数和推断
- 在保留集或通过 CV 验证
工作流程 2:二元分类
- 拟合逻辑回归(Logit)
- 检查收敛问题
- 解释优势比
- 计算边际效应
- 评估分类性能(AUC、混淆矩阵)
- 检查有影响的观测
- 与替代模型比较(Probit)
- 在测试集上验证预测
工作流程 3:计数数据分析
- 拟合泊松回归
- 检查过度分散
- 如果过度分散,拟合负二项回归
- 检查多余零(考虑 ZIP/ZINB)
- 解释比率比
- 评估拟合优度
- 通过 AIC 比较模型
- 验证预测
工作流程 4:时间序列预测
- 绘制序列,检查趋势/季节性
- 测试平稳性(ADF、KPSS)
- 如果非平稳,差分处理
- 从 ACF/PACF 识别 p, q
- 拟合 ARIMA 或 SARIMAX
- 检查残差诊断(Ljung-Box)
- 生成带有置信区间的预测
- 在测试集上评估预测准确性
参考文档
此技能包括用于详细指导的全面参考文件:
references/linear_models.md
线性回归模型的详细覆盖,包括:
- OLS、WLS、GLS、GLSAR、分位数回归
- 混合效应模型
- 递归和滚动回归
- 全面诊断(异方差性、自相关、多重共线性)
- 影响统计和异常值检测
- 稳健标准误差(HC、HAC、聚类)
- 假设检验和模型比较
references/glm.md
广义线性模型的完整指南:
- 所有分布族(二项、泊松、伽马等)
- 链接函数及何时使用每个
- 模型拟合和解释
- 伪 R 平方和拟合优度
- 诊断和残差分析
- 应用(逻辑、泊松、伽马回归)
references/discrete_choice.md
离散结果模型的全面指南:
- 二元模型(Logit、Probit)
- 多项模型(MNLogit、条件 Logit)
- 计数模型(泊松、负二项、零膨胀、障碍)
- 有序模型
- 边际效应和解释
- 模型诊断和比较
references/time_series.md
深入的时间序列分析指导:
- 单变量模型(AR、ARIMA、SARIMAX、指数平滑)
- 多变量模型(VAR、VARMAX、动态因子)
- 状态空间模型
- 平稳性测试和诊断
- 预测方法和评估
- Granger 因果性、IRF、FEVD
references/stats_diagnostics.md
全面的统计测试和诊断:
- 残差诊断(自相关、异方差性、正态性)
- 影响和异常值检测
- 假设检验(参数和非参数)
- ANOVA 和事后检验
- 多重比较校正
- 稳健协方差矩阵
- 统计功效分析和效应大小
何时参考:
- 需要详细的参数解释
- 在类似模型之间选择
- 解决收敛或诊断问题
- 理解特定的检验统计量
- 查找高级功能的代码示例
搜索模式:
# 查找特定模型的信息
grep -r "分位数回归" references/
# 查找诊断测试
grep -r "Breusch-Pagan" references/stats_diagnostics.md
# 查找时间序列指导
grep -r "SARIMAX" references/time_series.md
常见陷阱避免
- 忘记常数项:始终使用
sm.add_constant(),除非不想要截距 - 忽略假设:检查残差、异方差性、自相关
- 错误模型用于结果类型:二元→Logit/Probit、计数→泊松/NB,不是 OLS
- 不检查收敛:查看优化警告
- 误解系数:记住链接函数(对数、logit 等)
- 使用泊松回归处理过度分散:检查分散,如果需要使用负二项回归
- 不使用稳健标准误差:当存在异方差性或聚类时
- 过拟合:参数过多相对于样本量
- 数据泄漏:在测试数据上拟合或使用未来信息
- 不验证预测:始终检查样本外性能
- 比较非嵌套模型:使用 AIC/BIC,不是 LR 检验
- 忽略有影响的观测:检查 Cook’s 距离和杠杆
- 多重测试:在测试多个假设时校正 p 值
- 不差分时间序列:在非平稳数据上拟合 ARIMA
- 混淆预测与置信区间:预测区间更宽
获取帮助
详细文档和示例: