Python怎么做方差分析_f_oneway单因素ANOVA检验应用

4次阅读

scipy.stats.f_oneway返回nan或报错主因是输入含空数组、全相同值、缺失值、单样本或非1d数组;需预处理剔除nan、确保每组≥2个不同值、转为1d数值数组

Python怎么做方差分析_f_oneway单因素ANOVA检验应用

scipy.stats.f_oneway 为什么返回 nan 或报错

直接用 f_oneway 却得到 nan,大概率是输入了空数组、全相同值的组,或含 None/np.nan 的数组。它不自动跳过缺失值,也不处理单样本(每组至少得有 2 个观测值才能算方差)。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 先用 np.isnan()pandas.isna() 检查各组是否有缺失值,手动剔除或插补(别让它进 f_oneway
  • 每组长度必须 ≥ 2,且不能全为同一数值(比如 [5, 5, 5]),否则组内方差为 0,F 统计量分母为 0,结果为 infnan
  • 输入必须是 1D 数组,别传入二维 ndarray 或嵌套列表——f_oneway([1,2,3], [4,5,6]) 对,f_oneway([[1,2,3]], [[4,5,6]])

怎么把 pandas DataFrame 的多列喂给 f_oneway

常见场景:你有 3 列数据 group_agroup_bgroup_c,想一次性比均值差异。但 f_oneway 不接受 DataFrame 或字典,只认一维序列。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • df['group_a'].dropna().values 提取并清理,确保是 numpy.ndarraylist
  • 多列拼成参数列表: f_oneway(*[df[col].dropna().values for col in ['group_a', 'group_b', 'group_c']])
  • 如果列名存在缺失或类型混杂(比如某列是字符串),.values 可能转出 Object 类型数组,导致 f_onewayTypeError;务必提前用 pd.to_numeric(..., errors='coerce') 转换

f_oneway 和 statsmodels 的 anova_lm 结果不一样?

两者不是“对错”问题,而是模型假设不同:f_oneway 是经典单因素 ANOVA(均衡设计、等方差、独立样本),而 statsmodels.anova_lm 默认走的是线性模型框架,支持不平衡设计和更灵活的误差结构,但需要你显式构造 OLS 模型。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 如果你的数据是标准三组/四组、每组样本量接近、没缺失,f_oneway 更轻量、语义清晰,结果也更贴近教科书定义
  • 若组间样本量差异大(比如 12 vs 35 vs 8),或你想同时控制协变量(如年龄、性别),就该换 statsmodels,而不是硬塞进 f_oneway
  • f_oneway 返回的是 F-statisticp-value 两个数;anova_lm 返回表格,其中 PR(>F) 才对应它的 p 值,别误读 F

显著性出来了,但实际差异很小,要不要看效应量

ANOVA 显著 ≠ 差异大。样本量一大,微小差异也能显著。不看效应量(比如 η² 或 ω²),光盯 p 值容易误判。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • f_oneway 不提供效应量,得自己算:η² = ss_between / ss_total,可用 scipy.stats._oneway 源码逻辑反推,或改用 pingouin.anova(它直接返回 np2 字段)
  • ω² 更稳健,尤其当组数多或样本不均衡时,推荐用 pingouin 或手算公式:ω² = (SSbetween − (k−1) × MSerror) / (SStotal + MSerror)
  • python 生态里没有开箱即用的“ANOVA + 效应量 + 事后检验”一站式函数,f_oneway 只管最前面那步,后面得接别的工具,这点常被忽略
text=ZqhQzanResources