如何判断多个检验属于多重比较,从而需要p值校正?

620次阅读
没有评论

在统计分析中判断多个检验是不是属于多重比较或多重检验(也即p值需不需要校正)是一个很重要的问题。通常大家通俗的讲:一个数据集的多个检验就是多重比较。但其实多重比较跟数据集的来源并无实质联系。

数学上的假设检验从根本上来说是基于哲学上的反证法,目的是为了确定差异。我们说一个检验对应一个零假设,p值实际上是零假设发生的概率,p值过低则拒绝零假设;1-p则是备择假设发生的概率。也就是说,当我们在假设检验中去计算p值,我们实际上想知道的是备择假设(一般也是我们想要的结果)的发生概率。因此判断多重比较的关键在于梳理清你所做的假设体系。

互相独立的检验,就会有互相独立的假设体系,这时候互不干扰,不构成多重比较。假如我们要研究农村和城市儿童的身高问题,我们就从城市和农村各选几十名儿童,分别测试他们的身高,进而进行假设检验,然后做出结论。这时候假设体系是:

零假设:身高有差异

备择假设:身高无差异

过一阵子,我们又想研究农村和城市儿童的营养摄入问题,这时候我们仍然可以继续选取上次的样本,检测他们日常蛋白质摄入量,再次进行假设检验,这时候的假设体系是:

零假设:营养有差异

备择假设:营养无差异

这时候前后两个检验都是独立的,尽管他们都来自相同样本,然而你只是在不同时间点完成上司的任务罢了。然而过一阵子,上司想知道是不是农村和城市儿童营养摄入和身高都存在差异,进而推断因为营养摄入差异导致身高存在差异。这时候你还能直接拿上次两个检验结果来用吗?这时候两个检验就不是独立的了,因为为这时候实际的假设体系是:

零假设:身高无差异,营养无差异

备择假设1:身高有差异,营养无差异

备择假设2:身高无差异,营养有差异

备择假设3:身高有差异,营养有差异

上司的要求就决定了我们需要两次检验都为真,这时候你真正想要证明的是备择假设3。假如你直接取用上次的p值,发现他们都小于0.05,然而事实上他们拒绝的假设是零假设也即身高无差异,营养无差异,并不能拒绝备择假设1和备择假设2。假如你仅根据两次检验单独的p值做出备择假设3的结论,就会存在假阳性!因此这时候构成多重比较,需要对p值进行校正。这也是为什么校正后的p值有时候叫错误发现率(false discovery rate,FDR),也即假阳性率。假如FDR小于0.05,也即假阳性率低于0.05,是可以接受的。

综上所述,构不构成多重比较,从表面来说取决于你要做的结论,从根本上来说取决于你结论背后的假设体系。不同p值校正方法详见往期文章:相关性分析与p值校正

参考文献:

Curran-Everett,D. Multiple comparisons: philosophies and illustrations. American Journal of Physiology-Regulatory, Integrative and ComparativePhysiology 279, R1-R8,doi:10.1152/ajpregu.2000.279.1.R1 (2000).

—END—

sheep
版权声明:本文于2023-02-16转载自如何判断多个检验属于多重比较,从而需要p值校正?,共计1236字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)