关于P值不得不说的事儿—

关于P值不得不说的事儿——p值之争

发布时间：2015-12-16 | 来源： | 责任编辑：嗵嗵医生

《Nature》发表了一篇新闻题为“Scientificmethod: Statistical errors”，其中副标题就提到：p值虽然是统计有效性的黄金标准,并不像许多科学家认为的那么可靠。也就是说，很多科学家在写论文时其实错用或滥用了p值这个概念。

其中有一段文字也许研究者，尤其是那些被大于0.05p值困扰的研究者，读起来会觉得非常解气。有人认为p值就像苍蝇一样烦人却挥之不去，或者像皇帝的新衣一样充满大家都忽视却明显的问题；甚至有人建议把假设检验改名为statistical hypothesis inference testing（统计假设推断检验）而且要大力推广它的缩写：SHIT。

那么p值到底是什么呢？说到p值，不得不说说统计学上著名的Fisher和Neyman-Pearson之争。

P值是著名英国统计学家R.A.Fisher在20世纪20年代首先提出的，是在创立假设检验理论时提出P值的概念。他认为假设检验是一种程序，研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说，他认为假设检验是数据分析的一种形式，是人们在研究中加入的主观信息。

做统计推断时首先，实验者要提出一个“零假设（Null Hypothesis）”，这个假设往往是研究者要攻击或者反对的结论，比如两组间没有差异或不相关。然后，规定一个“显著程度（Significance Level）”，Fisher将之规定0.05，因为他认为20次出现1次已经算得上“古怪（odd）”的了。事实上0.05没有严格的数学意义，“显著程度”是人为规定的，只是约定俗成定成0.05了。当年我的统计老师告诉我“显著程度”或显著限指的是小概率事件发生的概率，通常认为是5%。接着，对一组特定的实验数据，计算与这组数据以及比这组数据更加极端情况的概率，称之为P值（P value）；最后，比较p值和0.05的大小，如果p < 0.05，下结论“在零假设下，要么我们观察到了小概率事件，要么我们的理论的错误的”，如果 p≥ 0.05，下结论“我们没有充足的证据拒绝零假设”。

Fisher的理论中，做p值计算和统计推断的过程中只涉及零假设，他的分析逻辑是“从特殊到一般，从个体到整体”的推理方法，而且似乎认为p值是可以互相比较的，p值越小证据越充分。

同期的另外两个著名统计学家Neyman和Pearson则提出与Fisher不同假设检验和统计推断的理论体系。就是在做假设检验时必须先做两种假设：零假设（H₀，无差异）和备择假设（H₁，有差异）。在做统计推断的过程中不是一味攻击H₀，而是在一定的容忍度（犯一类错误概率）范围内做出抉择。这里提到的一类错误就是我们常常说的α，Neyman和Pearson推荐用的α值也正巧是0.05。在他们这个理论体系里，提到了两种假设，其实就是我们做统计推断的两种可能的结论，无差异或者有差异。

他们认为备择假设（H₁，有差异）应该是特殊情况，因此我们在进行统计推断的过程中要注意控制一类错误（α值）的大小。同时也提到了二类错误的概念。所谓的二类错误就是β，也就是两组确实有差异，而我们通过样本的计算选择接受零假设所犯错误的概率。而1-β则是零假设不成立，我们通过样本的计算选择拒绝零假设的概率，也就是我们常常说的“统计效能”（statistical power）。有趣的是，Neyman和Pearson的理论体系独独没有提到p值，也不做p值的计算，而是通过计算比较统计量和α对应统计量的大小。其计算过程是比较复杂的。

这三位当时最为著名的统计学家的争论持续了很久，还相互攻击。于是其它统计学家也没有法子了，在卫生统计应用时把这两个理论体系糅杂到一起，形成我们现在常用的假设检验和统计推断的理论体系。也就是通过Fisher的方法比较简单的把p值计算出来，再套到Neyman和Pearson体系中的两个假设的理论框架里，来做统计推断。

文献来源：

Regina Nuzzo. Scientific method: Statistical errors. Nature.2014.506(7487)：150-152. doi: 10.1038/506150a

(http://www.nature.com/news/scientific-method-statistical-errors-1.14700)

: 国家自然基金标书写作技巧

: 县里就有好医生　看病何须赴京城

: Meta分析中， CMA、Revman，Stata软件怎么选？