率的可信区间估算

发布时间：2016-06-20 | 来源： | 责任编辑：嗵嗵e研

多日前有一位生殖医学的大夫找到我，说她通过某某方案将试管婴儿的成功率提高到某水平。但是自己在英文论文的投稿中遇到了问题，审稿人要求她提供这一率的可信区间。

可信区间？对于一个资深的临床大夫而言，应该不是头一次听说。她也知道可信区间就是一个取值范围，表示在95%的可能下某一个参数可能的取值范围。但“官方”的说法应该是：可信区间（Confidence Interval, CI）是按一定的可信度，用样本统计量估计出的总体参数的所在范围。此处介绍几个概率：统计量是指从样本中计算出来的量，参数是指总体的量，可信度又称置信度（Confidence Level）就是某概率值，通常取95%或99%，统计描述就是对样本的统计量进行描述，统计推断就是用样本的统计量去推断总体参数。

官方的定义往往是拗口的，但是没办法，它为了简洁且不犯错误或者是为了严谨，它必须那么说。这儿咱们就不必那么注意措辞了，说清楚就行。可信区间就是在一定程度上某值的取值范围，如95%可信区间就是在95%的概率上某取值应该落在这一范围内。

说回刚才那位大夫的问题，她的研究显示在986名采用某方案的IVF中，成功的有723例，占73.33%。那它的可信区间是多少呢？率的95%可信区间的计算公式为式中p为事件的发生率，为α置信度下的U值，s_p为率的标准差，在上例中s_p=1.41%，1.96*1.41%=2.76%。所以上面率的95%可信区间就为（70.57%, 76.09%）。

至此便解决了问题。但是上面的算法是有条件的，它是率的可信区间正态近似法的计算过程，正态近似法要求的条件是n较大，且p不接近于0也不接近于1，具体的要求为n*p＞5且n*(1-p)＞5。也就是说发生率p不能接近0.001%或者99.999%，如果发生率接近这些值也可以，那么总例数n就应该很大。比如一个全国的调查，样本量有300多万，这时候尽管孕妇的乙肝大三阳感染率不高，也可以采用正态近似法。那么如果是孕妇的HIV感染率，那真的很低，此时就需要考虑是否应该采用Poisson分布来估算。在正态近似法之外，还有查表法，它适用于样本总例数小于等于50的情况，具体的表在绝大部分的医学统计学的课本上都有。

今天我们简单讨论了率的可信区间的估算。其实如果要深入研究率的可信区间的估算，也没那么简单。如果你对率的可信区间估算感兴趣，可以参考以下文献《四种方法计算总体率可信区间的比较研究_刘沛》、《正态近似法计算二项分布总体率95%可信区间的应用条件研究_刘沛》、《总体率可信区间计算的一次近似法及其特征_刘沛》等。

: 如何确定Δ的大小

: 横竖大不同——文章表格中应该提供“率”还是“构成比”

: 配对t检验，你用对了吗？