京卫计网审[2015]第0523号 京ICP备14051922号 京ICP证160408号
京公网安备 11010502030806号 Copyright © 2014 北京易康医疗科技有限公司版权
发布时间:2016-07-04 | 来源: | 责任编辑:嗵嗵e研

您也许不认识封面一脸和气的老头儿,但是您一定认识研究中常用的统计图——箱图。没错,这个老头就是箱图的发明者John Tukey。Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位,之后又在普林斯顿大学拿到了化学博士。有趣的是,他并没有直接开始让他青史留名的统计学工作,而是在二战期间进入了火控研究室,在那里,大量武器相关的研究最终都转而需要先解决统计学问题。从此,Tukey改变了自己的人生方向,一代统计学大师即将出现。
Tukey弄出箱图这个东西,目的其实非常简单,就是快速简单的描述数据。箱图的好处在于,通过中位数、四分位数和四分位数间距这几个简单的参数,绘制出了比较稳定的图,是该图不受数据分布差异的影响。
SPSS下面做的箱图是下图这个样子的:

中间的横线是数据的中位数,也就是从小到大排个队,排在最中间的那个数。箱体的上下边分别是25%分位数(Q1)和75%(Q3)分位数,箱体的高度是四分位数间距(IQR)。
除了以上信息,我们还可以从图中看到上下两条“天线”:
一般来说,上下两条bar的目的是表示数据的变异范围。实际上绘制的时候,往往是用最大值、最小值作为上下两条bar的顶端。但是实际上,数据中常常存在一些比较“奇怪”的值,这些值离其他数据的距离很远,有可能是有问题的数据。那此时如果还以最大最小值作为bar来描述变异的话,就会犯错误了,图也不那么稳定了。这是我们就会用到另一个值来代替,就是比Q3大1.5倍的IQR的值(上限),和比Q1还小1.5倍IQR的值(下限)。此时,超出上下限的数值,就自动成为了离群值。当然,如果数值的范围不仅远离箱体超过1.5IQR,还超过了3IQR,此时我们会把这些值归为“更奇怪”的极端值。
SPSS中的离群值和极端值是长成这样子的:
箱图大概就是这样看的,其实想起做这么一期还要感谢同学们的反馈,大家觉得SPSS中这个图不好懂,我们才想起来查查到底是谁先用的箱图,以及Tukey老人家的背景。其实很多知识都是这样,了解了来龙去脉和背后的八卦,理解起来就变得容易了很多,至少对我是这样的。
京卫计网审[2015]第0523号 京ICP备14051922号 京ICP证160408号
京公网安备 11010502030806号 Copyright © 2014 北京易康医疗科技有限公司版权