全国服务热线:400-627-0012 首页 | 收藏 注册登录

箱图(Box plot)——来自“武器专家”的发明

发布时间:2016-07-04 | 来源: | 责任编辑:嗵嗵e研

 


您也许不认识封面一脸和气的老头儿,但是您一定认识研究中常用的统计图——箱图。没错,这个老头就是箱图的发明者John Tukey。Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位,之后又在普林斯顿大学拿到了化学博士。有趣的是,他并没有直接开始让他青史留名的统计学工作,而是在二战期间进入了火控研究室,在那里,大量武器相关的研究最终都转而需要先解决统计学问题。从此,Tukey改变了自己的人生方向,一代统计学大师即将出现。


Tukey弄出箱图这个东西,目的其实非常简单,就是快速简单的描述数据。箱图的好处在于,通过中位数、四分位数和四分位数间距这几个简单的参数,绘制出了比较稳定的图,是该图不受数据分布差异的影响。


SPSS下面做的箱图是下图这个样子的:


中间的横线是数据的中位数,也就是从小到大排个队,排在最中间的那个数。箱体的上下边分别是25%分位数(Q1)和75%(Q3)分位数,箱体的高度是四分位数间距(IQR)。


除了以上信息,我们还可以从图中看到上下两条“天线”:

一般来说,上下两条bar的目的是表示数据的变异范围。实际上绘制的时候,往往是用最大值、最小值作为上下两条bar的顶端。但是实际上,数据中常常存在一些比较“奇怪”的值,这些值离其他数据的距离很远,有可能是有问题的数据。那此时如果还以最大最小值作为bar来描述变异的话,就会犯错误了,图也不那么稳定了。这是我们就会用到另一个值来代替,就是比Q3大1.5倍的IQR的值(上限),和比Q1还小1.5倍IQR的值(下限)。此时,超出上下限的数值,就自动成为了离群值。当然,如果数值的范围不仅远离箱体超过1.5IQR,还超过了3IQR,此时我们会把这些值归为“更奇怪”的极端值。


SPSS中的离群值和极端值是长成这样子的:

箱图大概就是这样看的,其实想起做这么一期还要感谢同学们的反馈,大家觉得SPSS中这个图不好懂,我们才想起来查查到底是谁先用的箱图,以及Tukey老人家的背景。其实很多知识都是这样,了解了来龙去脉和背后的八卦,理解起来就变得容易了很多,至少对我是这样的。


0

京卫计网审[2015]第0523号      京ICP备14051922号      京ICP证160408号

      京公网安备 11010502030806号      Copyright © 2014 北京易康医疗科技有限公司版权

全国免费咨询热线
400-627-0012