描述
开 本: 32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787522524580
“数字感觉”能帮你翻译重要的生活信息,免于恐慌和盲目
“45岁以上的父亲,生的孩子发生癫痫的概率高 18%”“睡前在屏幕上阅读可能会害死你 ”都是常见的报道措辞。如果你因此恐慌,情有可原,但大可不必。因为这些信息都还可以翻译:比如第一条就是“34—45岁父亲,生的孩子的癫痫患病率是0.0024%,而45岁以上父亲的该风险提高到0.0028% ”,第二条则是“睡前连续阅读4小时屏幕会令人平均减少睡眠10分钟,长此以往或损害健康”。
透过本书,我们会了解到文字背后隐藏着数字、相对比例后面隐藏着绝对比例等几十条提升“数字感觉”的实用tips,不被博眼球的表达蒙蔽双眼。
每章都是一台袖珍谣言粉碎机
更确定就等于更重要吗?震惊:碳排放和肥胖之间竟然有关联?使人变得暴力的因素,竟然有汽水?检测准确率达99%就大可信任?丑演员演技更好?……本书22章,每章为你介绍一种数字误会、理解偏差或思维盲点,每五千字的篇幅帮你解决一个问题,明快干脆。
数字也可以很幽默
掌握小学数学就能读懂本书。作者援引的都是身边案例,坏坏的英式幽默和脑筋急转弯一般的统计谬误和悖论,如“某大学女性录取率更低但每个院系的女性录取率都更高”,给你的阅读增添轻松愉悦。
我们时常遇到大量统计数据,如占比、患病率、风险值等。大量或显或隐的数字,都可能因误读或误用而扭曲真相,要读懂它们进而做出合理判断,“统计意识”不可或缺。
本书帮读者了解数字方面的22个常见错误和花招,它们出现在评价速度和重要性的大小、准确率和排名的高低等众多情境中。本书会告诉你各种数字的采集和表达过程可能出现哪些偏差进而产生“睡前看屏幕会死人”等误导性看法,负责可信的统计数据工作又该遵循怎样的指南。
引 言 001
01 数字也会误导人 009
02 轶事证据 :她用这种方法重获健康 019
03 样本量 :说脏话力气大? 027
04 偏差样本 :网上调查靠得住吗 039
05 统计显著性 :更确定不等于更重要 047
06 效应量 :睡前看屏幕害死人? 059
07 混杂因素 :碳排放致肥胖? 065
08 因果性 :汽水使人暴力? 075
09 这个数字大吗 085
10 贝叶斯定理 : 95% 准确率没意义 091
11 绝对风险和相对风险 101
12 测量的东西变了吧 107
13 排 名 117
14 它在文献中有代表性吗 125
15 追求新奇 133
16 采樱桃谬误 147
17 预 测 153
18 模型中的假设 165
19 得州神枪手谬误 175
20 幸存者偏差 185
21 对撞偏差 :丑演员演技更好? 195
22 古德哈特定律 :指标的诅咒 205
结论与统计写作指南 215
致 谢 227
注 释 229
译名对照表 249
一本日常统计学的杰出指南……巧妙地把困难的感念解释得通俗易懂,是一本应景又活泼的读物。——Manjit Kumar,《泰晤士报》
精彩易读地解释了应如何理解新闻中的数字……在读者提供了侦测误导的工具。——Nick Renninson,《每日邮报》
01 数字也会误导人
虽说利用统计数据撒谎很容易,但不用统计数据时撒谎更容易。 ——或来自统计学家弗雷德里克· 莫斯泰勒 (Frederick Mosteller)
新冠病毒病让世界上了一堂代价高昂的统计概念速成课。人们突然发现自己必须了解什么是指数曲线、感染死亡率与病死率、假阳性与假阴性、不确定性区间。其中一些概念显然很复杂,但即使那些感觉上本该很简单的概念—比如死于病毒的人数—实际上也很难把握。在本章中,我们就来看一个貌似直截了当的数字会如何出其不意地误导我们。
一开始,我们所有人都不得不去搞清楚的一个数字就是“R值”。在2019年12月,50个人里都很可能找不出两个人知道R值是什么,然而到了2020年3月末,主流新闻报道在讨论R值时几乎不再做解释。但是由于数字会以微妙的方式出状况,出于好意地告知读者R值的变化,最终还是让人们产生了误解。
给你点提示:R是某种事物的“再生数”。它可以适用于任何会传播或繁殖的东西:网络梗图、人类、打哈欠、新技术等。在传染病流行病学中,R值代表平均有多少人会被一个患有某疾病的人感染。如果某种病的R值为5,那么平均每个被感染的患者会感染另外五个人。
当然,它没这么简单,因为它是一个平均值。假如有100个人,R值为5意味的可能是每一个人都不多不少地感染了5个人;也可能是其中99人完全没有感染任何人,但余下的一个人感染了500人;或任何介于这两种之间的情况。
它也不会一成不变。在新疾病暴发的初期,人群中没有人对病原体有免疫力,可能也不存在任何应对措施(如保持社交距离或戴口罩),那时的R值和后来的R值可能非常不同。在疾病暴发期,公共卫生政策的一个目标就是通过接种疫苗或改变行为来降低R值,因为如果R值大于1,疾病将呈指数级传播,如果小于1,疾病将逐渐消失。
但也许你会觉得,在谈论病毒时,在这些复杂的因素被纳入考量后会有一个简单的规则:R值越高越不好。因此,当英国媒体在2020年5月警告“病毒的R值或已回升”[1],原因是“养老院感染激增”[2],你大概不会对这种标题里的语气感到惊讶。
但你可能已经预料到了,事情要更复杂一些。
从2000年到2013年,美国实际工资(“实际”即经通胀调整后)的中位数(median)上涨了约1%[3]。工资中位数上涨听起来是件好事。但是,将全人群分成较小的亚组来看的话,你会发现一些蹊跷。没读完高中的人,工资中位数下降了7.9%;高中毕业者的工资中位数下降了4.7%;上了大学但未取得学位的人,工资中位数下降了7.6%;获得大学学位的人,工资中位数下降了1.2%。
上完高中的人和没上完高中的人,上完大学的人和没上完大学的人,无论哪个教育水平亚组,工资中位数都下降了。而总体人群的工资中位数却上升了。
这是怎么回事?
原来,虽然拥有大学学位的人工资中位数下降了,但该亚组的人数却大大增加了。结果,中位数出现了奇怪的走向。这种现象叫“辛普森悖论”,以英国密码破译者和统计学家爱德华·H.辛普森(Edward H. Simpson)命名,他在1951年描述了这里的现象[4]。这种现象不仅会发生在中位数上,也会发生在算术平均数上,但在我们的例子中,我们暂且看中位数。
假设总体人数为11。其中3人高中辍学,年收入5英镑;3人完成了高中学业,年收入10镑;3人大学辍学,年收入15镑;2人获得了学士学位,年收入20镑。全人群的工资中位数(即在序列中间的那个人的工资)为10镑。
然后,有一年,政府大力推动更多人念完高中和大学。但与此同时,每个亚组的平均工资下降了1镑。突然间,高中辍学生变成了2人,年收入4镑;高中毕业生2人,收入9镑;大学辍学生2人,收入14镑;本科毕业生5人,收入19镑。每个亚组的中位数都下降了,但全人群的中位数从10镑升到了14镑。2000年至2013年间,现实中的美国经济就发生了类似情况,只是数字更大。
这种现象惊人地普遍。例如,美国黑人的吸烟概率高于白人;但控制教育水平这一变量后,你会发现,在每个教育水平亚组中,黑人的吸烟概率都低于白人。这是因为,受过较高教育的亚组通常较少吸烟,而黑人在这一亚组中比例较低。[5]
还有个著名的例子。1973年9月,8000名男性和4000名女性申请进入加州大学伯克利分校的研究生院。其中,男性申请者有44%被录取,而女性申请者的录取率只有35%。
但如果仔细研究这些数据,你会注意到,在这所大学的几乎每个院系中,女性申请者的录取概率都更高。报考最热门院系的女性中,82%被录取,而男性申请者中只有62%被录取。第二热门的院系录取了68%的女性申请者和65%的男性申请者。
实际情况是,女性申请的院系通常竞争更激烈。比如,有一个系收到了933份申请,其中女性有108人。该系录取了82%的女性申请者和62%的男性申请者。而与此同时,热门排行第六的系收到了714份申请,其中女性有341人。该系只录取了7%的女性申请者和6%的男性申请者。
但如果将这两个系的数据合在一起,总共就有449名女性申请者和1199名男性申请者。女性申请者中有111人被录取,录取率25%;男性有533人被录取,录取率44%。
这回又是,分别看这两个系,女性的录取概率更大;但将两个系合起来看,女性的录取概率就更小。
我们该怎样看待这样的结果?这得看情况。在美国工资的例子中,你可能会说,总体中位数提供的信息更翔实,因为美国个人工资的中位数上升了(因为完成大学和高中学业的美国人变多了);你也可能会说,无论申请哪个系,一般来说女性都比男性更有可能被录取。但你同样可以指出,对于那些没有获得高中文凭的人来说,情况变糟了;你还可以指出,女性想要申请的院系显然资源不足,因为这些院系只能录取极少的申请人。问题是,在辛普森悖论出现时,你可以使用相同的数据来讲述截然相反的故事,这取决于你想表达哪种政治观点。而诚实的做法是说明这里面有辛普森悖论。
让我们回到新冠病毒的R值。R值升高了,说明病毒正在传播给更多的人,这不是件好事。不过,毫无疑问,实际情况要更复杂。有两场几乎不相关的“流行病”正在同时传播:疾病在养老院和医院的传播,是不同于在范围更广的社区的传播的。
因为没有发布确切数字,所以我们不知道更详细的信息。但是我们可以再做一次与前例类似的思想实验。假设养老院和一般社区里各有100人患有这种疾病。平均而言,社区中的每个病例会将疾病传播给2个人,而养老院中的每个病例会将疾病传播给3人。R值(每个疾病携带者会感染的平均人数)为2.5。
接着我们进入了封锁。感染人数下降,R值也随之下降。但是—很关键—社区的R值降幅要大过养老院。现在,养老院有90名感染者,每人平均会将疾病传播给2.9个人,而社区有10名感染者,每个感染者平均传染1个人。
现在,R值是2.71(((90×2.9) (10×1))/100 = 2.71)。R值上升了!但实际上两个亚组的R值都下降了。
怎么看待这种现象才对?我们再次发现,答案不一定是显然的。也许你更关心总体的R值,因为这两处的流行病并不是真的没有关联。但答案肯定不是“R值上升就不好”这么简单。
当你试图通过观察一组人群的人均情况来了解个人或亚组时,就会出现“区群谬误”(ecological fallacy),这是一个更广义的问题,辛普森悖论就是区群谬误的一个例子。区群谬误可能比你想象得更普遍。新闻标题里的数字可能掩盖更复杂的真相,对于读者和记者来说,明白这一点很重要;要理解这些数字的意义,你可能需要进一步仔细分析。
评论
还没有评论。