描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787508642154
统计学是大数据时代*炙手可热的学问,它可以帮我们解决很多重要的社会问题,并对“黑天鹅”事件和未来做出预测。除去大数据的沉闷外衣,呈现生活的真实之美。
视频网站是如何知道你喜欢的电影类型的?
哪些人*有可能成为恐怖分子?
我们应该依据什么来评估教学质量,从而帮助孩子选对学校?
商场是如何在你的家人之前就知道你怀孕的消息的?
基尼系数是衡量社会分配公平程度*完美的指标吗?
买福利*,去赌场豪赌,投资股票或期货,哪种方式让你跻身富豪排行榜的可能性更大?
“缺乏控制力和话语权”的工作,还是“权力大,责任也大”的工作,更容易让职场人士猝死?
不止这些,生活中你遇到的各种问题都离不开数据和统计学。
统计学已经成为大数据时代*炙手可热的学问。它可以帮我们解决很多琐碎的生活问题和重要的社会问题,并对“黑天鹅”事件和未来做出预测。
《赤裸裸的统计学》没有让你避之不及的数学公式,没有满是数字的图表,没有空洞乏味的教科书式说教;《赤裸裸的统计学》有生动诙谐的案例,有你熟悉的生活话题和社会问题,有你一定用得到的统计学知识,有大数据时代的“游戏规则”和“生存法则”。
本书将是你遇到过的*好的“数学老师”,它装满了具有现实意义的“课程”,比如为什么一流大学毕业生的收入会高于普通大学毕业生,还有为什么不要买*。
众所周知,在生活中统计学无处不在,每件事、每个人似乎都可以用统计数字来加以说明。特别是进入大数据时代以后,统计学更是成为炙手可热的学问,它可以帮我们解决很多重要的社会问题,并对“黑天鹅”事件和未来做出预测。
但不可否认的是,统计学本身因为囊括大量的数学内容及专业术语,以至于让人觉得高深莫测、很难亲近。
《赤裸裸的统计学》的作者查尔斯·惠伦“扒光”了统计学“沉闷的外衣”,用生活中有趣的案例、直观的图表、生动诙谐的语言风格,彻底揭开了统计学、大数据和数字的“神秘面纱”,让我们知道权威期刊、媒体新闻、民意调研中公布的数字从何而来,轻松掌握判断这些统计数字“是否在撒谎”的秘籍。同时,作者还将统计学的工具带入日常生活中,告诉我们为什么不要买*,为什么你家附近的商场会知道你怀孕的消息并给你寄来纸尿裤的优惠券,等等。
大数据时代你必须掌握的统计学知识,全部都在《赤裸裸的统计学》中。从今天开始,好好使用统计学和数据吧!
第1章 统计学是大数据时代最炙手可热的学问
基尼系数是否是衡量社会分配公平程度最完美的指标?视频网站是如何知道你喜欢的电影类型的?祈祷真的能让病人的术后康复状况改善吗?是什么导致自闭症发病率一直走高?哪些人最有可能成为恐怖分子?
第2章 描述统计学
你一直想买的一条连衣裙,商场售价为4999元,先降价25%后再提价25%,你能算出这条连衣裙的最终售价是多少吗?
第3章 统计数字会撒谎
1950年人们的平均时薪是1美元,2012年人们的平均时薪是5美元,你觉得我们的工资水平涨了吗?
第4章 相关性与相关系数
视频网站根本不知道我是谁,但它又是怎么知道我喜欢看人物纪录片而不是电视连续剧、动作片或科幻片的?
第5章 概率与期望值
买福利彩票,去赌场豪赌、投资股票或期货,哪种方式让你跻身《福布斯》富豪排行榜的可能性更大?
第6章 蒙提·霍尔悖论
在《让我们做个交易》节目中,主持人打开的3号门后面是一头羊,在剩下的1号门和2号门中必定有一扇门后面是汽车,你应该如何选择才能中大奖?
第7章 黑天鹅事件
1%的小概率风险如何在2008年成为击垮美国华尔街的“黑天鹅”,并毁了全球金融体系。
第8章 数据与偏见
2012年,《科学》杂志刊登了一项惊人的发现:在求偶期多次遭受雌性果蝇冷落的雄性果蝇会“借酒消愁”。那么,这些果蝇是如何一醉方休的?
第9章 中心极限定理
一辆坐满肥胖乘客的抛锚客车停在你家附近的路上,你推断一下,它的目的地是马拉松比赛场地,还是国际香肠节展厅?
第10章 统计推断与假设检验
垃圾邮件过滤、癌症筛查、恐怖分子追捕,我们最不能容忍哪件事情出错,又有哪件事情是可以“睁一只眼闭一只眼”的?
第11章 民意测验与误差幅度
民调结果显示,有89%的美国人不相信政府会做正确的事,有46%的美国人认可奥巴马的工作表现。这个结果可以代表美国人的真实想法吗?
第12章 回归分析与线性关系
你认为什么样的工作压力更容易使职场人士猝死,是“缺乏控制力和话语权”的工作,还是“权力大,责任也大”的工作?
第13章 致命的回归错误
世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了,所以,“尽量不要用你的回归分析研究杀人”。
第14章 项目评估与“反现实”
哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常春藤大学的教育优势,还是他们本身就很出色?
结束语统计学能够帮忙解决的5个问题
致谢
我为什么憎恶微积分却偏爱统计学?
我天生就很排斥数学。我对数字本身没有任何好感,对那些在现实世界中毫无用处的骗人公式也没有什么好印象。我尤其不喜欢高中的微积分课,原因很简单,因为从来就没有人告诉过我学习这门课的意义是什么—有谁会在乎抛物线下方的区域代表什么?
而事实上就在高中三年级的时候,我迎来了人生中的一个重要时刻,那时我正在准备第一学期微积分课程的期末考试,虽然那几天我也算用功学习了,但总体来说还是以偷懒为主,因为几个星期前我就申请到了理想的大学,当然随之而来的是我对这门课本来就少得可怜的学习动力也消失殆尽。考试那天我盯着试卷上的题目,发现它们竟是如此陌生。这已经不是会不会答的问题了,而是根本就搞不清楚题目问的是什么。我对“裸考”其实并不陌生,借用美国国防部前部长唐纳德?拉姆斯菲尔德的话说就是,我总是知道我有不知道的东西。但这次考试比以往的题目都难,我草草地翻了一下试卷,几乎没有会答的题。我走到教室前面,来到监考老师—我们的微积分老师卡罗?史密斯的面前,“史密斯夫人,”我说,“试卷上的很多东西我都不认识。”
相比起我对史密斯夫人的“喜爱”,她对我的“不喜爱”要更甚。是的,现在我承认作为学生会主席的我,有时会动用手中有限的权力来安排一些全校性的集会,这样史密斯夫人的微积分课就被迫取消了。我和朋友们也曾以“一位神秘的仰慕者”的名义派人在课堂上给她送花,然后看她尴尬地环顾四周,而我们则在教室后面得意地窃笑。是的,在我得知自己被大学录取之后,我就真的再也没有做过任何作业了。
所以,当我走到史密斯夫人的面前,告诉她那些题目看上去很陌生的时候,她并没有流露出一丝的同情。“查尔斯,”她大声说—表面上是对我说,但她的脸却朝着全班同学,以确保教室里的每一个人都能听到—“如果你用功了,这些题目看上去就会熟悉得多。”这一点确实很有说服力,所以我只得溜回座位。几分钟以后,我们班这门课的“尖子生”布莱恩?阿尔贝特尔走到教室前面,和史密斯夫人耳语了几句,史密斯夫人也轻声地回了几句,之后,一件十分离奇的事情发生了。“同学们,请注意一下,”史密斯夫人宣布,“我误把下学期的试题发给你们了。”当时考试已经进行了一段时间,所以这次考试不得不取消择日重考。我当时的欣喜之情无以言表。
在我之后的人生中,我娶了一位漂亮的妻子,育有3个健康的孩子。我出版了几本书,游览过泰姬陵和吴哥窟这样的名胜。但是,那天微积分老师得到“因果报应”的一幕,依旧是我人生中最难忘的5个时刻之一。(事实上,在之后的补考中我差点儿没及格,但这一点儿都没有使这一美妙的人生经历褪色丝毫。)
微积分考试的小插曲极大地说明了我和数学之间的关系,但这并不是事实的全部。有趣的是,尽管物理课也需要进行像微积分课那样令人厌烦的演算,但我在高中时却十分喜欢物理课。这又是为什么?因为物理课有一个明确的目的。我清楚地记得在世界职业棒球大赛期间,我们的物理老师教我们如何运用加速度的基本公式来预测一个本垒打能打多远。这简直酷毙了—这个公式在生活中也有很多重要的应用。
上大学之后,我彻底沉醉于概率学之中,因为它同样为我在洞察现实生活中的一些有趣场景提供了解释。回想过往,我意识到让我痛恨微积分课的不是数学,而是从来就没有人想到要告诉我数学的意义是什么。如果你没有被“高雅”的公式本身所吸引—反正我是一点儿都不觉得有什么“高雅”的—那么,你面对的只会是繁冗而机械的公式,至少我的老师当初就是这样把它们教给我的。
也正是因为这一点,我与统计学结了缘(本书所指的统计学包括概率学在内)。我爱统计学。生活中的一切一切,从脱氧核糖核酸(DNA)检测到买彩票的白痴行为,统计学通通都能做出解释。统计学能帮助我们识别诱发某些疾病的因素,比如说癌症和心脏病;统计学还能帮助我们在标准化考试中甄别作弊行为;统计学甚至能帮助你在电视游戏节目中获胜。在我的孩童时代有一档非常出名的节目,叫作《让我们作个交易》,由当时极受欢迎的蒙提?霍尔主持。在每天节目快要结束时,胜出的选手和蒙提都会站在3扇大门的前面,蒙提?霍尔会告诉观众和选手,在其中一扇大门的门后会有一项大奖,如一辆小轿车,而另外两扇门的门后则各站着一头山羊。玩法很简单:选手选择一扇门,然后就会得到这扇门后面的奖品。
当选手和蒙提?霍尔站在这3 扇门的前面时,这位选手中大奖的概率为1/3。但是,这档节目却有其微妙之处,这让统计学家们欣喜万分(却也使其他人困惑不已)。在选手选择了其中一扇门之后,蒙提?霍尔会先打开剩下的两扇门中的一扇,而打开的这扇门后面站着的永远是一头山羊。举个例子来说,假设选手选择了1号门,那么蒙提会先打开3 号门,它的后面站着一头山羊,此时1 号门和2 号门依然紧闭。如果大奖就在1号门后面,则选手获胜;如果大奖在2号门后面,则选手失败。但节目进行到这里的时候,会变得更加有戏剧性:蒙提会转向选手,问其是否更改之前的决定(在这个例子中就是把1号门改为2号门)。需要注意的是,此时剩下的两扇门依然是关着的,而选手得到的唯一的新信息,就是他之前没选的那两扇门中,有一扇门的后面经证实是一头山羊。
那么,这位选手是否应该更改之前的选择?
答案是肯定的。为什么呢?本书之后的内容会做出解释。
统计学的悖论就在于,从棒球比赛的击球成功率到美国总统大选的民意调查,它几乎无处不在,但是这个学科本身却因为乏味无趣和难以理解而“臭名昭著”。许多统计学方面的书籍和课程也都过多地充斥着数学和术语。相信我,技术细节十分重要(也十分有趣),但是如果你不知道它们的出发点是什么,那么摆在你面前的将会是一堆天书般的符号。如果连你自己都不相信学习统计学是一件有意义的事情,那么你或许根本不会去关心所谓的出发点。本书中的每一章都旨在回答我向高中微积分老师提出的那个基本问题:学习统计学的意义是什么?
这是一本有关直觉的书。书中很少出现计算、公式和图表;当用到它们的时候,我保证它们都存在一个清晰和富有启发性的目的。与此同时,书中常常会出现很多例子,目的就是让你相信,学习统计学是很有必要的。统计学真的可以非常有趣,而且其中绝大部分的内容也没有那么难。
在学习过史密斯夫人讲授的微积分课程后不久,我就萌发了写这本书的想法。那段“不堪回首”的经历就发生在我读研究生期间,那时我学的是经济学与公共政策专业。在开始学习这门课之前,我和班上的大部分同学都毫无意外地被指派到了一个“数学营”进行集训,为接下来的“数学轰炸”作准备。在3周的集训时间里,我们整天待在一间没有窗户的地下室里学数学—真的一点儿都不夸张。
就在其中的某一天,我离顿悟仅有毫厘之差。那时,负责集训的老师正在费劲地教我们在某些情况下能够从一个无穷级数求得一个有限数。请不要跳过这一段内容,因为这一概念马上就会清晰起来(现在,你可以想象我在那个没有窗户的教室里是什么感受了吧)。无穷级数指的是一个可以无限地写下去的数字组合,如1 1/2 1/4 1/8……最后的省略号表示这个算式还将无限地继续下去。
到了这一步,我们基本上已经开始感到困惑了。老师试图通过一些我早已遗忘的定理向我们证明,一个无穷尽的算式依然可以通过求和得到一个(大概)确定的数值。尽管有很多令人信服的数学证明,但班上的威尔同学却死活不能接受这一结论(老实讲,我自己对此也心存疑惑)。无限的东西经过叠加怎么可能得到一个有限的结果呢?
突然我灵光一现,更准确地说,是我的直觉让我想通了老师要表达的意思。我对威尔说了我的头脑里刚刚闪现出来的想法:想象自己站在离一堵墙正好两英尺(约0.6米)的地方。
现在朝墙壁的方向移动1/2 的距离(即1 英尺),这样你离墙壁就只剩下1 英尺的距离了。
再面向墙壁的方向移动1/2 的距离(即6 英寸或1/2 英尺),继续重复相同的动作(即移动3 英寸或1/4英尺),再移动剩下距离中的1/2 (即1.5 英寸或1/8 英尺),不断重复。
最终你将十分贴近墙壁,假设现在你离墙壁只剩下1/1 024 英寸,然后你还需要朝墙壁的方向移动1/2 的距离,即1/2 048英寸,但你永远都不会撞到墙壁,因为理论上你所移动的每一步都只有剩余距离的1/2。也就是说,你将无限接近墙壁但永远碰不到墙壁,如果我们统一用英尺作为计量单位,那么你所移动的距离就可以表示为1 1/2 1/4 1/8……
问题的核心就是:即使你正在不停地靠近墙壁,而且每一步都是剩余距离的1/2,但你所走过的总距离永远都不可能超过两英尺,也就是一开始你与墙壁之间的距离。出于计算的目的,你所走路程的总长度可以简单地估算为两英尺,但数学家会说1 1/2 1/4 1/8……最终收敛于2,这也是那天老师想要教给我们的。
关键在于我说服了威尔,也说服了自己。虽然我不记得这道题的数学推理论证过程,但我总是可以在网上寻找答案,而且当我找到答案的时候,我或许还能看出一点儿门道来。以我的经验来看,直觉会让数学和其他技术细节更加容易理解,但是反过来就不一定说得通了。
本书的目的就在于使重要的统计学概念变得更加直观和便于理解,不仅让我们这些被迫在没有窗户的教室里苦学过的人,更可以让任何对数字和数据的惊人力量感兴趣的人都爱上统计学。
刚刚我还在说统计学的核心并没有那么的直观和好理解,现在我却要提出一个貌似自相矛盾的观点:统计学可以变得非常好理解,任何人只要拥有数据和一台电脑,就可以通过简单地敲击几下键盘来完成复杂的统计流程。问题是如果数据不足,又或者统计方法错误,那么得出的结论将会谬以千里,甚至还会有潜在的危险。就比如下面的这条虚构的网上新闻快讯:工作时小憩的人更易死于癌症。假如你在上网时这个标题突然从页面弹出呈现在你眼前,你会怎么想?一项基于3.6万名办公室白领(多大的数据组啊!)的调查显示,那些表示会在工作期间偶尔离开办公室休息10 分钟的员工在未来5年内身患癌症的概率要比那些从不离开办公室的同事高41%。显然我们需要为此做点什么,比如在全美国范围内掀起一股抵制办公期间小憩的热潮。
或许,我们只需要对员工在休息的10分钟里干了什么事情作些思考。我的工作经验告诉我,这些离开办公室休息的员工中有很多人都聚在办公楼的入口处吸烟(其他人如果要进入或走出大楼都必须一头扎进他们吞吐的“云雾”之中)。那么,我会进一步推断是香烟而非小憩引发了癌症。我举的这个例子当然十分荒谬,但现实生活中有许多统计学结论在经过解构之后,也产生了类似荒谬的效果。
统计学就像是一种高智商武器:正确地使用它能够帮助我们,但错误地使用它也会产生灾难性的后果。本书不会将你变成一个统计学专家,但会让你对这个领域保持谨慎和尊重,不
这本书充满了魅力,一是因为作者拥有喜剧演员般天生的幽默感,使得这本书极具可读性;二是因为作者列举了现实世界中形形色色的案例,旨在告诉读者为什么我们的生活离不开统计学,以及我们为什么一定要掌握一些统计学知识。
——《纽约时报》
本书将是你遇到过的最好的“数学老师”。本书装满了具有现实意义的“课程”,比如如何判断民意测验的可靠性,还有为什么你不应该买*。
——《旧金山纪事报》
偏偏就那么巧,在你家附近有一辆抛锚的长途客车,车上坐着一大群面露不快的国际乘客,他们中没有一个人会说英语。这肯定就是那辆失踪的车,你将会成为这座城市的英雄!但就在此时,一个疑惑出现在你的脑中:这辆车上的乘客看上去都“不瘦”,准确地说,他们都很胖。粗略扫一眼这些人,你估计这些乘客的平均体重至少有220磅(100公斤)。随机分配的马拉松运动员的体重不可能这么重,你打开对讲机对搜寻总部汇报道:“不是这辆客车,请继续搜寻。”
进一步的调查证实了你最初的判断是正确的。赶到现场的翻译人员经过一番交流后,你终于知道这辆抛锚的客车原本是要前往国际香肠节会场的,正好这一届的香肠节也在这座城市举办,连日期都碰巧相同。而且从视觉角度考虑,参加香肠节的人完全有可能也穿着宽松的运动长裤。
祝贺你!如果你能够体会上述的推理过程,也就是说,通过快速观察车上乘客的体型来判断他们并非马拉松运动员,那么你就已经领会了中心极限定理的基本理念,剩下的工作就是在这个基本框架下充实细节了。一旦你理解了中心极限定理,统计推断的绝大多数形式将会变得非常直观。
中心极限定理的核心要义就是,一个大型样本的正确抽样与其所代表的群体存在相似关系。当然,每个样本之间肯定会存在差异(比如前往马拉松起点的这么多辆客车,每辆客车乘客的组成都不可能完全相同),但是任一样本与整体之间存在巨大差异的概率是较低的。正是因为这个逻辑,让你对那辆载满肥胖乘客的抛锚客车做出了快速判断。的确有胖人参加马拉松比赛,每一次马拉松比赛中都会有几百名参赛者的体重在200磅以上,但绝大多数的马拉松运动员还是比较瘦的。因此,如此之多的“重量级”运动员被随机安排到同一辆客车上的概率可以说是很低的,所以你完全有理由认为这不是那辆失踪的马拉松客车。当然,有可能你的判断是错的,但概率告诉我们你更有可能是对的。
这就是中心极限定理背后的基本经验。如果我们再附加一些统计学工具,就能将正确或错误的可能性进行量化。例如,在一场有10000名选手参加的马拉松比赛中,运动员的平均体重为155磅,我们可以算出,一个包含60名选手(也就是一辆客车的载客量)的随机样本的平均体重大于或等于220磅的概率不足1/100。但在此刻,让我们还是从直觉出发进行计算。通过运用中心极限定理,我们能够得出如下推理,这些推理都将会在下一章里进行深入阐述。
1.如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。举个例子,假设某学校的校长手里有本校所有学生的统考成绩(平均分、标准差等),这就相当于一个相关人口数据,再过一个星期的时间,区领导将会来学校随机抽取100名学生进行一次类似统考的测验,这100名学生的成绩—也就是一个样本,将会作为考核该校教学质量的指标。
随机抽取的这100名学生的考试成绩是否能够准确地反映出全校学生的平均水平呢?校长需要为此担心吗?根据中心极限定理,这100名学生作为一个随机样本,其平均成绩不会与全校学生的平均成绩产生较大差异。
2.如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理。从定理的使用角度来看,这与上一点内容正好相反。还是以上述假设为例,如果你是区领导,想要对本区域内的各个学校进行教学质量考核,与校长不同的是,你手中并没有(或不信任)某所学校所有学生的统考成绩,因此就有必要对每所学校进行抽样测试,也就是随机抽取100名学生参加一场类似统考的测验。
作为主管教育的领导,你觉得仅参考100名学生的成绩就对整所学校的教学质量做出判断是可行的吗?答案是可行的。中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异,也就是说,样本结果(随机抽取的100名学生的考试成绩)能够很好地体现整个群体的情况(某所学校全体学生的测试表现)。
3.如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。这就是我们在本章一开始的时候所举的那个马拉松比赛失踪客车的例子。已知马拉松参赛选手的平均体重(估算),以及那辆抛锚客车上所有乘客的平均体重(目测),通过中心极限定理,我们就能计算出某个样本(客车上的肥胖乘客)属于某个群体(马拉松比赛选手)的概率是多少,如果概率非常低,那么我们就能自信满满地说该样本不属于该群体(例如,客车上的乘客看上去真的不像是一群前往马拉松比赛起点的运动员)。
4.最后,如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。让我们回到那个(越来越荒谬的)客车的例子上。我们现在得知这座城市即将同时举办马拉松比赛和国际香肠节,假设这两个盛会都将会迎来数以千计的参与者,而且他们都乘坐主办方安排的客车前往会场,因此客车上要么是随机安排的马拉松运动员,要么是随机安排的香肠爱好者。进一步假设有两辆客车在路上撞在一起了(我已经承认这是一个荒谬的例子,所以还请诸位读者勉强读下去吧),作为这座城市的管理者,你被派往现场了解事故情况,看看这两辆客车是不是都前往同一个地点(马拉松比赛或香肠节)。让人不可思议的是,两辆客车上的乘客都不会说英语,但到场的医护人员给你提供了一份关于这两辆车上的乘客体重的详细信息。
仅从这一点信息,你就能推理出这两辆客车前往的是相同的会场还是不同的会场。请再次用你的直觉进行判断,假设其中一辆客车上乘客的平均体重为157磅,标准差为11磅(也就是说绝大部分乘客的体重为146~168磅)。而另一辆客车上乘客的平均体重为211磅,标准差为21磅(即绝大部分乘客的体重为190~232磅)。此刻请忘掉所有的统计学公式,仅凭逻辑做出判断:这两辆客车上的乘客是从同一个群体中随机抽取的样本吗?
不是。一个更有可能的情形是:其中一辆客车上是马拉松运动员,而另一辆客车上则是香肠爱好者。除了平均体重的不同以外,想必你还注意到了两辆客车乘客之间的体重差异要远大于各客车内部乘客的体重差异,总重量较轻的客车里高于平均值一个标准差的乘客体重(168磅),但还是轻于另一辆客车上低于平均值一个标准差的乘客体重(190磅),这一点表明(无论从统计学的角度还是从逻辑的角度)这两个样本有可能来自不同的群体。
如果凭借直觉能理解到这一步的话,就说明你已经理解了93.2%的中心极限定理了。我们需要更进一步,在直觉背后加上一些技术支撑。显而易见,当你登上一辆抛锚的客车,发现里面坐满了身穿宽松运动裤的“肥胖”乘客时,你的直觉会告诉你他们不会是马拉松运动员。而中心极限定理能够让你在直觉的基础上更上一层楼,为你的判断提供数据支持。
……
评论
还没有评论。