描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787301308752
入门级:本书是统计学入门级读物,只要读者会加、减、乘、除就能轻松掌握这门瞬间洞察因果的关键技能。
思维级:本书涉及日常生活,以及零售业、电商业、餐饮业、金融业、服务业和博彩业等多个行业,有平易近人、随处可见的典型案例,也有难得一见、使用高新技术的案例;有规模宏大、涉及多方资源的案例,也有见微知著、仅需少量数据的案例;有成功的案例,也有失败的案例。通过多行业、多层次、多角度的分析,读者可了解到统计学是如何在各个行业中发挥作用的,看懂各行各业数据背后的真相,进而用统计学的思维,做出好决策。
《别怕,统计学其实很简单》是一本优秀的统计学入门读物,首先介绍了统计学理论知识,激发读者对统计分析的兴趣,帮助读者完成理论准备。之后通过近30个商业案例深入地介绍了每种分析方法背后的原理、优缺点、适用范围等,使读者不仅知其然,更知其所以然。
本书注重实际应用,帮助读者在短时间内了解统计学的知识体系,体会到统计学在各行各业中是如何发挥强大作用的;使读者具备一定的统计分析能力,并将这些知识应用到实际工作中。
第1章 为什么要懂点统计学
统计学是21世纪一门十分热门的学科,它*早应用于记录、分析古希腊城邦发展情况,之后吸收了许多经典数学理论,*终发展成为一门独立学科。但与数学不同,统计学起源于应用,*终也落地于应用。本章介绍了一些经典的统计学问题和统计学应用场景,*后概述了统计学的发展过程。
本章主要涉及的知识点
这些统计问题,你会做吗
统计学可以帮到你
到底什么是统计学
1.1 这些统计问题,你会做吗
离散型概率和连续型概率是统计学的基石。有许多经典的数学问题内含着统计知识。本节选择了3个典型问题,向读者详细介绍了概率是什么,以及如何在实际生活中应用它们。
1.1.1 三门问题
三门问题出自一档美国电视节目。在节目中,舞台上放着3扇关闭的门,其中一扇门后有一辆豪车,另外两扇门后分别是一头山羊。玩家选择一扇门后,主持人会在其余两扇门中打开一扇有山羊的门,并询问玩家是否更换选择。
请问玩家是否应该更换选择呢?不更换将有多大可能选中跑车?更换又有多大可能?
当主持人打开一扇有山羊的门后,留给玩家选择的是两扇关闭的门,似乎无论玩家是否更换选择,选中跑车的可能性都是1/2,但只需具备*基础的统计学知识,就可知道正确结果并非如此,当玩家不更换选择时,有2/3的概率选中跑车;反之,只有1/3的可能选中跑车。
不妨将3扇门分别标号,并假设跑车放在1号门后,此时玩家选择每扇门的可能性是均等的。当玩家选择1号门时,无论主持人打开哪扇门,玩家更换选择时会选中山羊,不更换选择时会选中跑车;当玩家选择2号门时,主持人只能打开3号门,则玩家更换选择时会选中跑车,不更换选择时会选中山羊;玩家选择3号门时的情形与选择2号门时的情形类似。
表1.1列出了所有的情形及它们发生的概率。
表1.1 三门问题情况罗列
玩家**次选择 主持人打开 玩家是否更换 玩家第二次选择 玩家是否选中豪车 此情形发生概率
1号门 2号门 是 3号门 否 1/12
否 1号门 是 1/12
3号门 是 2号门 否 1/12
否 1号门 是 1/12
2号门 3号门 是 1号门 是 1/6
否 2号门 否 1/6
3号门 2号门 是 1号门 是 1/6
否 2号门 否 1/6
由于玩家选择1号门时,主持人既可打开2号门,又可打开3号门,并且打开这两扇门的概率相等,因此表1.1前4行的发生概率分别是1/12。而玩家选择2号门或3号门时,主持人只有一个选择,因此表1.1后4行的发生概率分别是1/6。
由表1.1即可汇总得出玩家是否更换选择与玩家是否选中豪车这两种情况的组合概率。结果如表1.2所示,玩家更换选择时选中豪车的概率是未选中豪车概率的两倍,即有2/3的概率选中豪车;未更换选择时选中豪车的概率是未选中豪车概率的一半,即有1/3的概率选中豪车。
表1.2 更换选择与选中豪车概率表
玩家选中豪车 玩家未选中豪车
玩家更换选择 1/3 1/6
玩家未更换选择 1/6 1/3
三门问题的另一个解题关键便是主持人并不是随机打开一扇门的,而是一定打开一扇有山羊的门。如果读者懂得条件概率和全概率公式,就不需要罗列上述复杂表格,仅列出几个公式,便可得到正确答案。这两个统计知识也可以应用到许多其他问题上,可参阅7.3.2小节获得更详细的内容。
1.1.2 “可靠”的医疗报告单
将统计数据罗列成表格有利于概览一个事件的全貌,从而解决实际问题。不过在罗列数据时,有一些常见的谬误却是不为大众所知的。以下是两个典型例子。
已知有一种罕见疾病的发病率是1%,这种疾病的检测方法的准确率是99%,小明被检测出罹患这种疾病,请问他真正患有这种病的概率是多少?
不妨假设做检查的一共有1万人,那么其中得病的人就有100人。9900个健康人去做检查时,将有99个人被检测出患病,而100个病人去做检查时会有一个人的检测结果是健康。
如表1.3所示,检测结果为患病的人总共有198人,其中有50%的人实际上是健康的,即小明实际上健康的概率是50%。与此类似,检测结果为健康的人总共有9802人,其中只有一人实际上患病,则对于检测结果为健康的人而言,检测错误的概率是0.01%。
表1.3 检测结果与真实情况统计表
检测结果为患病 检测结果为健康
真实情况为患病 99 1
真实情况为健康 99 9801
读者可能对这个结果感到惊异。但在实际情况中,大多数医学检测的准确率都不能达到100%。因此对于罕见病来说,往往需要进一步的精确检测才能得知是否真的生病了。知道了这一点,也就无须对发生在身边的误诊感到诧异了。
另一个例子则与数据分组合并有关。医药公司对一种新药进行了双盲实验,实验组和对照组分别招募到120名志愿者,均划分为儿童组、少年组、成年组和老年组4个组别。结果发现单独对照各个组别时,对照组的痊愈率高于实验组,可是观察总体水平时,实验组的痊愈率又高于对照组。
表1.4所示是双盲实验具体数据。
表1.4 双盲实验具体数据
实验组 对照组
参与人数 治愈人数 治愈率/% 参与人数 治愈人数 治愈率/%
儿童组 60 24 40 20 12 60
少年组 30 9 30 10 4 40
成年组 20 4 20 60 12 30
老年组 10 1 10 30 6 20
合计 120 38 31.7 120 34 28.3
如表1.4所示,统计数据与上述奇怪现象吻合。仔细观察表1.4,不难发现实验组中儿童和少年的数量比对照组多,成年人和老年人的数量又比对照组少。由于儿童和少年的自愈能力较强,因此在合计总数时,实验组的治愈率也就不足为奇了。这个实验明显违反了基本的设计原则,即各个组别的人数应对等这一条件,*终结果掩盖了真实情况,即这种新药不但对患者无效,甚至可能有害。
提示:在实际生活中,类似的统计疏漏、错误比比皆是,有时数据处理人出于某种目的会故意误导读者。例如,出现在广告中的统计数据往往会经过美化。有时真实数据有较多的“陷阱”,稍微粗心便会得出错误的结论。读者可参阅第2章和第3章的内容,了解更多有关统计数据的秘密。第4 ~ 8章则列举了许多化腐朽为神奇的优秀案例。
评论
还没有评论。