描述
开 本: 16开纸 张: 纯质纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787508666723
这不是一本讲述干巴巴的统计学理论的书,它主要介绍统计学概念的应用及其对日常生活、公共政策和许多其他领域的影响。书中没有烦琐的公式、图表和计算,你只要看得懂而且会解简单的方程式就足够了。本书着重于启发思考,这比生搬硬套地使用数学公式更有助于训练看问题的视角和解决问题的思维。
本书把统计学概念分成四个部分来呈现:数据的生产、整合数据、机会与概率、统计推断。
本书一点儿也不乏味,恰恰相反,它是那样生动有趣,深入浅出地把统计学的概念和分析方法呈现在你面前。通过一个个具体的案例、简单的练习和知识普及,能让你在阅读过程中不知不觉地增长统计学知识,提高分析和解决问题的水平。
这是一本能给你带来阅读乐趣的书,也是一本能让你更睿智的书。
致读者 // III
序 言 了解统计学 // VII
第1部分 数据的生产
第1章 数据从哪里来 // 003
第2章 好样本和坏样本 // 023
第3章 样本可以告诉我们什么 // 042
第4章 真实世界中的抽样调查 // 066
第5章 好实验与坏实验 // 098
第6章 现实世界中的实验 // 120
第7章 数据伦理 // 145
第8章 度量 // 167
第9章 统计数字会说谎 // 194
第1 部分 内容回顾 // 153
第2部分 整合数据
第10章 好图表与坏图表 // 227
第11章 用图呈现数值变量的分布 // 254
第12章 用数字描述分布 // 279
第13章 正态分布 // 309
第14章 描述相关关系:散点图和相关系数 // 333
第15 章 描述相关关系:回归、预测与因果关系 // 001
第16 章 居民消费价格指数和政府统计数据 // 032
第2 部分 内容回顾 // 056
第3 部分 机会与概率
第17 章 思考随机事件 // 073
第18 章 概率模型 // 096
第19 章 统计模拟 // 114
第20 章 赌场的生意经:期望值 // 135
第3 部分 内容回顾 // 153
第4 部分 统计推断
第21 章 什么是置信区间 // 165
第22 章 什么是显著性检验 // 193
第23 章 统计推断的滥用 // 220
第24 章 双向表与卡方检验 // 240
第4 部分 内容回顾 // 266
附 录 // 279
统计学是关于数据的学问。数据就是数字,但又不仅仅是“数字”,数据是有上下文联系的数字。比如,数字10.5本身没任何意义,但是,假如我们听说一位朋友刚出生的孩子体重为10.5磅a,那么我们会恭喜她生了一个健康的宝宝。结合数字的上下文联系和个人知识,就可以做出判断。我们知道,体重10.5磅的新生儿个头相当大,而新生儿的体重不太会是10.5盎司b或10.5千克。因此,上下文联系可以使数字含义明确。
统计学通过数据获取真知灼见并且得出结论,所用的工具是图表和计算。但是,这些工具要在符合常识的思考方式下使用。让我们先快速地了解一下新闻媒体、热门政治和社会争议的数据和统计研究方面的丰富成果,迈出学习统计学旅程的第一步。在后文中,我们将对序言里列举的案例展开更为详细的研究。
一则逸闻就是一个引人入胜的故事,它之所以能够深入人心,就在于其内容能打动人。逸闻可以让事情人性化,所以新闻报道通常以逸闻开头(和结尾)。但是逸闻无法用作决策的依据,正是因其内容生动,所以也常常误导我们。我们判断一个说法可信与否的依据,是它是否有数据支持,而不是它是否来自一个动人的故事。
住得离高压电缆太近,是否会导致儿童患上白血病?美国国家癌症研究所花了5年时间和500万美元,来收集有关这个问题的数据。结果发现,在白血病和暴露在高压电缆产生的电磁场之间没有任何相关性。和这篇研究报告同时发表在《新英格兰医学期刊》上的社评大声疾呼,是时候不要在这个问题上
“再浪费我们的研究资源了”。
比较一下两则报道产生的影响:一则是有关历时5年、花费500万美元的调查研究的电视新闻报道,另一则是对一位能说会道的母亲的电视采访,她患有白血病的孩子恰好住在高压电缆附近。在公众心目中,几乎每次都是逸闻胜出。但事实上,我们应该心存疑问,因为数据要比逸闻更可靠,数据可以系统地描绘出整体图景,而不是聚焦于个别事件。
我还打算补充一句,“数据胜过自封的专家。”新闻行业通常所秉持的所谓公正的立场,就是各找一名正反方“专家”发表简短的评论。我们永远无法知道是否其中一方代表的是整个学科的共识,而另一方则是蝇营狗苟于某些特殊利益的骗子。媒体这种处理冲突的做法使现在的公众认为,对应每一位专家,都有一个持相反观点的专家。如果你真的关注某个话题,就应该尝试从数据中找出结论,还要判断数据的质量是否良好。很多问题确实还未得到解决,但也有很多问题,只在那些不重视证据的人的头脑中才悬而未决。你至少可以了解一下这些“专家”的背景,还有他们引用的研究结果是否曾刊载于那些文章必须先通过外部评审之后才能发表的严谨期刊上。
数据是数字,而数字总显得非常可信。其实有的数字是这样,有的却并非如此。任何统计研究中最重要的事,就是数据的来源。专栏作者安•兰德斯问她的读者,如果可以重新来过,是否还会生孩子?回答的人中有70% 坚定地说“不要”。但是,你对于兰德斯从泪迹斑斑的信中,引述读者哭诉他们的孩子如何像野兽一样的话语,大可一笑置之。因为兰德斯从事的是娱乐业,她邀请读者回答这个问题时,回应最热烈的应该是那些后悔生孩子的父母。大部分的父母并不后悔生小孩。我们知道这个事实,是因为曾经有人对许多父母做过调查,而且为了规避偏见,受访的父母是随机抽取的。民意调查当然也不是没有瑕疵—这点我们后面会谈到—但它仍比邀请有一肚子不满的人来回答问题要好得多。
即使是信誉卓著的期刊,也不一定能对坏数据免疫。《美国医学会杂志》刊登过一篇文章,声称用管子将冷却的液体输送进胃里,可以缓解溃疡症状。这种治疗对病人的确有效果,但那只是因为病人通常会信服医生的权威性。也就是说,安慰剂(placebo,虚拟治疗)发生了作用。后来终于有人产生了质疑, 做了有控制组的比较研究—有些病人接受了这项治疗,有些只使用了安慰剂—结果表明安慰剂组(控制组)的“表现”更好。“没有比较,就没有结论”,
这是判断医学研究好坏的一个很好的依据。比如,我对于最近突然流行的“自然疗法”就心存怀疑。在这些疗法当中,极少会通过比较实验来证明它们不只是装在贴着漂亮植物图片的瓶子里售卖的安慰剂。
有报道说,在美国,设有赌场的县犯罪率较高。有位大学教师说,在线上课的学生比在教室里上课的学生表现好。政府报告强调,受过良好教育的民众比受教育少的民众赚钱多。最好不要太快下结论,而要先问一句:“有没有什么是他们没告诉我的,却可以用来解释这些事?”
有赌场的县的确犯罪率较高,但是在城市或是较穷的县,犯罪率也比较高。什么样的县会开设赌场呢?这些县是否在开设赌场之前,犯罪率就已经很高了呢?在线上课的学生学得比较好,但是和在教室里上课的学生比起来,前者的年龄比较大,底子也比较好,因此他们表现好很正常。受教育程度高的人的确赚钱多,但受教育多的人和受教育少的人相比,平均来说前者的父母受的教育也较多,也比较有钱。而且,前者在更好的环境中长大,上更好的学校。这些有利条件让他们接受到更多的教育,即使他们不接受这么多教育,这些有利条件也可能会帮他们赚到很多钱。
以上这些案例,都涉及两个变量之间的相关性,并且引导我们得出结论,即其中一个变量影响了另一个变量。“赌场会增加犯罪率”和“想变富有就要多读点儿书”,是它们传达的信息。这些信息有可能是正确的,但我们看到的相关性,大部分说不定还可以由隐藏在背景中的一些变量来解释,比如开设赌场的县的本质,以及受教育程度高的人生来就具备的有利条件。好的统计研究会考虑许多的背景变量,这当然需要技巧,不过你至少可以找一找,看它们有没有这样做。
你和你的朋友不是典型人物。比如,你喜欢听的广播节目可能就和我喜欢的不一样。当然,我和我的朋友也不是典型人物。如果想要知道整个国家(或只是大学生)的状况,我们必须认清一个事实,那就是,整体状况也许和我们自己或我们周围的状况并不相似。所以,我们需要数据。从Arbitron(一家媒体研究机构)得到的资料显示,美国最受欢迎的广播节目是成人当代音乐(2009年秋天,每周的听众总人数达到7 200万人)和乡村音乐(每周的听众总人数为6 400万人)。如果你喜欢当代流行打击乐(每周的听众总人数为5 900万人),而我喜欢各种新闻节目(每周的听众总人数为1 500万人),那么我们可能对整个唱片消费群体的音乐品位一无所知。如果我们身处唱片业,或只对通俗文化感兴趣,就必须把自己的喜好放在一边,好好地检视数据。
你可以到图书馆或者网上找数据,但我们怎么知道这些数据可不可靠呢?好的数据可以被看作像毛衣或数码影音光碟机(DVD机)之类的产品,而草率生产的数据就像草率生产的毛衣或DVD机一样令人沮丧。你买毛衣前一般都会检查一下,如果做工很差,你就不会买。数据也一样,如果质量很糟,你就不该用。本书的第一部分将会告诉你怎样分辨数据的好坏。
案例分析
你可能读了几个月的报纸,或者看了几个月的电视新闻,却没有见过一个代数公式。难怪你会认为代数看上去和日常生活完全无关。但是,你不可能一整天都接触不到统计数据和结果。比如,一则新闻提到在18~24岁年龄段的人中,有70%的人认为从互联网上下载音乐与购买二手音乐光碟或从朋友那里借来转录的做法没有区别。而对于65岁或以上的人来说,持相同观点的人只有36%。一篇更长的文章写道,得到高质量日间看护的低收入家庭的孩子,几年后在学业方面的表现更佳,与其他低收入家庭的孩子相比,未来更有可能考上大学、找到好工作。
这些数据是从哪里来的呢?为什么我们可以相信这些数据,或者不应该相信这些数据?好的数据是人类智慧劳动的成果,坏的数据则源于懒惰或者不求甚解的行为,只能误导他人。当有人向你抛来一个数字时,你应该问的第一个问题就是:它来自何处?
2008年美国总统大选期间,有一个全国性的项目叫作“大家去投票”,人们从罐中选择一粒软糖,代表他们支持的总统候选人。在佛罗里达州彭布罗克派恩斯的“咖啡苑”(Coffee Scene),顾客可以在每次买东西时挑选一粒蓝色或者红色的软糖。蓝莓软糖表示投票给民主党总统候选人巴拉克•奥巴马,红色草莓软糖表示投票给共和党总统候选人约翰•麦凯恩。
全美有34个州的超过100家餐馆参与了这项活动,每周一清点投票结果。截至2008年10月13日,投票总数超过211 000张,麦凯恩在这场全国性的软糖投票中获得了53.5%的支持率。2004年美国总统大选期间的软糖投票结果,曾准确预测出小布什将赢得总统大选。约翰•麦凯恩却没有那么幸运,投票结果错误地预测麦凯恩将在2008年的美国总统大选中胜出。
评论
还没有评论。