描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121338908
·书中有太多有趣的统计学的例子,随便举一个吧——克莱夫去了年龄均值为38岁的功夫班,他希望训练强度中等,而且能遇到年龄相仿的朋友。然而克莱夫失望地告诉别人说“再报班的话绝不会来这里”。为什么呢?班上学员大部分是19-20岁的小伙子,但还有两位100多岁的祖师爷。——我们的数据中存在“异常值”,它们影响了我们的判断。
·轻松活泼的排版代替了过去统计学教材里那些密密麻麻的文字,读起来趣味横生,即使是个大部头,也一点不打怵。
1 信息图形化:第一印象
2 集中趋势的量度:中庸之道
3 分散性与变异性的量度:强大的“距”
4 概率计算:把握机会
5 离散概率分布的运用:善用期望
6 排列与组合:排序、排位、排
7 几何分布、二项分布及泊松分布:坚持离散
8 正态分布的运用:保持正态
9 再谈正态分布的运用:超越正态
10 统计抽样的运用:抽取样本
11 总体和样本的估计:进行预测
12 置信区间的构建:自信地猜测
13 假设检验的运用:研究证据
14 χ2分布:继续探讨……
15 相关与回归:我的线条如何?
附录i 尾声:正文未及的十大拓展
附录ii 统计表:快来查表
细分目录及各章引子
序言
大脑对待统计学的态度。一边是你努力想学会一些知识,一边是你的大脑忙着开小差。你的大脑在想:“最好把位置留给更重要的事,像该离哪些野生动物远点啊,像光着身子滑雪是不是个坏点子啊。”既然如此,你该如何引诱你的大脑意识到,懂得统计学是你安身立命的根本?
谁适合阅读本书? xxx
我们了解你在想什么 xxxi
元认知 xxxiii
征服大脑 xxxv
本书自述 xxxvi
技术顾问组 xxxviii
致谢 xxxix
1
信息图形化
第一印象
在为手头数据无法给出事情真相而发愁吗?统计能化繁为简,帮助你让一堆堆令人困惑的数据发挥作用。当你发现数据的真相后,接下来就需要借助可视化的方法表现出来,使之公之于众。为了找到最合适的图表完成这个过程,请你整理衣衫,带上最好的计算尺,和我们一起赶往“统计邦”吧。
统计量无处不在 2
为何学习统计学? 3
从两张图说起 4
呆板的饼图 8
条形图更具精确性 10
垂直条形图 10
水平条形图 11
标度的影响力 12
使用频数标度 13
处理多批数据 14
类别与数字 18
处理分组数据 19
绘制直方图起步:求出长方形宽度 20
第1步:求长方形宽度 26
第2步:求长方形高度 27
第3步:画出直方图 28
认识累积频数 34
绘制累积频数图 35
选择正确的图形 39
2
集中趋势的量度
中庸之道
有时候,把握问题核心才是当务之急。从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。在本章中,我们将介绍几种方法,帮助你计算最重要的统计量—均值、中位数、众数。你将开始学习如何有效地汇总数据,尽可能得出简练、有用的结果。
欢迎来到健身俱乐部 46
均值:平均数的一般量度 47
均值数学 48
处理未知条件 49
再说均值 50
再说健身俱乐部 53
人人都在练功夫 54
我们的数据中存在异常值 57
真凶是异常值 58
饮水机边的对话 60
寻找中位数 61
求中位数三步法: 62
生意日益兴隆 65
小鸭呱呱游泳班 66
均值和中位数出了什么问题? 69
我们该怎么处理这样的数据呢? 69
均值访谈 71
认识众数 73
求众数三步法 74
3
分散性与变异性的量度
强大的“距”
世事可靠不可靠,我们该问谁?平均数在寻找数据集典型值方面十分了得,但平均数并不能说明一切。平均数能让你知道数据中心所在,但若要给数据下结论,仅有均值、中位数和众数往往无法提供充足信息。在本章中,我们将开始分析各种距和差,让你的数据分析技术进入新境界。
招聘:队员一名 84
我们需要比较球员得分 85
使用全距区分数据集 86
异常值带来的问题 89
我们需要摆脱异常值 91
四分位数出手相救 92
四分位距剔除异常值 93
剖析四分位数 94
我们并不局限于使用四分位数 98
什么是百分位数? 99
用箱线图绘制各种“距” 100
变异性比分散性更具体 104
计算平均距离 105
我们可以用方差计算变异性…… 106
但标准差才是更直观的量度方法 107
标准差访谈 108
方差速算法 113
碰上需要比较基准的情况该怎么办? 118
使用标准分比较不同数据集中的数值 119
标准分释义 120
统计邦全明星篮球队赢了联赛! 125
4
概率计算
把握机会
人生无常瞬息之间的变化有时难以一一料定。但有些事情会比其他事情更有可能发生,这就为概率理论提供了大显身手的舞台。通过概率能评估出现各种结果的可能性,让你预测未来。知悉可能出现的结果则可帮助你作出有根据的决策。本章将让你了解更多概率知识,学会如何掌控未来!
肥蛋大满贯 128
转起来吧,轮盘! 129
几率有多大? 132
求解轮盘概率 135
维恩图:概率的图形表示 136
你还可以将几个概率相加 142
互斥事件与相交事件 147
交集带来的问题 148
更多表示法 149
又一次倒霉的转动…… 155
设定条件 156
求解条件概率 157
利用概率树还能计算条件概率 159
概率树使用诀窍 161
第1步:求P(黑∩偶) 167
第2步:求P(偶) 169
第3步:求P(黑|偶) 170
利用全概率公式求解P(B) 172
认识贝叶斯定理 173
如果几个事件互有影响,则为相关事件 181
如果几个事件互不影响,则为独立事件 182
再谈独立事件概率计算 183
5
离散概率分布的运用
善用期望
意外从天而降,未来如何演变?前文讲到如何通过概率得知发生某些事件的可能性的大小。可惜概率并非万能,它无法指出所发生的这些事情的整体影响,也无法指出这种整体影响对你的具体影响。不错,你有时会在轮盘赌中大赚特赚,但你赚到的钱真的填得平那些赔掉的钱吗?在本章中,我们将讲述如何利用概率预测长期结果,以及如何量度这些预测结果的确定性。
重回肥蛋赌场 198
我们可以写出老虎机概率分布 201
期望指示预测结果…… 204
方差指示结果的分散性 205
方差和概率分布 206
让我们算算老虎机的方差 207
肥蛋改了价码 212
E(X)与E(Y)之间存在线性关系 217
老虎机变换 218
线性变换的通用公式 219
每一次拉杆为一个独立观测值 222
观测值速算法 223
新老虎机在等你 229
E(X) E(Y)= E(X Y) 230
E(X) ?C E(Y)= E(X ?C Y) 231
线性变换也可以做加减运算 232
发了! 238
6
排列与组合
排序、排位、排
顺序有时很重要 一 清点某些事物的所有可能排序方法耗时颇巨,可这却是计算某些概率必不可少的过程 一 麻烦就在这里。在本章中,我们将介绍推导出这类信息的简便方法,为你免除清点一切可能结果的烦恼。来吧,让我们看看如何计算概率。
统计邦德比杯马赛 242
三马赛正在进行 243
马儿们有几种穿越终点线的方式? 245
计算排位数目 246
圆形排位 247
花样赛开始了 251
按个体排名与按种类排名不是一回事 252
我们需要按种类排列动物 253
推导出用于重复排列的公式 254
二十马赛正在进行 257
前三甲归属方式有几种? 258
何为排列 259
假如马匹排名无关紧要 260
何为组合 261
组合访谈 262
比赛结束 268
7
几何分布、二项分布及泊松分布
坚持离散
计算概率分布颇为费时。前面讲到如何计算和利用概率分布,不过,如果方法更简单一些,计算速度更快一些,效果岂不更好?在本章中,我们将介绍一些特殊的概率分布,这些概率分布有着十分固定的模式。只要懂得这些模式并善加利用,就能以前所未有的速度计算概率、期望、方差。接着读吧,让我们一起来认识几何分布、二项分布及泊松分布。
我们需要求出查德的概率分布 273
这种概率分布有一种固定模式 274
概率分布可以用代数式表示 277
几何分布对不等式同样有用 279
几何分布的期望模式 280
期望是 1/p 281
求当前分布的方差 283
几何分布简明指南 284
转椅赢赢赢! 287
你已经掌握了几何分布 287
玩下去,还是转身走? 291
推广到求3个问题的概率 293
进一步推导概率算式 296
期望和方差如何计算? 298
二项分布的期望与方差 301
二项分布简明指南 302
泊松分布的期望和方差 308
概率分布是怎样的? 312
组合泊松变量 313
伪装下的泊松分布 316
泊松分布简明指南 319
8
正态分布的运用
保持正态
离散概率分布并非无所不能。到目前为止,我们接触到的都是可以指定确切数值的概率分布。然而并非所有数据集合都是如此,还有几类数据并不符合我们之前遇到的概率分布。我们将在这一章里讲解所谓的连续型概率分布,并介绍最重要的概率分布类型之一 — 正态分布。
离散数据可取确切值…… 326
但并非所有数值型数据都是离散的 327
推迟几分钟? 328
我们需要求连续数据的概率分布 329
概率密度函数可用于描述连续数据 330
概率 = 面积 331
欲算概率,先求f(x)…… 332
再求面积,可得概率 333
概率算好了 337
寻找灵魂伴侣 338
男伴模型 339
正态分布是连续数据的“理想”模型 340
如何求正态概率? 341
正态概率计算三步法 342
第1步:确定分布 343
第2步:标准化为N(0, 1) 344
欲完成标准化,先移动均值…… 345
然后收窄 345
现在,为要计算其概率的特定数值求出Z 346
第3步:用方便易用的概率表查找概率 349
9
再谈正态分布的运用
超越正态
但愿所有的概率分布都是正态分布。有了正态分布,日子好过多了—既能一口气查出整个范围的概率,又能留下点时间玩游戏,谁还会花时间一个一个地计算概率呢?在本章中,你将学习如何闪电般解决更复杂的问题,还将懂得如何将正态分布的便利运用到其他概率分布上。
双双登上爱情过山车 363
正态新娘 正态新郎 364
终究还是体重问题 365
综合体重符合哪种分布? 367
求解概率 370
更多人想坐爱情过山车 375
线性变换描述了数据的基本变化…… 376
而独立观察结果描述的是你有多少数值 377
独立观察结果的期望和方差 378
接着玩,还是转身走? 383
正
《深入浅出统计学》翻译好了。这是我翻译的第二本 “深入浅出”系列书籍,第一本是《深入浅出数据分析》,两本书可以说是姊妹篇。
《深入浅出统计学》具有深入浅出系列的一贯特色,即“认为深入浅出系列图书的每一位读者都是一位学习者”,遵守“将知识图形化”、“采用对话式的个性化风格”、“引导读者深入思考”、“牢牢吸引读者的注意力”、“影响读者的情感”等约定。不过,这并不意味着无法捕捉到作者的个人特点。
与《深入浅出数据分析》喧嚣错杂的现场气氛相比,《深入浅出统计学》显示出一分属于“办公室”的宁静,由数据分析师整理好的数据就摆在那里,找到合适的方法进行演算成为工作的重点,这些方法包括:信息图形化、集中趋势的量度、分散性与变异性的量度、概率计算、离散概率分布、排列与组合、几何分布、二项分布及泊松分布、正态分布、统计抽样、总体和样本的估计、置信区间的构建、假设检验、卡方分布、相关与回归。从开篇至收尾,这些方法由独自登场到联袂表演,从“一支红杏出墙来”到“乱花渐欲迷人眼”,徐徐揭开统计学神秘的面纱。作者充分利用几个活泼有趣的情境,淋漓尽致地发挥深入浅出系列“反复阐述”的特色,举重若轻、有条不紊地完成了这本篇幅长达717页、内容多达15章的作品。
身为译者,我当然有责任全力体现这样一部作品的风采。只是怎样一本译作才是“好”译作?这个议论伴随翻译这个营生的生而生,也许也只能伴随翻译这个营生的亡才会亡。与其孜孜不倦地讨论,不如做点切实的事情,向着“好”的目标接近。
在《深入浅出统计学》的翻译过程中,有两件工作可以斗胆请读者放心:
一是术语的翻译。所有术语都有合理出处,优先采用的参考资料是《GBT3358.1-2009统计学词汇及符号第1部分:一般统计术语与用于概率的术语》。为了方便读者研究,现已将此标准中的所有术语整理成《GB术语表》,见此链接:http://t.cn/aO8vlq。除了少数几个例外,只要能在此标准中查到的术语,均优先使用。所提到的少数几个例外则是为了成全表述上的一致性和逻辑性,例如,“range”一词,未采用GB中出现过的“极差”,而是采用其他资料中出现的另一种说法“全距”,这是为了让与“range”有关的几个术语—全距、四分位距、百分位距等保持和谐一致,便于理解和记忆。
二是标点符号和字体格式的认真使用:第一,统计术语首次出现时加粗,凸显这个术语,引起读者重视;第二,统计用语过于冗长时,为了避免这个用语与句子的其他组成成分混淆不清,也加引号进行提示,例如,第4章第133页上的“停球结果为7”;第三,提高破折号的使用频率,当前后两个句子有较为密切的因果联系时,即使原文未使用破折号,译文也改句号为破折号,以作提示。
遗憾的是,有极少量术语无法做到既坚持采用术语,又保持中文的流畅。这固然是由于我个人经验不足、能力有限,但中英文的习惯差异、技术类书籍对术语正确性和一致性的特定要求也是其中的原因。例如,“expect”译为“期望”,可是,当读到第5章中“这是你每拉一次杆能够期望得到的收益—是负数!”这样的句子时,我们多少会觉得有些怪异—在中文中,我们习惯于将“期望”这个词和美好的前景联系在一起,谁会期望自己的收益是负数?可是,如果将“期望”顺手改为“预期”以满足流畅性的需要,那么从技术的严谨性来看,并不是十分负责的做法。这样的词还有“成功”—只要某件事情如期发生,都叫做“成功”,无论好歹。每到这种纠结时分,我往往按照个人意愿,任性地坚持“直译”。衷心希望这样的不足不会影响读者对统计学的兴趣和研究。
本书初稿提交后,在卢鸫翔编辑的热心联络下,以下素未谋面的专业人士参与了初稿试读,给出了宝贵的审定意见,现借译者序向以下热心人士致谢:
陈钢、高涛、江思源、梁涛、林宇、刘思喆、卢涛、孙强宇、魏太云、吴昕、徐旭铭、张伸
最后:
感谢电子工业出版社对我的信任。
感谢卢鸫翔、徐涛编辑对我的帮助和指教。
感谢家人对我的理解和支持,我爱你们。
— 阿瑞娜·安德森(Ariana Anderson),加利福尼亚大学洛杉矶分校统计系教师助理及博士生
“《深入浅出统计学》润物细无声。当一口气看完讲解和练习后,你就会发现自己在社交谈话中可以开口闭口正态分布、泊松分布,我保证并没有人建议你这么做!”
— 加里·沃尔夫(Gary Wolf),《连线》杂志(Wired Magazine)特约编辑
“道恩·格里菲思把一些十分复杂的概念拆分为一块块小材料,它们不那么令人望而生畏,凡夫俗子都会觉得十分容易掌握。大量图形、图片让材料具体生动,458页那位吵着要买口香糖球的迷人女模特已然让我心生情愫。”
— 布鲁斯·弗雷(Bruce Frey),《统计学技巧》(Statistics Hacks)作者
“《深入浅出统计学》运用简单的生活实例,提供*符合直觉的理解方式,让统计理论的学习既有趣又自然。”
— 迈克尔·普瑞诺(Michael Prerau),波士顿大学计算神经科学和统计学讲师
“你以为‘深入浅出’图书只适合计算机迷吗?不妨试试用本书提供的方式学习统计学,你就会改变想法。这方法的确有用。”
— 安迪·帕克(Andy Parker)
“这本书非常适合学生学习统计学—寓教于乐、讲解全面、易于理解。完美无缺的方法!”
— 丹妮尔·莱维特(Danielle Levitt)
“打倒其他枯燥无味的统计书!连我的猫都喜欢这一本。”
— 凯里·科利特(Cary Collett)
深入浅出系列图书美誉
“凯西和伯特合著的《深入浅出Java》让白纸黑字摇身一变,成为读者领略过的*接近图形用户界面的作品。作者以幽默、新潮的风格,让学习Java成为不断追问‘他们后来怎么样了?’的愉快体验。”
— 沃伦·柯费尔(Warren Keuffel),《软件开发》杂志(Software Development)
“《深入浅出Java》引人入胜的风格会把本来一无所知的你变成斗志昂扬的Java战士,不仅如此,书中还收入了大量实用事例,这样的实用事例在其他文章中只会留给恐怖的‘读者练习’。此书睿智、幽默、新潮而实用—能在讲授对象序列化和网络加载协议知识的同时有这样的主张并坚持做到的书籍并不多见。
— 丹·罗素(Dan Russell)博士,IBM Almaden研究中心用户科学和用户体验研究室主任(兼斯坦福大学人工智能教师)
“此书明快,风趣,玩世不恭,引人入胜。细心读 — 你可能确实能学到东西!”
— 肯·阿诺德(Ken Arnold),曾任Sun Microsystems高级工程师,与Java创始人詹姆斯·戈斯林(James Gosling)合著《Java编程语言》(The Java Programming Language)
“如醍醐灌顶,脑海中堆积如山的书本知识一下子消化了。”
— 沃德·坎宁安(Ward Cunningham),维基概念发明人,Hillside Group创立人
“正合我们这些喜欢研究技术、生活随意的程序员的口味,实用开发策略的称手参考书—让我的大脑尽情运转,无须硬着头皮应付迂腐乏味的专家说教。”
— 特拉维斯·卡兰尼克(Travis Kalanick),Scour网站和Red Swoosh网站创始人,获麻省理工学院TR100(《技术回顾》世界百名青年创新学者)称号
“有的书是用来买的,有的书是用来藏的,还有的书是用来摆在案头的。感谢O’Reilly和Head First的员工,他们出了*等级的书 — 深入浅出系列,让人爱不释手、百读不厌。《深入浅出SQL》是我*心爱的书,连参考用的PDF打印稿都快翻烂了。”
— 比尔·索耶(Bill Sawyer),Oracle公司ATG课程经理
“本书的透彻、幽默和睿智令人钦佩,连编程门外汉也能借助这样的书想出办法解决问题。”
— 科利·多克托罗(Cory Doctorow),博客网站BoingBoing撰稿人合作编辑,著有《魔
法王国的故事》(Down and Out in the Magic Kingdom)及《人来人往的城市》(Someone Comes to Town, Someone Leaves Town)
“昨天收到书就开始读……一读就停不下来了,真是酷毙了。书很有趣,内容扎实,切中肯綮。印象太好了。”
— 艾瑞克·伽玛(Erich Gamma),IBM 杰出工程师,《设计模式》(Design Patterns) 合著者
“我读过的*有趣、*明的软件设计图书之一。”
— 艾伦·拉伯奇(Aaron LaBerge),ESPN.com技术副主席
“过去要犯着错误摸索前进的漫长学习过程,现在干净利落地浓缩在一本迷人的平装书中。”
— 麦克·戴维森(Mike Davidson),Newsvine, Inc.首席执行官
“每一章都凝聚着优雅的设计,每一条原理无不饱含实用价值与闪光智慧。”
— 肯·戈德斯坦(Ken Goldstein),迪斯尼在线执行副总裁
“我《深入浅出HTML与CSS & XHTML》。它以‘有趣’的模式,将全部知识倾囊相授。”
— 丹妮尔·莱维特(Danielle Levitt)
“通常,阅读设计模式方面的书或文章时,我都得头悬梁锥刺股才能保证注意力集中。这本书却是个例外,听起来可能有点怪,这本书让学习设计模式变得盎然有趣。
“当其他设计模式方面的书籍还在教读者呀呀学语时,这本书却已在踏浪高歌‘加油,兄弟!’”
— 艾维克·伍勒(Eric Wuehler)
“我实实在在爱这本书。事实上,我当着老婆的面亲了这本书。”
— 塞提斯·库玛(Satish Kumar)
评论
还没有评论。