描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111627524
本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,*后展望了统计学和数据科学的未来方向。
在21世纪,统计方法在范围和影响方面都有惊人的扩展。“大数据”、“数据科学”和“机器学习”已经成为新闻中常见的术语,因为统计方法被用于处理现代科学和商业的庞大数据集。我们是怎么走到这一步的?我们又将走到哪里?
本书将带你踏上数据分析变革的振奋之旅。从经典推断理论(贝叶斯理论、频率理论和Fisher理论)开始,各章节分别介绍一系列有影响力的主题,包括生存分析、广义线性模型、经验贝叶斯、刀切法与自助法、错误发现率、随机森林、神经网络、马尔可夫链蒙特卡罗方法、模型选择后的推断等。同时以独特的现代方法将方法和算法与统计推断相结合,对每个主题关键的方法论发展及其推断依据进行描述。此外,本书的后面章节对提升算法和深度学习等大规模预测算法进行研究,并阐述数据科学的未来方向。
本书两位作者均为斯坦福大学知名教授,不仅对统计推断理论和算法有着深刻的理解,并且有着丰富的统计算法教学经验。本书涵盖内容丰富,深入浅出,可作为低年级研究生的统计学教材。
赞誉
译者序
前言
致谢
第一部分 经典统计推断
第1章 算法与推断2
1.1 一个回归的例子3
1.2 假设检验5
1.3 注释7
注释7
第2章 频率学派推断8
2.1 实践中的频率学派9
2.2 频率学意义下的最优化12
2.3 注释与细节13
注释13
第3章 贝叶斯推断14
3.1 两个例子15
3.2 无信息先验分布18
3.3 频率学派推断的缺陷19
3.4 贝叶斯学派/频率学派的对比列表21
3.5 注释与细节23
注释23
第4章 Fisher推断和最大似然估计24
4.1 似然和最大似然24
4.2 Fisher信息和MLE26
4.3 条件推断28
4.4 排列和随机化31
4.5 注释与细节32
注释32
第5章 参数模型和指数族34
5.1 单变量族34
5.2 多元正态分布36
5.3 多参数分布族的Fisher信息量边界38
5.4 多项分布39
5.5 指数型分布族41
5.6 注释与细节44
注释44
第二部分 计算机时代早期方法
第6章 经验贝叶斯48
6.1 Robbins公式48
6.2 物种遗漏问题50
6.3 一个医学上的例子54
6.4 间接证据156
6.5 注释与细节57
注释57
第7章 James-Stein估计和岭回归59
7.1 James-Stein估计59
7.2 棒球运动员61
7.3 岭回归63
7.4 间接证据266
7.5 注释和细节68
注释68
第8章 广义线性模型与回归树70
8.1 逻辑回归70
8.2 广义线性模型75
8.3 泊松回归78
8.4 回归树80
8.5 注释与细节82
注释83
第9章 生存分析和EM算法85
9.1 生命表和风险率85
9.2 删失数据和Kaplan-Meier估计87
9.3 对数秩检验91
9.4 比例风险模型93
9.5 缺失数据和EM算法95
9.6 注释与细节98
注释98
第10章 刀切法与自助法101
10.1 标准差的刀切法估计101
10.2 非参数的自助法103
10.3 重抽样方案106
10.4 参数自助法110
10.5 影响函数与鲁棒估计112
10.6 注释与细节115
注释115
第11章 自助法置信区间117
11.1 Neyman的单参数问题的构建117
11.2 百分位方法120
11.3 偏差校正置信区间122
11.4 二阶精度124
11.5 自助t区间126
11.6 目标贝叶斯区间和置信分布127
11.7 注释与细节131
注释131
第12章 交叉验证与预测误差的Cp估计134
12.1 预测规则134
12.2 交叉验证137
12.3 协方差惩罚140
12.4 训练、验证与短期预测因子146
12.5 注释与细节148
注释148
第13章 客观贝叶斯推断和马尔可夫链蒙特卡罗方法150
13.1 客观先验分布150
13.2 共轭先验分布152
13.3 模型选择与贝叶斯信息准则156
13.4 Gibbs抽样和MCMC161
13.5 示例:模拟人口混合165
13.6 注释与细节167
注释167
第14章 战后时代的统计推断与方法论169
注释171
第三部分 21世纪的话题
第15章 大规模假设检验和错误发现率174
15.1 大规模假设检验174
15.2 错误发现率176
15.3 经验贝叶斯大规模假设检验178
15.4 局部错误发现率181
15.5 原假设分布的选择183
15.6 关联性186
15.7 注释与细节188
注释188
第16章 稀疏建模和套索191
16.1 前向逐步回归191
16.2 套索194
16.3 拟合套索模型197
16.4 最小角回归198
16.5 拟合广义的套索模型200
16.6 套索的选择后推断202
16.7 联系和扩展203
16.8 注释与细节205
注释205
第17章 随机森林和提升207
17.1 随机森林207
17.2 平方误差损失的提升212
17.3 梯度提升216
17.4 Adaboost:原始的提升算法218
17.5 联系和扩展220
17.6 注释与细节221
注释222
第18章 神经网络与深度学习224
18.1 神经网络与手写数字问题225
18.2 拟合一个网络226
18.3 自动编码器230
18.4 深度学习231
18.5 学习一个深层网络234
18.6 注释与细节235
注释236
第19章 支持向量机和核方法238
19.1 最优超平面238
19.2 软间隔分类器240
19.3 作为损失加惩罚的支持向量机准则241
19.4 计算以及核技巧242
19.5 利用核的函数拟合244
19.6 实例:用于蛋白质分类的字符串核函数244
19.7 支持向量机:结束语245
19.8 核平滑和局部回归246
19.9 注释与细节247
注释248
第20章 模型选择后的推断250
20.1 同时置信区间251
20.2 模型选择后的准确率255
20.3 选择的偏差258
20.4 贝叶斯频率学组合估计260
20.5 注释与细节263
注释264
第21章 经验贝叶斯估计策略266
21.1 贝叶斯反卷积266
21.2 g-建模和估计267
21.3 似然、正则化和准确性269
21.4 两个例子272
21.5 广义线性混合模型276
21.6 反卷积和f-建模278
21.7 注释与细节280
注释280
后记282
参考文献286
统计推断是一门内容极其广泛的学科,实际上,它位于数学、经验科学和哲学三门学科的交叉点上。从贝叶斯准则的发表算起,这门学科可以追溯到1763年(贝叶斯准则代表了这一学科的哲学层面,该准则的早期倡导者认为它是上帝存在的论据)。从20世纪50年代到现在,我们书名所指的“计算机时代”是指这250年历史中的最近四分之一。在这个时代,统计应用的传统瓶颈——计算,发展得愈发迅速。
本书是对过去60年统计如何演变的一个综述,但是对于这样一门内容广泛的学科,我们只不过是从一架小型飞机的高度进行俯瞰,而不是从喷气式飞机或卫星的高度来观察。各个章节分别介绍了一系列有影响力的论题,包括广义线性模型、生存分析、刀切法与自助法、错误发现率、经验贝叶斯、马尔可夫链蒙特卡罗方法、神经网络等。与此同时,我们将对每个论题关键的方法论发展及其推断依据进行描述。
不用多说,计算将是我们故事的核心话题,但是这并不意味着每一项进展都与计算机有关。正如一座桥已连通到一个新的大陆,但并不是所有人都渴望通过这座桥。诸如经验贝叶斯和James-Stein估计的话题已经在力学计算的约束下出现。其他话题,例如自助法和比例风险,才是计算机时代下新生的事物。在21世纪的统计学中,几乎所有的论题都依赖于计算机,但是要进入新千年的话题,我们这架小型飞机仍需飞一段时间。
统计推断在字典里的定义倾向于将其与整个学科等同起来。但在庞大的基于计算机处理算法所引导的“大数据”时代,这一定义已经变得不那么令人满意了。在此,我们将尝试把统计学的两个方面分开,即使这种划分方式并非总是一致的:针对特定问题领域的算法发展,例如使用随机森林进行预测,与其支持的推理论据,这两者截然不同。
从广义上讲,算法是统计学家所做的,而推断则说明他们为什么要这样做。数据科学作为统计事业的一个特别有活力的品牌,在新世纪中蓬勃发展,它强调算法思维而不是推断理由。本书后面的章节将对提升算法和深度学习等大规模预测算法进行研究,并阐述数据科学的观点(有关统计学和数据科学的联系,请参阅本书后记)。
生物推断、天文推断或地质推断这样的论题是不存在的。那为什么我们需要“统计推断”呢?答案很简单:自然科学有着判断想法准确性的天性。统计学比自然科学晚一步,它大多数时候是在解释自然科学家的观察结果。如果没有“大自然”作为无私的裁判,我们就需要一个用于指导和纠正的数学逻辑体系。统计推断就是这样一个从两个半世纪的数据分析经验中提炼出来的系统。
本书按照历史进程分为三个部分:第一部分回顾了经典推断、贝叶斯理论、频率理论和Fisher理论,它们都是在电子计算时代之前产生的,现代实践在不改变基本理论框架的情况下大大扩展了它们的应用范围(可以与古典和现代文学类比);第二部分关注从20世纪50年代到90年代早期的计算机时代的发展,作为一个过渡时期,这是在理论和实践中最容易看到快速计算对统计方法学进展有无影响的时期;第三部分,也就是“21世纪的话题”,把这个故事带到当下,我们所处的是一个算法蓬勃发展的时代(“机器学习”是令人不安的流行用语),解释算法的原理是现代统计推断的持续任务。
本书既不是目录,也不是百科全书,书中各个话题的选取是为计算方法和推断理论之间的相互作用提供恰当的例证。一些不包含在本书中的话题,譬如时间序列、一般估计方程、因果推断、图模型和实验设计,自然也有着自己的意义。无论如何,并不是本书中提出的主题才是唯一值得讨论的。
同样没有充分解释的还有渐近和决策理论,它们是这个领域的“数学统计”方面。我们的目的是将本书保持在一个适合硕士级别统计学者或一年级博士生的技术水平。不可避免地,部分内容将涉及更困难的领域,这些困难更多的来自统计思想的本质,而不是数学。读者如果发现我们的小飞机在某个话题上盘旋太久,应该毫不犹豫地继续向后阅读。在大多数情况下,章节彼此独立(尽管有一个连贯的整体主题)。这特别适用于那些因为对某个特定主题感兴趣而选择了本书的非统计学家,如仅对生存分析或提升算法感兴趣的读者。
如果要求一个有用的学科满足各种用户的需求,则会有失去核心的风险。尽管外部需求不断上升,统计学在大部分的内容上仍然保持着其哲学凝聚力。实际上,这个领域的核心在过去60年中已从基于数学和逻辑的传统焦点转向了一个更为计算化的焦点。本书将在各个话题上研究这一转变,除了在本书后记中讨论数据科学时略微给出一些讨论之外,这里不会尝试给出“在未来会发生什么?”这个有趣问题的答案。
致 谢
我们感谢Cindy Kirby在筹备本书时所做的娴熟工作,以及GalitShmueli对早期草案的有益评论。非常感谢剑桥大学出版社出色的文案编辑Steven Holt,感谢Clare Dennison在制作阶段始终指导我们,以及本书的编辑Diana Gillooly不懈地支持我们。
Bradley Efron
Trevor Hastie
2016年5月于斯坦福大学统计系
计算统计如何以及为何会统治全世界?在这本严肃且充满阅读乐趣的综述中,Efron和Hastie (两位整合参数和非参数统计思想的先驱)通过一系列明晰的、具有历史意义的例子,给出他们对统计学和机器学习的神奇之处的看法。
——Andrew
Gelman, 哥伦比亚大学
本书既有趣又有启发性,专门为那些想要听到重要思想并看到通过定义统计分析的基本数学来实例化它们的人编写。本书是对传统研究生课程的一个很好的补充。
—— Rob Kass卡内基·梅隆大学
这是一本很棒的书。它为计算机时代推动统计学发展的理论和方法之间的相互作用提供了清晰、易懂和有趣的说明。作者成功地在已建立的统计理论框架内找到了用于“大数据”分析的当代算法方法。
——Alastair
Young帝国理工学院
本书是一本现代统计学导引,强调了20世纪的概念和计算进展。本书由该领域的两位大师撰写,提供了恰当的数学分析和富有洞察力的解说。
——Hal Varian, 谷歌
本书提供了现代统计学的一个全新视图。算法与直觉、属性和它们背后的抽象参数处于同等地位。所涵盖的方法对于在当今的大数据和大型计算领域中实践统计分析师是必不可少的
——Robert
Gramacy,芝加哥大学布斯商学院
在这本书中,两位现代统计学大师对交织在一起的统计和计算世界进行了深入的探讨。通
过一系列重要主题,Efron和Hastie阐述了预测和理解数据的现代方法如何植根于统计和计算思维。他们展示了计算能力的提升如何改变传统的方法和问题,以及如何指引我们思考统计学的新方法。
——David Blei,哥伦比亚大学
*精彩。这本书汇集了许多重要的统计思想,包括作者自己的思想。任何从事统计和数据科学的人都必须反复阅读。Efron和Hastie展示了过去、现在和未来统计推理的不断增长的力量。
——Carl Morris,哈佛大学
评论
还没有评论。