描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111738053丛书名: 现代统计学丛书
编辑推荐
本书是一本讲述统计思维的书,提供培养统计学家的概念框架,而非培养为统计学家的全面技术。本书重点解读一种统计方法,即简单线性回归,旨在让读者明白,想要成为自信的数据分析师最好深入学习一种统计方法,而不是粗略了解许多方法。
内容简介
本书是一本统计学入门图书,没有全面介绍统计学,而是通过数据、随机变量和一些估计方法介绍几种重要的统计方法和思维,提供统计学学生培养的基本框架。本书的前五章是基础,讲述数据、概率与随机变量,“插叙”之后转向更高级的理论——估计和推断,最后三章分别介绍了半参数统计与推断、参数统计与推断以及贝叶斯统计与推断,目的是让读者明白,想要成为自信的数据分析师的学生最好深入学习一种统计方法,而不是粗略了解许多方法。文中穿插R代码,每节配有练习。
目 录
目 录
译者序
前言
致谢第1章 初识数据1
第2章 R软件与探索性数据分析7
2.1 与R软件交互8
2.2 教程:鸢尾数据11
2.3 本章小结20
2.4 延伸阅读20
第3章 最佳拟合线21
3.1 定义“最佳”拟合23
3.2 推导:求最小二乘线25
3.3 结论29
3.4 本章小结31
3.5 延伸阅读31
第4章 概率与随机变量32
4.1 [选读]概率公理35
4.2 事件之间的关系:条件概率和
独立性36
4.3 贝叶斯定理38
4.4 离散随机变量及其分布41
4.5 连续随机变量及其分布43
4.6 概率密度函数45
4.7 分布族46
4.8 本章小结50
4.9 延伸阅读50
第5章 随机变量的性质51
5.1 数学期望与大数定律51
5.2 方差与标准差55
5.3 联合分布、协方差与相关性57
5.4 [选读]条件分布、期望和方差61
5.5 中心极限定理62
5.6 一个简单线性回归的概率
模型66
5.7 本章小结72
5.8 延伸阅读73
插叙74
第6章 点估计量的性质77
6.1 偏差80
6.2 方差81
6.3 均方误差82
6.4 一致性82
6.5 有效性84
6.6 [选读]统计决策理论与风险85
6.7 稳健性89
6.8 简单线性回归模型的估计量90
6.9 结论94
6.10 本章小结94
6.11 延伸阅读94
第7章 区间估计与推断96
7.1 标准误差96
7.2 置信区间97
7.3 频率推断Ⅰ:零假设、检验
统计量和p值101
7.4 频率推断Ⅱ:备择假设和拒绝
框架105
7.5 [选读]假设检验和置信区间的
关系107
7.6 零假设显著性检验及检验的
滥用108
7.6.1 缺乏复制性108
7.6.2 几乎固化了的α=0.05109
7.6.3 把α=0.05作为一个关卡109
7.6.4 科学假设与统计假设的区别109
7.6.5 忽视其他目标,如估计和
预测110
7.6.6 退化的知识文化110
7.6.7 根据零假设显著性检验评估
显著性检验112
7.7 频率推断Ⅲ:功效114
7.8 综合分析:当样本量增加时
会发生什么117
7.9 本章小结119
7.10 延伸阅读119
第8章 半参数估计与推断121
8.1 半参数点估计的矩方法123
8.1.1 嵌入式估计量124
8.1.2 矩方法估计126
8.2 使用bootstrap进行半参数区间
估计129
8.3 使用置换检验的半参数假设
检验137
8.4 结论142
8.5 本章小结143
8.6 延伸阅读143
第9章 参数估计与推断144
9.1 参数估计的极大似然估计法146
9.2 参数的区间估计:直接方法和
费希尔信息方法153
9.2.1 直接方法153
9.2.2 [选读]费希尔信息方法154
9.3 使用瓦尔德检验进行参数假设
检验157
9.4 [选读]使用似然比检验进行
参数假设检验158
9.5 本章小结161
9.6 延伸阅读162
第10章 贝叶斯估计与推断163
10.1 如何选择一个先验分布164
10.2 未缩放的后验、共轭以及
从后验分布中抽样165
10.3 使用贝叶斯估计方法获得点
估计量169
10.4 使用可信区间进行贝叶斯区间
估计172
10.5 [选读]使用贝叶斯因子进行
贝叶斯“假设检验”174
10.6 结论:贝叶斯方法与频率
方法176
10.7 本章小结178
10.8 延伸阅读178
尾叙 模型与数据179
尾叙1 评估假定179
尾叙1.1 绘图180
尾叙1.2 假定的检验182
尾叙1.3 样本外预测183
尾叙2 简单线性回归的拓展184
尾叙2.1 多元回归185
尾叙2.2 广义线性模型188
尾叙2.3 混合模型191
尾叙3 结论194
尾叙4 延伸阅读195
附录197
附录A 微积分197
附录B R语言拓展208
附录C 部分练习答案223
数学符号表246
术语表248
参考文献257
译者序
前言
致谢第1章 初识数据1
第2章 R软件与探索性数据分析7
2.1 与R软件交互8
2.2 教程:鸢尾数据11
2.3 本章小结20
2.4 延伸阅读20
第3章 最佳拟合线21
3.1 定义“最佳”拟合23
3.2 推导:求最小二乘线25
3.3 结论29
3.4 本章小结31
3.5 延伸阅读31
第4章 概率与随机变量32
4.1 [选读]概率公理35
4.2 事件之间的关系:条件概率和
独立性36
4.3 贝叶斯定理38
4.4 离散随机变量及其分布41
4.5 连续随机变量及其分布43
4.6 概率密度函数45
4.7 分布族46
4.8 本章小结50
4.9 延伸阅读50
第5章 随机变量的性质51
5.1 数学期望与大数定律51
5.2 方差与标准差55
5.3 联合分布、协方差与相关性57
5.4 [选读]条件分布、期望和方差61
5.5 中心极限定理62
5.6 一个简单线性回归的概率
模型66
5.7 本章小结72
5.8 延伸阅读73
插叙74
第6章 点估计量的性质77
6.1 偏差80
6.2 方差81
6.3 均方误差82
6.4 一致性82
6.5 有效性84
6.6 [选读]统计决策理论与风险85
6.7 稳健性89
6.8 简单线性回归模型的估计量90
6.9 结论94
6.10 本章小结94
6.11 延伸阅读94
第7章 区间估计与推断96
7.1 标准误差96
7.2 置信区间97
7.3 频率推断Ⅰ:零假设、检验
统计量和p值101
7.4 频率推断Ⅱ:备择假设和拒绝
框架105
7.5 [选读]假设检验和置信区间的
关系107
7.6 零假设显著性检验及检验的
滥用108
7.6.1 缺乏复制性108
7.6.2 几乎固化了的α=0.05109
7.6.3 把α=0.05作为一个关卡109
7.6.4 科学假设与统计假设的区别109
7.6.5 忽视其他目标,如估计和
预测110
7.6.6 退化的知识文化110
7.6.7 根据零假设显著性检验评估
显著性检验112
7.7 频率推断Ⅲ:功效114
7.8 综合分析:当样本量增加时
会发生什么117
7.9 本章小结119
7.10 延伸阅读119
第8章 半参数估计与推断121
8.1 半参数点估计的矩方法123
8.1.1 嵌入式估计量124
8.1.2 矩方法估计126
8.2 使用bootstrap进行半参数区间
估计129
8.3 使用置换检验的半参数假设
检验137
8.4 结论142
8.5 本章小结143
8.6 延伸阅读143
第9章 参数估计与推断144
9.1 参数估计的极大似然估计法146
9.2 参数的区间估计:直接方法和
费希尔信息方法153
9.2.1 直接方法153
9.2.2 [选读]费希尔信息方法154
9.3 使用瓦尔德检验进行参数假设
检验157
9.4 [选读]使用似然比检验进行
参数假设检验158
9.5 本章小结161
9.6 延伸阅读162
第10章 贝叶斯估计与推断163
10.1 如何选择一个先验分布164
10.2 未缩放的后验、共轭以及
从后验分布中抽样165
10.3 使用贝叶斯估计方法获得点
估计量169
10.4 使用可信区间进行贝叶斯区间
估计172
10.5 [选读]使用贝叶斯因子进行
贝叶斯“假设检验”174
10.6 结论:贝叶斯方法与频率
方法176
10.7 本章小结178
10.8 延伸阅读178
尾叙 模型与数据179
尾叙1 评估假定179
尾叙1.1 绘图180
尾叙1.2 假定的检验182
尾叙1.3 样本外预测183
尾叙2 简单线性回归的拓展184
尾叙2.1 多元回归185
尾叙2.2 广义线性模型188
尾叙2.3 混合模型191
尾叙3 结论194
尾叙4 延伸阅读195
附录197
附录A 微积分197
附录B R语言拓展208
附录C 部分练习答案223
数学符号表246
术语表248
参考文献257
前 言
前 言
每个实证学科的从业者都必须学会分析数据。绝大多数学生的第一次,可能也是唯一一次数据分析方面的培训来自学校提供的课程。在这样的课程中,前几周教师通常教授学生阅读数据和汇总数据的技能。余下的课程用于讨论与从业者所在领域相关的一系列统计检验:心理学的课程可能会侧重于t检验和方差分析(ANOVA);经济学的课程可能会教授线性回归和一些旨在进行因果推断的扩展;未来的医生可能会学习生存分析和Cox模型。这种教学方法至少有三个优点。第一,考虑到学生可能只学习一门数据分析课程,尽快教授他们成为函数型数据分析师所需的技能是合理的。第二,侧重教授学生相关专业方法的课程很有用,教师能够挑选引发学生兴趣的相关例子。第三,学生只需要具备算术的数学基础就能学习数据分析。
但是,在课程的后半段引入一个又一个检验也有很多缺点。首先,正如教师经常会从学生口中听到的那样,一次又一次的检验可能会让人难以理解。此外,将这些方法统一起来的知识被压缩在很短的时间里教授。因此,从学生的角度看,每一个方法都是一个独立的主题,很难形成整体统计思维。其次,对于有积极性的学生来说,标准入门课程可能会给人这样的印象:尽管数据可能是令人兴奋的,但统计学却是无趣的。对这些学生来说,掌握统计学就是记住一棵有众多假设和检验的大树,在满足某些条件时可以从一堆方法中选出适当的检验。对学习这种数据分析风格的学生,不能责怪他们没有看到统计学这门学科令人兴奋的地方,甚至没有看到统计学在思维上的根深蒂固。最后,应用精心选择的统计方法的能力可能会让学生成为一个函数型研究者,但这对于数据分析师的成长来说,基础根本不够。我们已经传授了一套“食谱”,而且是多功能且有针对性的“食谱”,但我们没有培养出“大厨”。当新方法出现时,对我们的学生来说,学习这些方法并不比他们学习第一套方法更容易。也就是说,这是一个大工程,成功与否将取决于一个人能否将统计语言翻译成其领域的语言。
大多数大学的统计专业以不同的方式培养未来的统计学家。首先,他们要求学生在开始统计学课程之前学习尽可能多的大学水平的数学。微积分是必需的,通常还需要多变量微积分和线性代数,也许还需要一门实分析的课程。在满足了数学上的要求后,未来的统计学家要学习一到两门完整的严格意义上的概率论课程,然后再学数理统计课程。在这至少一年的大学水平数学的准备和一年的统计学课程中,未来的统计学家从未被要求应用甚至从未听说过(比如)未来的心理学家入门课程中应用的方法。
在这一阶段,训练有素的统计学专业的学生可能没有应用过三因素方差分析,但他深刻理解自己所知道的技术,他领略到了统计学作为一门学科的趣味性和相通性。此外,如果需要使用三因素方差分析,他将能够在很少或没有外部帮助的情况下迅速学会它。
初出茅庐的研究人员时间紧迫,可能只接受过少量的数学训练,却需要应用和解释各种统计技术,如何才能获得统计学家那种理解能力和扩展能力?本书建议,研究人员应该“从头开始”深入学习至少一种方法。这种练习将使人们了解统计方法是如何设计的,对在研究中应用统计学时隐含的哲学思维有所了解,对统计技术的优势和劣势有更清晰的认识。
虽然本书不能把一个非统计学家变成统计学家, 但它将为统计学家的培养提供概念框架,对读者已经知道如何应用的技术,则增加其深度,激发读者的学习兴趣。本书可用作高级入门课程的主要教材或补充教材,例如,为低年级研究生或高年级本科生开设的相关课程,或数据分析的高级教程。本书假设读者对理解统计方法的基本推导有兴趣,对从数据中学习的重要性有认识,对基本数据显示和描述性统计有一定的了解。以前接触过微积分和编程是有帮助的,但不是必需的——涉及的主要概念将在第2章以及附录A和附录B中做简要介绍。概率论是根据需要讲授的,而不求全。在一些院系,本书适合作为入门教材,但对数学的要求有点高,教师可能会发现他们更愿意将这本书用于决心从事实证研究的学生。另一种可能的调整是将本书分成两个学期使用,将插叙作为高级教程的序言,用学生研究领域的数据实例作为补充。本书也可作为研究人员的自学指导书,以提高他们对日常所用技术的理解,或提高对研究结果的解释能力。
有许多优秀的统计学教科书可供非统计学家使用,因此任何新书都必须明确说明它与其他书的不同之处。本书有几个不具普遍性的特点,结合起来可能是独一无二的。
第一,本书的重点是只说明一种统计方法,即简单线性回归。本书的目的是:通过从零开始学习一种方法,考虑在这一背景下的估计和推断的整个概念框架,获得适用于其他背景的工具、理解和直觉。在大数据时代,我们一直用小数据——两个变量,在最常使用的数据集中,只有11个观测值——并对其做认真的思考。说“从零开始”,意思是不把任何事情当作理所当然,而是用数学、模拟、思想实验和例子的组合来探索尽可能多的基本问题。我选择简单线性回归作为分析方法,一方面是因为它在数学上很简单,另一方面是因为许多应用广泛的统计技术——
每个实证学科的从业者都必须学会分析数据。绝大多数学生的第一次,可能也是唯一一次数据分析方面的培训来自学校提供的课程。在这样的课程中,前几周教师通常教授学生阅读数据和汇总数据的技能。余下的课程用于讨论与从业者所在领域相关的一系列统计检验:心理学的课程可能会侧重于t检验和方差分析(ANOVA);经济学的课程可能会教授线性回归和一些旨在进行因果推断的扩展;未来的医生可能会学习生存分析和Cox模型。这种教学方法至少有三个优点。第一,考虑到学生可能只学习一门数据分析课程,尽快教授他们成为函数型数据分析师所需的技能是合理的。第二,侧重教授学生相关专业方法的课程很有用,教师能够挑选引发学生兴趣的相关例子。第三,学生只需要具备算术的数学基础就能学习数据分析。
但是,在课程的后半段引入一个又一个检验也有很多缺点。首先,正如教师经常会从学生口中听到的那样,一次又一次的检验可能会让人难以理解。此外,将这些方法统一起来的知识被压缩在很短的时间里教授。因此,从学生的角度看,每一个方法都是一个独立的主题,很难形成整体统计思维。其次,对于有积极性的学生来说,标准入门课程可能会给人这样的印象:尽管数据可能是令人兴奋的,但统计学却是无趣的。对这些学生来说,掌握统计学就是记住一棵有众多假设和检验的大树,在满足某些条件时可以从一堆方法中选出适当的检验。对学习这种数据分析风格的学生,不能责怪他们没有看到统计学这门学科令人兴奋的地方,甚至没有看到统计学在思维上的根深蒂固。最后,应用精心选择的统计方法的能力可能会让学生成为一个函数型研究者,但这对于数据分析师的成长来说,基础根本不够。我们已经传授了一套“食谱”,而且是多功能且有针对性的“食谱”,但我们没有培养出“大厨”。当新方法出现时,对我们的学生来说,学习这些方法并不比他们学习第一套方法更容易。也就是说,这是一个大工程,成功与否将取决于一个人能否将统计语言翻译成其领域的语言。
大多数大学的统计专业以不同的方式培养未来的统计学家。首先,他们要求学生在开始统计学课程之前学习尽可能多的大学水平的数学。微积分是必需的,通常还需要多变量微积分和线性代数,也许还需要一门实分析的课程。在满足了数学上的要求后,未来的统计学家要学习一到两门完整的严格意义上的概率论课程,然后再学数理统计课程。在这至少一年的大学水平数学的准备和一年的统计学课程中,未来的统计学家从未被要求应用甚至从未听说过(比如)未来的心理学家入门课程中应用的方法。
在这一阶段,训练有素的统计学专业的学生可能没有应用过三因素方差分析,但他深刻理解自己所知道的技术,他领略到了统计学作为一门学科的趣味性和相通性。此外,如果需要使用三因素方差分析,他将能够在很少或没有外部帮助的情况下迅速学会它。
初出茅庐的研究人员时间紧迫,可能只接受过少量的数学训练,却需要应用和解释各种统计技术,如何才能获得统计学家那种理解能力和扩展能力?本书建议,研究人员应该“从头开始”深入学习至少一种方法。这种练习将使人们了解统计方法是如何设计的,对在研究中应用统计学时隐含的哲学思维有所了解,对统计技术的优势和劣势有更清晰的认识。
虽然本书不能把一个非统计学家变成统计学家, 但它将为统计学家的培养提供概念框架,对读者已经知道如何应用的技术,则增加其深度,激发读者的学习兴趣。本书可用作高级入门课程的主要教材或补充教材,例如,为低年级研究生或高年级本科生开设的相关课程,或数据分析的高级教程。本书假设读者对理解统计方法的基本推导有兴趣,对从数据中学习的重要性有认识,对基本数据显示和描述性统计有一定的了解。以前接触过微积分和编程是有帮助的,但不是必需的——涉及的主要概念将在第2章以及附录A和附录B中做简要介绍。概率论是根据需要讲授的,而不求全。在一些院系,本书适合作为入门教材,但对数学的要求有点高,教师可能会发现他们更愿意将这本书用于决心从事实证研究的学生。另一种可能的调整是将本书分成两个学期使用,将插叙作为高级教程的序言,用学生研究领域的数据实例作为补充。本书也可作为研究人员的自学指导书,以提高他们对日常所用技术的理解,或提高对研究结果的解释能力。
有许多优秀的统计学教科书可供非统计学家使用,因此任何新书都必须明确说明它与其他书的不同之处。本书有几个不具普遍性的特点,结合起来可能是独一无二的。
第一,本书的重点是只说明一种统计方法,即简单线性回归。本书的目的是:通过从零开始学习一种方法,考虑在这一背景下的估计和推断的整个概念框架,获得适用于其他背景的工具、理解和直觉。在大数据时代,我们一直用小数据——两个变量,在最常使用的数据集中,只有11个观测值——并对其做认真的思考。说“从零开始”,意思是不把任何事情当作理所当然,而是用数学、模拟、思想实验和例子的组合来探索尽可能多的基本问题。我选择简单线性回归作为分析方法,一方面是因为它在数学上很简单,另一方面是因为许多应用广泛的统计技术——
评论
还没有评论。