描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302648628丛书名: 大数据系列丛书
本书主要介绍多元数据分析的方法、数学原理、应用实践等,如奇异值分解、多元线性回归分、方差分析、主成分分析、因子分析、聚类分析、多维标度分析、判别分析、典型相关分析、逻辑回归等,对方法原理的讲解深入浅出,同时又不失数学严谨性,对算法和处理流程通过适当的例子作示范,并详尽分析背后的逻辑和原理,同时对每一种核心方法提供一个综合应用实例。
本书是多元数据分析的基础教材,内容涵盖方差分析、总体分布和独立性检验、矩阵的奇异值分解、 多元线性回归分析、主成分分析、因子分析、聚类分析、多维标度分析、判别分析、逻辑回归分析、典 型相关分析等多元数据分析的核心内容。写作上力求深入浅出、循序渐进,既照顾学生的理解能力与学 习兴趣,又考虑内容的全面性与深度。本书在内容取舍、习题选择等方面依据作者的教学经验做了仔细 考虑,同时参考国内外的经典教材与文献,力求做到与时俱进,能够与前置和后续课程很好地衔接。 书 中除了方法原理讲解外,还有大量计算和应用实例,并附有完整的 MATLAB 代码和数据集,以及详细 的使用说明和代码注释,读者能够很容易地实现所学方法。每章末尾均有拓展阅读建议,供学有余力或 有兴趣的学生参考。此外,本书还配有用 LaTeX 精心制作的 PDF 课件,方便授课教师使用。 本书可作为基础数学、概率统计、应用数学、大数据、管理科学与工程、金融工程等专业的本科教 材,也可作为相关专业研究生基础课程的教材或参考书。
第1章 导论与预备知识 1
1.1 数据分析的研究对象 1
1.2 向量空间 3
1.3 范数 7
1.4 内积空间 9
1.5 线性变换 12
1.6 特征值与特征向量 16
1.7 正交补空间和保范变换 23
1.8 多维随机变量 26
1.8.1 随机向量的分布和独立性 26
1.8.2 随机向量的数字特征 28
1.8.3 多维正态分布 29
1.9 多元统计量及抽样分布 36
1.9.1 总体、样本和统计量 36
1.9.2 估计量的评价标准 38
1.9.3 常用的多元抽样分布 41
拓展阅读建议 44
第1章习题 44
第2章 方差分析 46
2.1 单变量的均值检验 46
2.2 单变量的方差分析 49
2.3 多元均值检验 54
2.4 多元方差分析 59
2.5 协方差矩阵相等的检验 62
2.6 MATLAB方差分析工具 64
拓展阅读建议 67
第2章习题 68
第3章 关于总体分布的检验和独立性检验 69
3.1 拟合优度检验 69
3.1.1 多项分布的中心极限定理 69
3.1.2 拟合优度检验 71
3.1.3 理论分布中含有未知参数的拟合优度检验 75
3.2 正态性检验 78
3.2.1 图示法 79
3.2.2 拟合优度检验 85
3.2.3 Kolmogorov-Smirnov检验 87
3.2.4 偏度和峰度 89
3.2.5 Jarque-Bera检验 91
3.3 独立性检验 92
3.3.1 引例 92
3.3.2 列联表分析 94
拓展阅读建议 96
第3章习题 96
第4章 奇异值分解 99
4.1 奇异值分解定理 99
4.2 几何解释 104
4.3 应用 106
4.3.1 矩阵的低秩逼近和数据压缩 106
4.3.2 超定线性方程组和矩阵的伪逆 112
拓展阅读建议 114
第4章习题 114
第5章 多元线性回归分析 116
5.1 线性回归模型 116
5.2 最小二乘估计 117
5.3 几何解释 123
5.4 偏相关系数 126
5.5 线性回归模型的推断及评价 134
5.6 实例 137
拓展阅读建议 140
第5章习题 140
第6章 主成分分析 142
6.1 概述 142
6.2 数学模型 143
6.3 主成分模型的解 144
6.4 主成分的性质 147
6.5 主成分分析的计算实现 150
6.6 实践中需要考虑的问题 154
6.6.1 适合用主成分法降维的数据 154
6.6.2 是否先对数据进行标准化处理 156
6.6.3 应该保留多少个主成分 156
6.7 实例 161
拓展阅读建议 164
第6章习题 164
第7章 因子分析 165
7.1 概述 165
7.2 数学模型 167
7.3 因子模型的参数估计 168
7.3.1 主成分法 169
7.3.2 主因子法 171
7.3.3 极大似然估计 173
7.3.4 三种参数估计法的比较 176
7.4 因子旋转 179
7.4.1 基本思想 179
7.4.2 因子旋转方法 180
7.4.3 应用实例 182
7.5 因子得分的估计 186
7.5.1 最小二乘法 186
7.5.2 加权最小二乘估计 187
7.5.3 回归法 188
7.5.4 因子正交旋转对因子得分的影响 189
7.5.5 应用实例 189
拓展阅读建议 193
第7章习题 193
第8章 聚类分析 195
8.1 概述 195
8.2 相似性度量 196
8.2.1 距离 196
8.2.2 相似系数 198
8.2.3 用MATLAB计算距离矩阵和不相似度矩阵 199
8.3 系统聚类法 201
8.3.1 常用的系统聚类法 201
8.3.2 系统聚类法的步骤 205
8.3.3 系统聚类的实现 208
8.3.4 系统聚类法的性质 212
8.4 K-均值聚类 213
8.4.1 基本思想与算法 213
8.4.2 MATLAB实现 214
8.5 聚类分析实践中常遇到的问题 216
8.5.1 变量的选取 216
8.5.2 确定类的个数 216
8.5.3 聚类结果的解释 218
拓展阅读建议 220
第8章习题 220
第9章 多维标度分析 221
9.1 概述 221
9.2 多维标度分析的古典解 222
9.2.1 基本概念 222
9.2.2 欧氏距离结构的充要条件 223
9.2.3 多维标度分析的古典解 227
9.2.4 计算实例 228
9.3 多维标度分析的古典解与主成分的联系 233
9.4 非度量多维标度分析 235
9.4.1 概念及原理 235
9.4.2 实现 238
拓展阅读建议 241
第9章习题 241
第10章 判别分析和逻辑回归分析 243
10.1 概述 243
10.2 两个总体的判别分析 244
10.2.1 判别模型 244
10.2.2 正态总体的平均错判成本最小判别法 245
10.2.3 应用实例 247
10.3 多个总体的判别分析 253
10.3.1 后验概率和Bayes公式 253
10.3.2 Bayes判别法 254
10.3.3 平均错判成本最小判别法 255
10.3.4 计算实例 257
10.4 Fisher线性判别分析 262
10.4.1 基本思想 262
10.4.2 Fisher线性判别函数 263
10.4.3 计算实例 266
10.4.4 MATLAB的判别分析函数 270
10.5 逻辑回归模型 271
10.5.1 基本思想及数学模型 271
10.5.2 模型参数估计 272
10.5.3 利用逻辑回归模型分类 273
10.5.4 假设检验 274
10.5.5 应用实例 275
10.6 多分类的softmax回归模型 278
10.6.1 模型与参数估计方法 278
10.6.2 应用实例 279
拓展阅读建议 281
第10章习题 281
第11章 典型相关分析 284
11.1 概述 284
11.2 数学模型及求解 285
11.2.1 数学模型 285
11.2.2 模型求解 286
11.2.3 典型相关系数的显著性检验 289
11.3 MATLAB实现及应用实例 289
11.3.1 MATLAB实现 289
11.3.2 应用实例 293
拓展阅读建议 295
第11章习题 296
附录A 2分布、t分布和F分布 298
附录B 多元正态总体参数的极大似然估计 305
附录C 顺序统计量和经验分布函数 309
C.1 顺序统计量 309
C.2 经验分布函数 311
附录D 矩阵函数的求导公式 317
部分习题答案 321
参考文献 336
近十年来, 大数据和人工智能技术进步飞快, 数据渗透至社会的各个行业、各个领域以及人类的生产、生活的方方面面, 2020年4月发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》正式将数据列为生产要素, 与劳动力、土地、资本具有同等重要的地位。 不仅如此, 数据也已成为现代人一刻都离不开的消费品。 因此, 从数据中发现规律、发掘有价值的信息便成了 的研究、生产甚至生活的技能, 数据分析的相关课程在大学生能力培养中的地位日益突出。
近年来, 江西财经大学领导对数据分析的相关专业基础课的教学越来越重视, 但发现目前没有一本数据分析或多元统计方面的教材能够适应现阶段的培养方案, 因此笔者不揣冒昧, 决定自编一本多元数据分析的教材。
现有的数据分析教材或是陷于烦琐的统计软件操作教学, 或是偏重于数理推导和证明, 轻视实践, 或是虽兼有理论和实践, 但二者没有很好地融合。 笔者多年讲授“管理统计学”课程和数学建模, 发现很多学生缺乏的是统计建模能力, 导致对方法的应用缺乏深层次的认知和理解, 在复杂多变的场景中不能灵活应用。 基于这一经验, 笔者决定从统计建模的角度重新梳理一些核心多元统计方法的教学方式, 从观察现象和样本数据开始提出问题, 然后围绕问题提出假设, 建立数学模型, 再分析讨论模型的性质、求解方法以及解的性质, 再到计算实现, 最后提出一个综合性的应用问题, 让学生在解决问题的过程中熟悉方法的应用, 领悟方法的核心思想和要点, 同时鼓励学生拓展和创新, 培养学生的综合能力和创新能力。
本书是为上述教学改革目标服务的。 要达成这一目标并不轻松, 需要用到一些比较深奥的概率统计、矩阵代数、优化等领域的知识, 学生在修课之前并没有这方面的知识准备, 因此本书第1章及书末的附录对需要用到的知识作了较为系统的介绍。 特别是对多元正态分布知识作了系统详尽的介绍, 因为这部分知识对多元数据分析非常重要, 但据笔者所知, 现有教材都只是列出部分结论, 或泛泛而论, 不作深入介绍, 本书为了方便读者查阅和深入学习, 在第1章花了不少的篇幅系统、深入地介绍了这部分知识。
第2章对均值检验和方差分析作了较为系统的介绍, 证明了离差平方和分解引理以及组间离差平方和、组内离差平方和的抽样分布定理, 并详细介绍方差分析的MATLAB实现。
第3章对拟合优度检验、正态性检验和独立性检验作了系统介绍。 现有教材对拟合优度检验的Pearson统计量的抽样分布都没有给出证明, 本书专辟一节证明了多项分布的中心极限定理, 然后用这个定理很简洁地证明了Pearson统计量的抽样分布定理。 关于多项分布的中心极限定理的证明, 笔者给出的证明只需用到矩母函数和极限知识, 比现有文献中的证明方法更初等、直接。
第4章系统介绍矩阵奇异值分解的知识, 并给出奇异值分解在矩阵的低秩逼近、超定线性方程组的解以及矩阵的Moore-Penrose伪逆中的应用, 为后面的主成分分析、因子分析、多维标度分析、典型相关分析等章的模型求解作准备。
第5章系统介绍线性回归分析, 是从统计建模的角度展开的。 先是通过例子提出问题, 然后提出假设, 建立线性回归模型, 然后探讨模型的解及解的性质, 再讨论问题的几何本质, 还介绍了偏相关系数, 最后是回归方法的应用。 解释线性回归问题的几何本质时, 我们将其看作内积空间L2()中的最佳线性逼近问题, 在更高的观点下探索一般性的结果。
第6章系统介绍主成分分析, 也是从统计建模的角度展开的。 首先通过观察和讨论提出降维的思想, 然后提出假设建立主成分的数学模型, 接下来探讨模型的求解以及主成分的性质, 再讨论主成分的计算实现, 最后是主成分分析的应用。 与现有教材不同的是, 本书仅用矩阵的特征分解和一些简单的线性代数知识推导出主成分模型的解及其性质, 这样做不仅直接, 还便于探索主成分分析与奇异值分解的联系。
第7章系统介绍因子分析。 从Holzinger和Swineford的智力测验发起讨论, 提出问题, 建立模型, 探索模型的性质及参数估计方法, 然后给出计算实例, 分析计算结果, 讨论如何增强公共因子的可解释性, 由此引出因子旋转的问题, 最后讨论因子得分的估计。 与现有教材不同的是, 本书利用矩阵的奇异值分解和低秩逼近很自然地导出估计因子载荷矩阵的主成分法和主因子法。 本书还通过计算实例对三种常用因子模型参数估计方法作了比较, 讨论各自的优缺点。 本书对因子得分的估计方法也作了深入讨论。
第8章系统介绍系统聚类法和K-均值聚类法, 并通过应用实例探讨聚类分析实际应用中会遇到的一些问题。 递推公式是编程实现系统聚类法的关键, 重心法、Ward 法的递推公式证明比较难, 现有教材都是直接跳过, 本书给出了详细证明。
第9章系统介绍多维标度分析。 由数据可视化的问题引出多维标度分析, 然后建立严格的数学模型, 探讨模型的求解, 由此得到多维标度分析的古典解, 并揭示多维标度分析与主成分分析的联系。 本章对非度量多维标度法也作了深入的讨论, 并给出实现方法和应用实例。 本书在多维标度分析的严格数学表述及解的推导上有自己的特色, 使用矩阵奇异值分解从矩阵的低秩逼近的角度进行探讨, 角度新颖自然。
第10章系统介绍两个总体和多个总体的判别模型、平均错判成本最小判别法、Bayes判别法、距离判别法、Fisher线性判别法、逻辑回归分析、softmax回归分析等内容, 通过实例详细介绍实现和应用的细节, 并附上完整的MATLAB代码。 本章对于判别分析、逻辑回归分析的讨论都是从数学建模的角度展开的, 让学生在建模的过程中明白方法的由来, 在模型求解的过程中明白方法的原理及实现要点, 通过应用实例让学生掌握方法的应用要点, 并拓展学生的创新思维。 对于平均错判成本最小判别模型的解, 现有教材都是给出结论, 没有推导过程, 本书给出了严格推导。 softmax回归模型较为深刻复杂, 一般的多元统计教材不会纳入这部分内容, 但考虑它是机器学习和模式识别中重要的分类方法, 也是神经网络的基本构成单元, 对于大数据分析和人工智能专业的学生是必不可少的基础知识, 因此本章对它作了深入讨论并给出了应用实例。
第11章系统介绍典型相关分析的基本思想、数学模型、求解方法及MATLAB实现, 并通过实例讲解典型相关分析的应用要点。 对于典型相关模型的解析解, 本书利用Lagrange 乘数法及矩阵奇异值分解给出一种清晰简洁的推导, 有助于学生掌握典型相关分析的本质。
为了方便读者动手实践, 本书给出实现书中计算实例、应用实例的完整MATLAB代码和数据集, 以及详细的使用说明和代码注释, 读者能够很容易地实现所学方法。 为便于读者阅读,本书中的矩阵、向量、矢量等不再单独标示成黑斜体,统一使用白斜体形式。此外, 针对本书的全套教学课件已制作完成, 是由LaTeX精心制作的PDF课件, 可用常用的PDF阅读器播放演示。 这些程序、数据集、课件以及制作课件的LaTeX源代码, 可在清华大学出版社官网免费下载。
在写作本书的过程中, 笔者参考了国内外一些经典的多元统计、数据分析、概率统计、测度论、机器学习、矩阵论、泛函分析的教材, 国内的如方开泰教授的经典著作[10], 何晓群教授的经典教材[19], 范金城和梅长林的数据分析教材[21], 王星教授的非参数统计教材[63], 陈希孺教授的概率论与数理统计教材[28], 邓集贤等的概率论与数理统计教材[29], 严家安教授的测度论讲义[33], 方保镕等的矩阵论教材[71], 周志华教授的机器学习经典教材[136],张恭庆和林源渠教授的泛函分析教材[75]。国外的如Anderson的经典多元统计分析著作[12], Johnson 和Wichern的著作[17], Lattin等的多元数据分析教材[18],Krzanowski的多元统计分析原理[138], K.L.Chung(钟开莱)的概率论经典教材[1], Larsen和Marx 的数理统计教材[27], T. Tao(陶哲轩)的测度论教材[32], Golub和Loan的矩阵计算专著[69], Adriaans和 Zantinge的数据挖掘教材[9]。还有其他经典著作, 这里就不一一列举了, 笔者在此对这些教材和著作的作者表示衷心的感谢!
本书的写作得到了国家自然科学基金(项目编号:10701040)和江西财经大学信毅教材基金的资助, 同时得到了江西财经大学信息管理学院的大力支持。 在本书的写作过程中, 齐亚伟院长、韩加林主任、华长生教授给予了笔者鼓励和支持, 并提出了大量的宝贵意见, 助教贺瑾收集和整理了大量的资料和教学材料, 笔者对诸位同仁的无私奉献表示衷心的感谢!
最后, 因笔者学识水平有限, 虽然尽了最大努力, 但书中难免存在错漏, 寄望读者诸君不吝赐教,给予批评指正, 笔者在此表示衷心的感谢!
杨寿渊
江西财经大学
2023年10月
评论
还没有评论。