描述
开 本: 32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111669357丛书名: 智能系统与技术丛书
读者对象:
想要对机器学习进行深入学习的相关人士;想要对概率统计进一步深入系统地学习的学生和业内人士;金融量化等数据分析行业的从业者;理工科专业高年级本科生和研究生。
(1)作者是资深AI技术专家,毕业于清华大学;
(2)内容围绕机器学习核心算法涉及的概率统计知识展开;
(3)加强基础知识与常用算法、应用案例之间的联系;
(4)运用Python工具,做到和工程应用的无缝对接;
(5)精心设计的典型案例,帮助读者高效构建机器学习概率统计理论与实践体系。
本书围绕机器学习算法中涉及的概率统计知识展开介绍,沿着概率思想、变量分布、参数估计、随机过程和统计推断的知识主线进行讲解,结合数学的本质内涵,用浅显易懂的语言讲透深刻的数学思想,帮助读者构建理论体系。同时,作者在讲解的过程中注重应用场景的延伸,并利用Python工具无缝对接工程应用,帮助读者学以致用。
全书共5章。
第1章以条件概率和独立性作为切入点,帮助读者建立认知概率世界的正确视角。
第2章介绍随机变量的基础概念和重要分布类型,并探讨多元随机变量间的重要关系。
第3章介绍极限思维以及蒙特卡罗方法,并重点分析极大似然估计方法以及有偏无偏等重要性质,*后拓展到含有隐变量的参数估计问题,介绍EM算法的原理及其应用。
第4章由静态的随机变量过渡到动态的随机过程,重点介绍马尔可夫过程和隐马尔可夫模型。
第5章聚焦马尔可夫链-蒙特卡罗方法,并列举实例展示Metropolis-Hastings和Gibbs的具体采样过程。
序
前言
第1章 概率思想:构建理论基础 1
1.1 理论基石:条件概率、独立性与贝叶斯 1
1.1.1 从概率到条件概率 1
1.1.2 条件概率的具体描述 2
1.1.3 条件概率的表达式分析 3
1.1.4 两个事件的独立性 4
1.1.5 从条件概率到全概率公式 5
1.1.6 聚焦贝叶斯公式 6
1.1.7 本质内涵:由因到果,由果推因 7
1.2 事件的关系:深入理解独立性 8
1.2.1 重新梳理两个事件的独立性 8
1.2.2 不相容与独立性 8
1.2.3 条件独立 9
1.2.4 独立与条件独立 11
1.2.5 独立重复实验 11
第2章 变量分布:描述随机世界 13
2.1 离散型随机变量:分布与数字特征 13
2.1.1 从事件到随机变量 13
2.1.2 离散型随机变量及其要素 14
2.1.3 离散型随机变量的分布列 15
2.1.4 分布列和概率质量函数 16
2.1.5 二项分布及二项随机变量 17
2.1.6 几何分布及几何随机变量 21
2.1.7 泊松分布及泊松随机变量 24
2.2 连续型随机变量:分布与数字特征 27
2.2.1 概率密度函数 27
2.2.2 连续型随机变量区间概率的计算 29
2.2.3 连续型随机变量的期望与方差 29
2.2.4 正态分布及正态随机变量 30
2.2.5 指数分布及指数随机变量 33
2.2.6 均匀分布及其随机变量 35
2.3 多元随机变量(上):联合、边缘与条件 38
2.3.1 实验中引入多个随机变量 38
2.3.2 联合分布列 38
2.3.3 边缘分布列 39
2.3.4 条件分布列 40
2.3.5 集中梳理核心的概率理论 44
2.4 多元随机变量(下):独立与相关 46
2.4.1 随机变量与事件的独立性 46
2.4.2 随机变量之间的独立性 47
2.4.3 独立性示例 48
2.4.4 条件独立的概念 48
2.4.5 独立随机变量的期望和方差 50
2.4.6 随机变量的相关性分析及量化方法 52
2.4.7 协方差及协方差矩阵 52
2.4.8 相关系数的概念 54
2.5 多元随机变量实践:聚焦多元正态分布 55
2.5.1 再谈相关性:基于二元标准正态分布 55
2.5.2 二元一般正态分布 57
2.5.3 聚焦相关系数 60
2.5.4 独立和相关性的关系 64
2.6 多元高斯分布:参数特征和几何意义 66
2.6.1 从一元分布到多元分布 66
2.6.2 多元高斯分布的参数形式 67
2.6.3 二元高斯分布的具体示例 68
2.6.4 多元高斯分布的几何特征 71
2.6.5 二元高斯分布几何特征实例分析 74
第3章 参数估计:探寻最大可能 77
3.1 极限思维:大数定律与中心极限定理 77
3.1.1 一个背景话题 77
3.1.2 大数定律 78
3.1.3 大数定律的模拟 80
3.1.4 中心极限定理 83
3.1.5 中心极限定理的工程意义 84
3.1.6 中心极限定理的模拟 85
3.1.7 大数定律的应用:蒙特卡罗方法 86
3.2 推断未知:统计推断的基本框架 89
3.2.1 进入统计学 89
3.2.2 统计推断的例子 90
3.2.3 统计推断中的一些重要概念 91
3.2.4 估计量的偏差与无偏估计 92
3.2.5 总体均值的估计 93
3.2.6 总体方差的估计 95
3.3 极大似然估计 100
3.3.1 极大似然估计法的引例 100
3.3.2 似然函数的由来 102
3.3.3 极大似然估计的思想 103
3.3.4 极大似然估计值的计算 105
3.3.5 简单极大似然估计案例 106
3.3.6 高斯分布参数的极大似然估计 107
3.4 含有隐变量的参数估计问题 110
3.4.1 参数估计问题的回顾 110
3.4.2 新情况:场景中含有隐变量 111
3.4.3 迭代法:解决含有隐变量情形的抛硬币问题 112
3.4.4 代码实验 115
3.5 概率渐增:EM算法的合理性 118
3.5.1 EM算法的背景介绍 119
3.5.2 先抛出EM算法的迭代公式 119
3.5.3 EM算法为什么是有效的 120
3.6 探索EM公式的底层逻辑与由来 123
3.6.1 EM公式中的E步和M步 124
3.6.2 剖析EM算法的由来 124
3.7 探索高斯混合模型:EM 迭代实践 127
3.7.1 高斯混合模型的引入 128
3.7.2 从混合模型的角度看内部机理 129
3.7.3 高斯混合模型的参数估计 131
3.8 高斯混合模型的参数求解 132
3.8.1 利用 EM 迭代模型参数的思路 132
3.8.2 参数估计示例 136
3.8.3 高斯混合模型的应用场景 139
第4章 随机过程:聚焦动态特征 145
4.1 由静向动:随机过程导引 145
4.1.1 随机过程场景举例1:博彩 146
4.1.2 随机过程场景举例2:股价的变化 150
4.1.3 随机过程场景举例3:股价变化过程的展现 152
4.1.4 两类重要的随机过程概述 154
4.2 状态转移:初识马尔可夫链 155
4.2.1 马尔可夫链三要素 155
4.2.2 马尔可夫性:灵魂特征 156
4.2.3 转移概率和状态转移矩阵 157
4.2.4 马尔可夫链性质的总结 158
4.2.5 一步到达与多步转移的含义 159
4.2.6 多步转移与矩阵乘法 160
4.2.7 路径概率问题 163
4.3 变与不变:马尔可夫链的极限与稳态 164
4.3.1 极限与初始状态无关的情况 164
4.3.2 极限依赖于初始状态的情况 165
4.3.3 吸收态与收敛分析 167
4.3.4 可达与常返 168
4.3.5 周期性问题 171
4.3.6 马尔可夫链的稳态分析和判定 172
4.3.7 稳态的求法 174
4.4 隐马尔可夫模型:明暗两条线 176
4.4.1 从马尔可夫链到隐马尔可夫模型 176
4.4.2 典型实例1:盒子摸球实验 177
4.4.3 典型实例2:小宝宝的日常生活 180
4.4.4 隐马尔可夫模型的外在表征 181
4.4.5 推动模型运行的内核三要素 182
4.4.6 关键性质:齐次马尔可夫性和观测独立性 183
4.5 概率估计:隐马尔可夫模型观测序列描述 183
4.5.1 隐马尔可夫模型的研究内容 183
4.5.2 模型研究问题的描述 185
4.5.3 一个直观的思路 186
4.5.4 更优的方法:前向概率算法 187
4.5.5 概率估计实践 190
4.5.6 代码实践 192
4.6 状态解码:隐马尔可夫模型隐状态揭秘 194
4.6.1 隐状态解码问题的描述 194
4.6.2 最大路径概率与维特比算法 195
4.6.3 应用维特比算法进行解码 197
4.6.4 维特比算法的案例实践 199
4.6.5 代码实践 202
4.7 连续域上的无限维:高斯过程 204
4.7.1 高斯过程的一个实际例子 205
4.7.2 高斯过程的核心要素和严谨描述 206
4.7.3 径向基函数的代码演示 207
4.7.4 高斯过程回归原理详解 208
4.7.5 高斯过程回归代码演示 210
第5章 统计推断:贯穿近似策略 215
5.1 统计推断的基本思想和分类 215
5.1.1 统计推断的根源和场景 215
5.1.2 后验分布:推断过程的关注重点 216
5.1.3 精确推断和近似推断 216
5.1.4 确定性近似:变分推断概述 217
5.2 随机近似方法 219
5.2.1 蒙特卡罗方法的理论支撑 219
5.2.2 随机近似的核心:蒙特卡罗 220
5.2.3 接受-拒绝采样的问题背景 221
5.2.4 接受-拒绝采样的方法和步骤 221
5.2.5 接受-拒绝采样的实践 222
5.2.6 接受-拒绝采样方法背后的内涵挖掘 225
5.2.7 重要性采样 226
5.2.8 两种采样方法的问题及思考 227
5.3 采样绝佳途径:借助马尔可夫链的稳态性质 228
5.3.1 马尔可夫链回顾 228
5.3.2 核心:马尔可夫链的平稳分布 229
5.3.3 马尔可夫链进入稳态的转移过程 231
5.3.4 稳态及转移过程演示 231
5.3.5 马尔可夫链稳态的价值和意义 235
5.3.6 基于马尔可夫链进行采样的原理分析 236
5.3.7 采样过程实践与分析 238
5.3.8 一个显而易见的问题和难点 242
5.4 马尔可夫链-蒙特卡罗方法详解 242
5.4.1 稳态判定:细致平稳条件 243
5.4.2 Metropolis-Hastings采样方法的原理 244
5.4.3 如何理解随机游走叠加接受概率 245
5.4.4 如何实现随机游走叠加接受概率 247
5.4.5 建议转移概率矩阵Q的设计 247
5.4.6 Metropolis-Hastings方法的步骤和代码演示 251
5.5 Gibbs采样方法简介 253
5.5.1 Gibbs方法核心流程 253
5.5.2 Gibbs采样的合理性 255
5.5.3 Gibbs采样代码实验 256
如今,机器学习、人工智能领域广阔的发展前景吸引了许多优秀学子投身其中。大家在学习过程中经常会感到学习曲线陡峭、学习难度大,这主要是因为机器学习需要以大量的数学知识为基础,尤其是概率统计、线性代数和最优化等知识。
概率统计本质上是利用数据发现规律、推测未知,而“发现规律、推测未知”正是机器学习的目标。机器学习中的核心算法大多构筑在统计思维方法之上,因此概率统计的地位不言而喻,只有透彻领悟其中的核心思想,才能让其成为破解机器学习难题的有力武器。
那么,机器学习的哪些应用场景体现了概率统计的思想方法呢?
1)想要快速准确地对问题场景进行建模,就必须对一元乃至多元随机变量的各种常用分布类型了然于胸。
2)面对一组统计样本,想要估计出某些参数,极大似然估计以及有偏性无偏性是必须掌握的,如果不巧碰上包含隐变量的场景,就必须具备EM迭代的思想。
3)想过滤垃圾邮件,不具备概率论中的贝叶斯思维恐怕不行。
4)想试着进行一段语音识别,就必须要理解随机过程中的隐马尔可夫模型。
5)如果对马尔可夫链、蒙特卡罗方法等近似推断一无所知,在进行贝叶斯推断的时候,可能一个复杂的概率分布就让你举步维艰。
6)进行样本分类、聚类这些常规操作时,逻辑回归、高斯判别、高斯混合等各种模型都应该如数家珍。
当然,概率统计的应用远不止这些。
想要解决机器学习中这些常见的问题场景,必须牢固掌握概率统计的核心概念和思想方法,而这也正是本书的写作目的。
读者对象
* 想要对机器学习进行深入学习的相关人士。
* 想要对概率统计进一步深入系统地学习的学生和业内人士。
* 金融量化等数据分析行业的从业者。
* 理工科专业高年级本科生和研究生。
本书特色
在大学阶段,我们都学过概率统计,为什么在机器学习中运用这部分知识时,却觉得难度陡增?我认为有以下几点原因,相信你也感同身受。
第一,大学概率统计课程并没有完全覆盖机器学习领域所需要的知识点。机器学习的数学基础萌发于高等数学、线性代数和概率统计,但绝不等同于大学本科的教学内容。回想一下:大学概率统计课程包含了哪些内容?事件的概率、随机变量及其分布、数字特征、参数估计与假设检验,差不多就这些,很重要也很核心,但对于机器学习来说远远不够。事实上,我们还需要补充随机过程、随机理论、蒙特卡罗思想、采样方法和概率图等一些重要的基础知识,这样才能构建相对完整的知识结构。
第二,大学概率统计的学习重计算技巧,轻内在逻辑。大家一定还记得,我们在学习概率统计的时候,首先罗列多种分布,然后计算期望、计算方差、计算事件概率。这样的过程使数学变成了算术,只是在不停地重复计算机程序一秒钟就能做好的事情,而缺乏对知识背后内在逻辑和应用方法的理解。
第三,虽然我们在大学学习了概率统计这门课程,却不知道学了之后能干什么。几十年不变的教学内容没能深刻挖掘学科与当下前沿技术的交汇点,使得我们常常有这样的困惑:这门课学了之后有什么用?于是在学完之后,很快就还给老师了。大学开设这门课的目的是传授概率统计的基础理论,并不是为大家打牢机器学习的数学基础。因此,如果我们不能分清重点、强化重点内容的学习,自然会不明所以。
本书将在传统教材的薄弱环节做出突破,设计一条有针对性的学习路径。
首先,紧紧围绕机器学习核心算法涉及的概率统计知识展开介绍。我们将沿着概率思想、变量分布、参数估计、随机过程和统计推断这一条知识主线进行讲解,结合数学的本质,用浅显易懂的语言讲透深刻的数学思想,构建完整的理论体系。
然后,加强基础知识与常用算法、应用案例之间的联系。在讲解概率统计内容的时候会注重延伸到后续的算法应用场景,将其进行相互关联,形成学以致用的实践导向。
同时,运用Python工具,做到和工程应用的无缝对接。这也是与其他同类书籍相比极具特色的地方,本书将以Python语言为工具进行教学内容的实践,利用NumPy、SciPy、Matplotlib、Pandas等工具强化知识理解,提升工作效率。
另外,本书还十分重视写作技巧。深入浅出的技巧讲解和逻辑严密的行文,将为你充满挑战的学习之旅助一臂之力。
如何阅读本书
接下来,让我们一起看看本书的内容安排。
第1章,概率思想:构建理论基础。作为全书的开篇,以条件概率和独立性作为切入点,帮助读者迅速建立认知概率世界的正确视角,加深对概率统计中最重要的概念的理解。
第2章,变量分布:描述随机世界。分别介绍离散型随机变量和连续型随机变量的基础概念和重要分布类型,并从一元随机变量过渡到多元随机变量,重点探讨随机变量间的联合概率、边缘概率、条件概率以及独立性与相关性等重要关系。
第3章,参数估计:探寻最大可能。以大数定律和中心极限定理为切入点,介绍概率统计中的极限思维以及经典工具蒙特卡罗方法,并重点分析极大似然估计方法以及有偏无偏等重要性质,最后拓展到含有隐变量的参数估计问题,介绍EM算法的原理及其应用。
第4章,随机过程:聚焦动态特征。由静态的随机变量过渡到动态的随机过程,在展现随机过程的基本形态之后,重点介绍马尔可夫过程,聚焦基本要素、概率计算以及极限稳态性质,并向马尔可夫过程中引入隐状态,带领读者熟悉和掌握概率图的典型案例:隐马尔可夫模型。
第5章,统计推断:贯穿近似策略。重点围绕随机近似方法展开讲解,并再一次引入蒙特卡罗方法,细致分析接受-拒绝采样的基本原理和方法步骤,同时借助马尔可夫链的稳态性质阐述一种基于马尔可夫链随机游走的采样策略,最终聚焦马尔可夫链-蒙特卡罗方法,并列举实例展示Metropolis-Hastings和Gibbs的具体采样过程。
如果你想掌握机器学习的概率统计核心知识,那就翻开新章节,让我们一起出发吧!
勘误和支持
由于作者的水平有限,写作时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。欢迎通过电子邮件[email protected]或微信zhangyumeng0422与作者沟通联系,期待能够得到你们的反馈。
致谢
感谢机械工业出版社华章公司的杨福川编辑,在这半年的时间里始终支持我写作,他的鼓励和帮助引导着我顺利完成全部书稿。
感谢我的父母和妻子,在2020年突如其来的新冠肺炎疫情中,他们让我感受到了亲情的温暖,有了战胜困难的信念。
谨以此书献给我最亲爱的家人,献给众多在人工智能道路上共同携手努力的朋友们,献给注定不平凡的2020年。
张雨萌
2020年初夏于湖北武汉
如今人工智能大热,机器学习吸引了无数学者,可其中复杂枯燥的数学理论往往让很多数学基础薄弱的学者迷失方向。这是一本非常适合初学者的好书,作者用生动的语言和清晰的逻辑带领读者从基础的数学理论出发,逐步深入机器学习的实际应用中。Python的代码演示让读者不仅能亲身体验机器学习的魅力,更能从实践中获取实用的技能。
——英国医疗研究协会分子生物学实验室研究员 杨心怡
在人工智能的浪潮中,国内外量化金融领域的发展日趋成熟,程序化交易比例在市场交易量的占比逐年增高。与此同时,包括摩根士丹利、高盛、摩根大通等投行和投资机构都开始布局和转型人工智能,大批交易员和分析师被自动算法取代。每一个立志成为量化分析师的金融从业人员,都面临着数学基础和编程能力两座大山。本书作者以Python为工具,深入浅出地讲解了概率统计在机器学习中的运用,生动直观,值得一读。
——长城证券投资银行部业务董事 柏路
伴随着机器学习理论的不断演进,一大批基于机器学习理论的人工智能应用在多个领域不断落地,极大地推动了人工智能技术的发展。当前,掌握机器学习的相关技术,点亮机器学习的技能点,成为广大从业人员实现职业晋升的高端武器。众所周知,机器学习理论的发展正是得益于线性代数、概率统计等数学工具的支撑。基于这一点,作者围绕机器学习理论背后的概率统计知识,由浅入深,从概率思想、参数估计、随机过程等多个方面进行介绍,并通过Python代码助力读者掌握机器学习的要领。
——中国农业银行总行研发中心 高级工程师 高山
评论
还没有评论。