描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787122435347
本书主要具有以下特色: 1.全彩印刷,全程图解,完 美呈现知识要点与实操步骤,为读者带来良好的学习体验。 2.内容循序渐进,先从Python基础入手,其次介绍常用库,然后通过应用实例和项目实例引导学习,知识结构由浅入深,便于学习。 3.案例丰富实用,全书穿插几十个大小实例,帮助读者边练边学,在实践中快速成长。 4.附赠配套资源,购书即可获赠全程教学视频、源码等资源,并可享受在线技术支持等服务。
本书基于Python语言,结合实际的数据集,介绍了机器学习算法以及数据分析方法的应用。本书主要包含两部分内容,第一部分为Python机器学习入门知识:主要介绍了Python的基础内容、Numpy与Pandas库数据操作、Matplotlib与Seaborn库数据可视化、Sklearn库机器学习,以及与机器学习相关的基础知识;第二部分为Python机器学习算法应用:主要介绍了数据的回归预测分析、时间序列预测,数据无监督学习中的聚类、降维以及关联规则,数据分类模型的应用以及针对文本数据与网络图数据的机器学习算法应用。本书适合对机器学习、数据分析感兴趣的初学者学习,也可作为Python机器学习、数据分析、数据可视化的入门及进阶的教材。
第1章 Python机器学习快速入门 1
1.1 Python安装 1
1.1.1 安装Anaconda 1
1.1.2 安装Python库 5
1.2 Python常用数据类型 5
1.2.1 列表 5
1.2.2 元组 8
1.2.3 字典 9
1.2.4 集合 10
1.2.5 字符串 11
1.3 Python条件、循环与函数 13
1.3.1 条件判断语句 13
1.3.2 循环语句 14
1.3.3 函数 16
1.4 机器学习简介 17
1.4.1 无监督学习 18
1.4.2 有监督学习 20
1.4.3 半监督学习 21
1.4.4 常用机器学习算法 22
1.5 本章小结 22
第2章 Python中的常用库 23
2.1 Numpy库 23
2.1.1 Numpy数组生成 24
2.1.2 Numpy数组运算 27
2.1.3 Numpy数组操作 28
2.1.4 Numpy常用函数 33
2.2 Pandas库 36
2.2.1 Pandas数据生成和读取 37
2.2.2 Pandas数据操作 39
2.2.3 Pandas数据可视化 44
2.3 Matplotlib库 47
2.3.1 Matplotlib可视化基础 47
2.3.2 Matplotlib数据可视化实战 53
2.4 Seaborn库 60
2.4.1 Seaborn库功能简介 60
2.4.2 Seaborn库数据可视化实战 61
2.5 Sklearn库 65
2.5.1 Sklearn库功能简介 65
2.5.2 Sklearn库应用实战 66
2.6 本章小结 70
第3章 机器学习流程 71
3.1 数据预处理与探索 72
3.1.1 缺失值处理 73
3.1.2 数据可视化探索 74
3.1.3 数据标准化与变换 78
3.2 无监督问题应用 81
3.2.1 数据降维 81
3.2.2 数据聚类 84
3.3 有监督分类问题应用 87
3.4 有监督回归问题应用 91
3.5 半监督学习应用 94
3.6 本章小结 96
第4章 模型的选择与评估 98
4.1 模型的选择 98
4.1.1 模型拟合情况 98
4.1.2 避免欠拟合和过拟合的方式 100
4.1.3 模型的方差与偏差 101
4.2 模型训练技巧 101
4.2.1 相关方法 102
4.2.2 实战案例:K折交叉验证 103
4.2.3 实战案例:参数网格搜索 104
4.3 模型评价指标 106
4.3.1 分类效果评价 106
4.3.2 回归效果评价 106
4.3.3 聚类效果评价 107
4.4 本章小结 108
第5章 回归模型 109
5.1 一元线性回归 111
5.1.1 模型介绍 111
5.1.2 实战案例:一元线性回归建模 111
5.2 多元线性回归 116
5.2.1 模型简介 116
5.2.2 实战案例:房屋价格预测 116
5.3 正则化Lasso回归 127
5.3.1 模型简介 127
5.3.2 实战案例:Lasso回归预测房屋价格 128
5.4 时间序列ARIMA模型 133
5.4.1 模型简介 133
5.4.2 实战案例:ARIMA模型预测未来啤酒消耗量 134
5.5 时间序列SARIMA模型 145
5.5.1 模型简介 145
5.5.2 实战案例:SARIMA模型预测未来啤酒消耗量 146
5.6 本章小结 149
第6章 无监督模型 150
6.1 常用降维算法 151
6.1.1 主成分分析 151
6.1.2 因子分析 152
6.1.3 流形学习——等距映射 152
6.1.4 局部线性嵌入LLE 153
6.1.5 多维尺度变换MSD 153
6.1.6 t-SNE 153
6.2 数据降维案例实战 154
6.2.1 主成分分析数据降维 156
6.2.2 因子分析数据降维 159
6.2.3 流形学习——等距嵌入数据降维 160
6.2.4 局部线性嵌入数据降维 161
6.2.5 MDS数据降维 162
6.2.6 t-SNE数据降维 163
6.3 常用聚类算法 164
6.3.1 K均值聚类 165
6.3.2 密度聚类 165
6.3.3 系统聚类 166
6.3.4 模糊聚类 167
6.4 数据聚类案例实战 168
6.4.1 K均值聚类实战 169
6.4.2 密度聚类实战 173
6.4.3 系统聚类实战 175
6.4.4 模糊聚类实战 178
6.5 关联规则挖掘 179
6.5.1 模型简介 180
6.5.2 实战案例:购物篮分析 181
6.6 本章小结 188
第7章 分类模型 189
7.1 决策树算法 193
7.1.1 算法简介 193
7.1.2 实战案例:决策树算法实战 195
7.2 随机森林算法 203
7.2.1 算法介绍 203
7.2.2 实战案例:随机森林算法实战 203
7.3 Logistic回归算法 208
7.3.1 算法简介 208
7.3.2 实战案例:Logistic回归算法实战 209
7.4 支持向量机算法 211
7.4.1 算法简介 211
7.4.2 实战案例:支持向量机算法实战 213
7.5 人工神经网络算法 219
7.5.1 算法简介 219
7.5.2 人工神经网络算法实战 221
7.6 本章小结 225
第8章 高级数据回归算法 226
8.1 高级数据回归算法模型实战 227
8.1.1 数据探索与可视化 227
8.1.2 随机森林回归预测实战 232
8.1.3 GBDT回归预测实战 234
8.1.4 支持向量机回归预测实战 236
8.1.5 人工神经网络回归预测实战 237
8.2 复杂时间序列预测模型 239
8.2.1 Prophet时序回归 239
8.2.2 多元时序回归 240
8.3 时间序列回归模型实战 240
8.3.1 时序数据导入与可视化探索 240
8.3.2 Prophet算法预测用户数量 242
8.3.3 Prophet算法预测流量 245
8.3.4 VAR多变量时间序列的建模与预测 247
8.3.5 VARMA多变量时间序列的建模与预测 250
8.4 本章小结 253
第9章 非结构数据机器学习 254
9.1 非结构数据分析简介 255
9.1.1 文本数据分析简介 255
9.1.2 网络图数据分析简介 256
9.2 文本数据分析实战 257
9.2.1 文本数据预处理 257
9.2.2 文本获取TF-IDF特征 263
9.2.3 文本数据K均值聚类 265
9.2.4 文本数据LDA主题模型 266
9.2.5 文本数据朴素贝叶斯分类 267
9.3 网络图数据分析实战 272
9.3.1 网络图可视化 272
9.3.2 网络图聚类分割 277
9.4 本章小结 281
第10章 综合实战案例:中药材鉴别 282
10.1 无监督学习——鉴别药材种类 284
10.1.1 数据特征可视化探索 285
10.1.2 使用原始特征进行聚类分析 287
10.1.3 使用降维后的特征进行聚类 291
10.2 有监督学习——药材产地鉴别 295
10.2.1 数据特征可视化探索分析 296
10.2.2 利用选择的特征进行分类 297
10.3 半监督学习——药材类别鉴别 303
10.3.1 数据预处理和可视化探索 304
10.3.2 数据主成分分析降维 306
10.3.3 半监督学习分类——标签传播算法 308
10.4 本章小结 311
参考文献 312
机器学习是人工智能的基础与核心,作为一门涉及数学、统计学、计算机科学等多领域的交叉学科,其提供了一种解决复杂问题的新方法,因此广泛应用于人工智能的各个领域。
当前,虽然机器学习的相关资料十分易得,但想要系统全面地入门机器学习,仍不是一件容易的事。对于大部分读者来说,即使学习了相关教程,在面对自己的实际问题时,仍然会感到无从下手、不知所措。另一方面,尽管理解相关算法公式的推导过程很重要,但这一过程却很容易使初学者陷入复杂公式的泥沼,这在打击初学者的自信心的同时也会影响学习效率。针对这些问题,为了满足初学者快速上手机器学习的需求,笔者为初学者编写了这本《Python机器学习:基础、算法与实战》。
本书以“边动手边学习”的方式,用简洁直观、注释细致的代码呈现了机器学习的分析方法与一般流程,尤其针对机器学习相关模型与算法的应用与评估,以一个个基于生活场景的实战案例来进行演示,可以帮助读者更好地理解数据场景,并应用机器学习开展相关工作。本书尽可能避开复杂公式,即使没有Python基础、机器学习基础知识的读者也能看懂本书的内容,对初学者非常友好。此外,本书的代码通过Jupyter Notebook进行演示与分析,可便于读者对程序进行复现、对结果进行分析。
本书共分为10个章节,循序渐进地介绍了Python机器学习的入门基础、算法应用以及实战等内容。各章主要内容如下。
第1章:Python机器学习快速入门。从通过Anaconda安装Python开始,然后介绍Python的基础内容,以及Python中的控制语句与函数等语法的使用,最后简单介绍了与机器学习相关的基础知识,以及机器学习算法的分类与应用场景。
第2章:Python中的常用库。介绍了Python在机器学习应用中非常重要的5个第三方库的使用,分别是:数据操作和处理库(Numpy、Pandas)、数据可视化库(Matplotlib、Seaborn),以及机器学习库Sklearn。
第3章:机器学习流程。以一个种子数据集为例,介绍了不同应用场景下的机器学习过程,分别包括:数据预处理与可视化探索、无监督学习的数据降维与聚类、有监督学习的数据分类与回归,以及半监督学习分类等。
第4章:模型的选择与评估。主要介绍在机器学习过程中,如何判断模型是否过拟合,如何使用交叉验证与参数网格搜索选择合适的模型,以及在分类、回归、聚类应用中的模型效果评价指标的选择。
第5章:回归模型。主要介绍使用Python实现回归模型的建立和应用。例如:建立一元线性回归、多元线性回归、Lasso回归分析等,同时针对时间序列数据介绍了ARIMA模型与SARIMA模型的应用。
第6章:无监督模型。主要介绍数据降维、数据聚类以及关联规则等机器学习算法。与相应的数据集相结合,使用Python实现相关经典算法的应用。
第7章:分类模型。主要介绍几种经典分类算法的应用,使用决策树算法、随机森林、逻辑回归算法进行泰坦尼克号数据分类,使用支持向量机与人工神经网络对手写数字进行识别。
第8章:高级数据回归算法。介绍一些较高级的回归算法应用,例如:随机森林、GBDT、支持向量机、神经网络等算法的回归应用;针对时间序列数据,使用Prophet、VAR、VARMA等算法进行预测。
第9章:非结构数据机器学习。介绍使用Python对文本数据分析与网络图数据进行分析。例如:文本数据特征提取、聚类与分类等,网络图数据可视化与聚类。
第10章:综合实战案例:中药材鉴别。介绍一个真实的数据机器学习应用案例,主要包含无监督学习鉴别药材种类、有监督学习鉴别药材产地、半监督学习鉴别药材种类等内容。
本书在编写时使用相关资源的最新版本,但是由于Python以及相关库的迅速发展,以及作者水平有限,且编写时间仓促,书中难免存在疏漏,敬请读者不吝赐教。也欢迎加入QQ群一起交流,QQ群号:434693903。
编著者
评论
还没有评论。