描述
开 本: 128开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121447891丛书名: 人工智能应用与实战系列
市面上讲解人工智能的书比较多,但要么是偏重理论的讲解,要么是非常深涩的代码,对于计算机基础较差的学员来说,学习成本很高或者学了无益,付出了大量时间,但达不到岗位要求。“人工智能应用与实践系列”图书开创性地使用了新的教学方法,通过大量由浅入深、环环相扣的实践案例,能够帮助学员迅速理解人工智能的应用,快速掌握工作技能。此外本书还配有超值的800分钟以上的视频课程,帮助基础稍弱或者0基础的学员迅速提升。
本书系统介绍了机器学习常用算法及其应用,在深入分析算法原理的基础上,结合当前热门应用场景,向读者展现了机器学习算法的综合应用,带领读者进入机器学习领域,开启人工智能行业的大门。 全书共 21 章,分为 3 部分。第 1 部分介绍机器学习基础算法,包括线性回归、多项式回归、逻辑回归、k-NN、决策树、k-Means、SVM、随机森林、朴素贝叶斯、PCA 降维等,针对每个算法给出应用案例,让读者既掌握算法原理,又能够使用算法解决问题。第 2 部分是机器学习基础算法综合应用,通过学生分数预测、自闭症患者预测、淘宝用户价值分析、耳机评论情感预测几个案例提升读者对机器学习算法的应用能力。第 3 部分是机器学习进阶算法与应用,介绍逻辑更为复杂的机器学习算法,如改进的聚类算法、HMM算法、Boosting 算法等,并给出相应案例,此外,还展示了多个算法综合应用项目。 本书适合对机器学习、人工智能感兴趣的读者阅读,也可以作为应用型大学和高等职业院校人工智能相关专业的教材。本书可以帮助有一定基础的读者查漏补缺,使其深入理解和掌握相关原理与方法,提高其解决实际问题的能力。
目 录
第 1 部分 机器学习基础算法
第 1 章 基于线性回归的销售量预测 2
1.1 机器学习概述 2
1.2 线性回归 4
1.2.1 回归的概念 4
1.2.2 线性回归模型 4
1.3 梯度下降算法 7
1.4 线性回归模型的构建 8
1.4.1 线性回归模型构建的一般步骤 8
1.4.2 线性回归模型的评估方法与度量指标 9
1.5 案例实现——基于线性回归的销售量预测 9
本章总结 13
作业与练习 14
第 2 章 非线性数据的多项式回归 15
2.1 多项式回归 16
2.1.1 多项式回归的概念 16
2.1.2 0-1 标准化 16
2.1.3 Z-Score 标准化 18
2.1.4 特征拓展 19
2.2 模型训练问题与解决方法 22
2.2.1 欠拟合与过拟合 22
2.2.2 正则化方法 23
2.3 案例实现——非线性数据的
多项式回归 24
本章总结 31
作业与练习 31
第 3 章 基于逻辑回归算法的 乳腺癌患病预测 33
3.1 逻辑回归算法 33
3.1.1 逻辑回归算法概述 33
3.1.2 概率估算 34
3.1.3 损失函数 35
3.2 分类数据的预处理 36
3.2.1 欠采样与过采样 36
3.2.2 数据的标签化 37
3.2.3 数据的独热编码 38
3.3 模型的性能评估 40
3.3.1 数值型模型评估方法 40
3.3.2 几何型模型评估方法 42
3.4 案例实现——基于逻辑回归算法的乳腺癌患病预测 44
本章总结 48
作业与练习 49
第 4 章 基于 k-NN 算法的分类 50
4.1 k-NN 算法 51
4.1.1 k-NN 算法概述 51
4.1.2 样本距离的度量 51
4.1.3 k-NN 算法的工作原理 51
4.1.4 k-NN 算法的三个要素 53
4.2 k-NN 算法加速思路 54
4.3 案例实现 55
4.3.1 案例 1——基于 k-NN 算法的电影分类 55
4.3.2 案例 2——基于 k-NN 算法的鸢尾花数据集分类 58
本章总结 61
作业与练习 61
第 5 章 基于决策树算法的回归预测与 分类 62
5.1 决策树的介绍 62
5.2 决策树的构建 65
5.2.1 特征选择 65
5.2.2 决策树的构建过程 67
5.2.3 决策树剪枝 69
5.2.4 连续特征的处理方法 70
5.3 决策树可视化 70
5.4 案例实现 71
5.4.1 案例 1——基于决策树算法的商品销售量回归预测 71
5.4.2 案例 2——基于决策树算法的鸢尾花数据集分类 73
本章总结 76
作业与练习 76
第 6 章 基于 k-Means 算法的聚类 78
6.1 k-Means 算法 79
6.1.1 k-Means 算法概述 79
6.1.2 k-Means 算法的工作原理 79
6.1.3 k-Means 算法的流程 80
6.2 最佳 k 值的确定方法 80
6.2.1 手肘法 81
6.2.2 轮廓系数法 81
6.3 k-Means 算法的改进 82
6.3.1 k-Means 算法 83
6.3.2 k-MeansⅡ算法 83
6.3.3 Mini-Batch k-Means算法 83
6.4 案例实现 84
6.4.1 案例 1——基于手肘法使用 k-Means 算法的饮料聚类 84
6.4.2 案例 2——基于轮廓系数法使用 k-Means 算法的饮料聚类 87
本章总结 89
作业与练习 90
第 7 章 基于 SVM 算法的分类与 回归预测 91
7.1 SVM 算法概述 91
7.2 SVM 算法的工作原理 92
7.2.1 硬间隔 SVM 算法 92
7.2.2 软间隔 SVM 算法 95
7.3 核函数 95
7.4 SVM 回归 97
7.5 案例实现 97
7.5.1 案例 1——基于 SVM 算法的鸢尾花数据集分类 97
7.5.2 案例 2——基于 SVM 算法的数据回归分析 100
本章总结 104
作业与练习 104
第 8 章 随机森林揭秘 105
8.1 集成学习概述 105
8.2 集成学习的实现方式 107
8.2.1 Bagging 算法 107
8.2.2 Boosting 算法 107
8.3 集成学习的组合策略 108
8.3.1 平均法 108
8.3.2 投票法 108
8.3.3 学习法 109
8.4 随机森林 109
8.4.1 随机森林概述 109
8.4.2 随机森林特征选择 110
8.4.3 OOB 处理方式 110
8.5 案例实现 111
8.5.1 案例 1——使用随机森林进行森林植被类型的预测 111
8.5.2 案例 2——使用随机森林进行共享单车每小时租用量的预测 113
本章总结 115
作业与练习 115
第 9 章 基于朴素贝叶斯算法的中文预测 116
9.1 贝叶斯算法 117
9.1.1 数学基础回顾 117
9.1.2 贝叶斯公式 118
9.2 朴素贝叶斯算法 119
9.2.1 朴素贝叶斯算法的由来 119
9.2.2 拉普拉斯平滑 120
9.3 朴素贝叶斯算法家族 121
9.3.1 高斯朴素贝叶斯算法 121
9.3.2 多项式朴素贝叶斯算法 122
9.4 中文文本预测 123
9.4.1 词频处理 123
9.4.2 jieba 分词器 125
9.5 案例实现——基于朴素贝叶斯算法的中文预测 126
本章总结 129
作业与练习 129
第 10 章 基于 PCA 降维的图片重构 131
10.1 降维 131
10.1.1 降维的作用 131
10.1.2 降维的理解 132
10.2 SVD 算法解析 133
10.2.1 特征值分解 133
10.2.2 奇异值分解 133
10.2.3 降维可视化效果 134
10.2.4 降维在图片压缩中的应用 136
10.3 PCA 降维 138
10.3.1 PCA 降维的工作原理 138
10.3.2 使用 PCA 底层算法实现图片重构的流程 139
10.4 案例实现——基于 PCA 降维的图片重构 139
本章总结 143
作业与练习 143
第 2 部分 机器学习基础算法综合应用
第 11 章 学生分数预测 146
11.1 数据集分析 146
11.2 案例实现——学生分数预测 147
本章总结 161
作业与练习 161
第 12 章 自闭症患者预测 163
12.1 数据集分析 163
12.2 案例实现——自闭症患者预测164
本章总结 175
作业与练习 175
第 13 章 淘宝用户价值分析 176
13.1 数据集分析 176
13.2 RFM 模型 177
13.3 雷达图 178
13.4 案例实现——淘宝用户价值分析 178
本章总结 191
作业与练习 191
第 14 章 耳机评论情感预测 192
14.1 数据集分析 192
14.2 案例实现——耳机评论情感预测 193
本章总结 200
作业与练习 200
第 3 部分 机器学习进阶算法与应用
第 15 章 聚类算法综合 202
15.1 DBSCAN 算法 203
15.1.1 k-Means 算法的缺陷 203
15.1.2 DBSCAN 算法分析 203
15.1.3 案例实现——验证 k-Means 算法和 DBSCAN
算法的特点和区别 205
15.2 层次聚类算法 208
15.2.1 算法分析 208
15.2.2 案例实现——基于凝聚的层次聚类算法的数据
聚类 210
15.3 GMM 算法 213
15.3.1 算法分析 213
15.3.2 案例实现——基于 GMM算法的性别预测 214
本章总结 218
作业与练习 218
第 16 章 基于 HMM 算法的股票 行情预测 220
16.1 HMM 算法的工作原理 220
16.2 案例实现——基于 HMM 算法的股票行情预测 222
本章总结 226
作业与练习 226
第 17 章 Boosting 算法综合 228
17.1 Boosting 算法的工作原理简介 228
17.2 AdaBoost 算法 229
17.2.1 算法概述 229
17.2.2 分类算法分析 230
17.2.3 回归算法分析 231
17.2.4 案例实现——基于 AdaBoost 算法的病马治愈预测 232
17.3 GBDT 算法 235
17.3.1 算法概述 235
17.3.2 衰减 235
17.3.3 算法分析 236
17.3.4 案例实现——基于 GBDT算法的数字手写体识别 237
17.4 XGBoost 算法 239
17.4.1 算法概述 239
17.4.2 XGBoost 算法库的安装 240
17.4.3 案例实现——基于 XGBoost 算法的数字手写体识别 241
本章总结 244
作业与练习 244
第 18 章 饭店销售量预测 245
18.1 数据集分析 245
18.2 异常值处理 246
18.3 多字段分析的含义与作用 247
18.4 案例实现——饭店销售量预测 248
本章总结 259
作业与练习 260
第 19 章 信贷违约预测 261
19.1 数据集分析 261
19.2 案例实现——信贷违约预测 262
本章总结 270
作业与练习 270
第 20 章 胎儿健康分类预测 271
20.1 数据集分析 271
20.2 案例实现——胎儿健康分类预测 272
本章总结 286
作业与练习 287
第 21 章 淘宝用户画像处理 288
21.1 数据集分析 288
21.2 用户画像 289
21.2.1 用户画像概述 289
21.2.2 用户画像所需数据 290
21.3 案例实现——淘宝用户画像处理 290
本章总结 305
作业与练习 306
前 言
数据信息是人类学习和知识传承的主要手段,从最早结绳计数,到现在各种数据库的应用,人类通过分析数据信息,可以归纳总结其中的规律,后续再遇到类似问题时,可以通过已经掌握的规律来解决问题、提升效率。古人可以通过观察一年内气温、湿度、光照等天气数据信息,归纳出二十四节气,用于指导农事,提升粮食生产效率。
随着信息时代的到来,各领域获取的数据信息也呈现指数爆炸的增长态势,在庞大的数据应用场景下,使用人类自身力量寻找数据规律已经很难实现。计算机作为服务人类的算力工具,被广泛应用到数据信息的分析和规律总结之中,由于各行业有不同的应用场景和需求,使用的算法处理方式(规律)也不尽相同,最终发展出计算机科学人工智能领域的一个重要分支——机器学习。
如今,机器学习已经有了成熟的体系,而且机器学习技术不断与商业、医疗、农业等领域进行融合,形成新的研究分支。我们平时常用的信用卡额度申请、购物平台中的好物推荐、考勤所用的人脸打卡系统,都是以机器学习技术为核心的重要应用。同时,随着大数据、云计算的蓬勃发展,机器学习迎来黄金时代,越来越多的机器学习技术在各领域中得到应用并体现出巨大价值。
? 推荐系统:购物平台通过分析用户平时的浏览、购买等习惯,总结出用户喜好的商品类型,将商品推荐给用户,提升平台的商品交易量。
? 信誉风险评估:信贷平台通过分析用户过往的消费能力、信用记录及家庭情况等,推理出用户的贷款偿还能力,选择合理额度进行借贷。
? 用户画像分析:购物平台通过分析用户的消费能力、频数等数据信息,了解用户的实际情况,从而使用不同的营销策略挽回用户、提升用户忠诚度。
随着数据信息数量的增加,国内外对于机器学习应用型人才的缺口也逐年增大。究其原因,一方面,近几年各行业对机器学习领域人才的需求快速增加;另一方面,机器学习技术是综合性学科,涉及高等数学、概率论、信息学、计算机科学等众多学科,因此其入门门槛较高,想要学习机器学习技术的人需要首先掌握人工智能相关的多种理论基础和模型算法,导致很多人在复杂的数学公式推导面前望而却步。市面上,大多数机器学习方面的书籍更注重对理论基础的讲解,案例方面的书籍相对较少,读者往往只能够大概了解算法的原理,但是对实际应用场景和应用方式并不了解。为此,达内时代科技集团有限公司将以往与机器学习相关的项目经验、产品应用和技术知识整理成册,通过本书来总结和分享机器学习领域的实践成果。我们衷心希望本书能为读者开启机器学习技术之门!
本书内容
本书围绕机器学习的基础算法(线性回归、逻辑回归、SVM、朴素贝叶斯、决策树等)、预处理操作(特征缩放、独热编码、词频处理等)、模型评估方式(数据切分、评估指标选择)和超参数调优(网格搜索交叉验证)等内容进行讲解,理论联系实际,采用大量丰富案例,力求深入浅出,帮助读者快速理解机器学习相关模型和算法的基本原理与关键技术。因此,本书既适合应用型大学和高等职业院校的学生学习使用,又适合不同行业的机器学习、人工智能爱好者阅读。本书在内容编排上,每章都具备一定的独立性,读者可以根据自身情况进行选择性阅读;各部分之间循序渐进,形成有机整体,使全书内容不失系统性与完整性。本书包含以下 3 部分。
? 第 1 部分(第 1~10 章):机器学习基础算法。该部分首先介绍机器学习的相关概念和基本技能,然后介绍基础的数据预处理操作,最后介绍模型评估调优的操作方式,内容包括线性回归、多项式回归、逻辑回归、k-NN、决策树、k-Means、SVM、随机森林、朴素贝叶斯、PCA 降维算法。
? 第 2 部分(第 11~14 章):机器学习基础算法综合应用。该部分对不同应用类型的数据集进行案例分析、字段筛选、数据预处理、模型选择及调参处理,最终给出最优模型效果。通过学生分数预测、自闭症患者预测、淘宝用户价值分析、耳机评论情感预测几个案例提升读者对机器学习算法的应用能力。
? 第 3 部分(第 15~21 章):机器学习进阶算法与应用。该部分介绍常见的聚类算法、HMM算法及 Boosting 算法,对复杂数据集进行处理,并且对数据字段进行更精确的数据分析,找出字段和标签间潜在的关联性;使用更高效的模型算法,提升模型的精确度。
书中理论知识与实践的重点和难点部分均采用微视频的方式进行讲解,读者可以通过扫描每章中的二维码观看视频、查看作业与练习的答案。
另外,更多的视频等数字化教学资源及最新动态,读者可以关注微信公众号,或者添加小书童获取资料与答疑等服务。
高慧强学 AI 研究院微信公众号 高慧强学微信公众号 达内教育研究院 小书童
致谢
本书是达内时代科技集团人工智能研究院团队通力合作的成果。全书由韩少云、冯华、刁景涛策划、组织并统稿,参与本书编写工作的有达内集团及院校的各位老师,他们为相关章节材料的组织与选编做了大量细致的工作,在此对各位编者的辛勤付出表示由衷的感谢!
感谢电子工业出版社的老师们对本书的重视,他们一丝不苟的工作态度保证了本书的质量。
为读者呈现准确、翔实的内容是编者的初衷,但由于编者水平有限,书中难免存在不足之处,敬请专家和读者批评、指正。
编 者
2023 年 2 月
评论
还没有评论。