描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302664093丛书名: 清华科技大讲堂
理论与实践相结合,全面、系统地介绍机器学习算法的理论细节与应用方法
包括逻辑回归与最大熵模型、k-近邻模型、决策树模型、朴素贝叶斯模型、支持向量机模型、集成学习框架、EM算法、降维算法、聚类算法、神经网络模型等基础模型或算法
8个综合项目实战阐述机器学习算法在生产生活中的应用
本书以机器学习算法为主题,详细介绍算法的理论细节与应用方法。全书共19章,分别介绍了逻辑回归及最大熵模型、k近邻模型、决策树模型、朴素贝叶斯分类器模型、支持向量机模型、集成学习框架、EM算法、降维算法、聚类算法、神经网络模型等基础模型或算法,以及8个综合项目实例。本书重视理论与实践相结合,希望为读者提供全面而细致的学习指导。
本书适合机器学习初学者、相关行业从业人员以及高等院校计算机科学与技术、软件工程等相关专业的师生阅读。
随书资源
第1章机器学习概述
1.1机器学习的组成
1.2分类问题及回归问题
1.3监督学习、半监督学习和无监督学习
1.4生成模型及判别模型
1.5模型评估
1.5.1训练误差及泛化误差
1.5.2过拟合及欠拟合
1.6正则化
1.7Scikitlearn模块
1.7.1数据集
1.7.2模型选择
习题1
第2章逻辑回归及最大熵模型
2.1线性回归
2.1.1一元线性回归
2.1.2多元线性回归
2.2广义线性回归
2.2.1逻辑回归
2.2.2多分类逻辑回归
2.2.3交叉熵损失函数
2.3最大熵模型
2.3.1最大熵模型的导出
2.3.2最大熵模型与逻辑回归之间的关系
2.4评价指标
2.4.1混淆矩阵
2.4.2准确率
2.4.3精确率与召回率
2.4.4PR曲线
2.4.5ROC曲线
2.5实例: 基于逻辑回归实现乳腺癌预测
习题2
第3章k近邻算法
3.1k值的选取
3.2距离的度量
3.3快速检索
3.4实例: 基于k近邻算法实现鸢尾花分类
习题3
第4章决策树
4.1特征选择
4.1.1信息增益
4.1.2信息增益比
4.2决策树生成算法CART
4.3决策树剪枝
4.3.1预剪枝
4.3.2后剪枝
4.4实例: 基于决策树实现葡萄酒分类
习题4
第5章朴素贝叶斯分类器
5.1极大似然估计
5.2朴素贝叶斯分类
5.3拉普拉斯平滑
5.4朴素贝叶斯分类器的极大似然估计解释
5.5实例: 基于朴素贝叶斯实现垃圾短信分类
习题5
第6章支持向量机
6.1最大间隔及超平面
6.2线性可分支持向量机
6.3线性支持向量机
6.4合页损失函数
6.5核技巧
6.6二分类问题与多分类问题
6.6.1一对一
6.6.2一对多
6.6.3多对多
6.7实例: 基于支持向量机实现葡萄酒分类
习题6
第7章集成学习
7.1偏差与方差
7.2Bagging及随机森林
7.2.1Bagging
7.2.2随机森林
7.3Boosting及AdaBoost
7.3.1Boosting
7.3.2AdaBoost
7.4提升树
7.4.1残差提升树
7.4.2GBDT
7.4.3XGBoost
7.5Stacking
7.6实例: 基于梯度下降树实现波士顿房价预测
习题7
第8章EM算法及其应用
8.1Jensen不等式
8.2EM算法
8.3高斯混合模型(GMM)
8.4隐马尔可夫模型
8.4.1计算观测概率的输出
8.4.2估计隐马尔可夫模型的参数
8.4.3隐变量序列预测
8.5实例: 基于高斯混合模型实现鸢尾花分类
习题8
第9章降维
9.1主成分分析
9.1.1方差即协方差的无偏估计
9.1.2实例: 基于主成分分析实现鸢尾花数据降维
9.2奇异值分解
9.2.1奇异值分解的构造
9.2.2奇异值分解用于数据压缩
9.2.3SVD与PCA的关系
9.2.4奇异值分解的几何解释
9.2.5实例: 基于奇异值分解实现图片压缩
习题9
第10章聚类
10.1距离度量
10.1.1闵可夫斯基距离
10.1.2余弦相似度
10.1.3马氏距离
10.1.4汉明距离
10.2层次聚类
10.3KMeans聚类
10.4KMedoids聚类
10.5DBSCAN
10.6实例: 基于KMeans实现鸢尾花聚类
习题10
第11章神经网络与深度学习
11.1神经元模型
11.2多层感知机
11.3损失函数
11.4反向传播算法
11.4.1梯度下降法
11.4.2梯度消失及梯度爆炸
11.5卷积神经网络
11.5.1卷积
11.5.2池化
11.5.3网络架构
11.6循环神经网络
11.7生成对抗网络
11.8图卷积神经网络
11.9深度学习发展
11.10实例: 基于卷积神经网络实现手写数字识别
11.10.1MNIST数据集
11.10.2基于卷积神经网络的手写数字识别
习题11
第12章案例: 用户流失预警
12.1读入数据
12.2数据预处理和自变量标准化
12.3五折交叉验证
12.4代入三种模型
12.5调整prob阈值,输出精度评估
第13章案例: 基于回归问题和XGBoost模型的房价预测
13.1XGBoost模型介绍
13.2技术方案
13.2.1数据分析
13.2.2XGBoost模型参数
13.2.3调参过程
13.3完整代码及结果展示
第14章案例: 基于KMeans算法的鸢尾花数据聚类和可视化
14.1数据及工具简介
14.1.1Iris数据集(鸢尾花数据集)
14.1.2Tkinter
14.2案例分析
14.2.1模块引入
14.2.2布局图形界面
14.2.3读取数据文件
14.2.4聚类
14.2.5聚类结果可视化
14.2.6误差分析及其可视化
14.2.7使用流程
第15章案例: 影评数据分析与电影推荐
15.1明确目标与准备数据
15.2工具选择
15.3初步分析
15.3.1用户角度分析
15.3.2电影角度分析
15.4电影推荐
第16章案例: 股价预测
16.1使用Tsfresh进行升维和特征工程
16.2程序设计思路
16.3程序设计步骤
16.3.1读入并分析数据
16.3.2移窗
16.3.3升维
16.3.4方差过滤
16.3.5使用AdaBoostRegressor模型进行回归预测
16.3.6预测结果分析
第17章案例: 使用CRF实现命名实体识别
17.1模型定义
17.2数据预处理
17.3模型训练
17.4模型预测
第18章案例: 利用手机的购物评论分析手机特征
18.1数据准备
18.2数据分析
18.2.1模型介绍
18.2.2算法应用
18.2.3名词提取
18.2.4情感分析
第19章案例: 基于CNN的手写数字识别
19.1MINST数据集介绍与分析
19.2基于 CNN 的构建与训练
参考文献
《机器学习基础》于2018年10月正式出版以来,经过了几次印刷。许多高校将其作为“机器学习”课程的教材,深受这些学校师生的钟爱,获得了良好的社会效益。但从另外一个角度来看,作者有责任和义务维护好这本书的质量,及时更新本书的内容,做到与时俱进。
此次作者对全书的内容进行了全面的修改,比第1版更加翔实,例子也更多,也更加利于教学。
为了帮助读者深入理解机器学习原理,本书以机器学习算法为主题,详细介绍了算法中涉及的数学理论。此外,本书注重机器学习的实际应用,在理论介绍中穿插项目实例,帮助读者掌握机器学习研究的方法。
本书共19章。第1章为概述,主要介绍了机器学习的概念、组成、分类、模型评估方法,以及sklearn模块的基础知识。第2~6章分别介绍了分类和回归问题的常见模型,包括逻辑回归与最大熵模型、k近邻模型、决策树模型、朴素贝叶斯分类器模型、支持向量机模型。每章最后均以一个实例结尾,使用sklearn模块实现。第7章介绍集成学习框架,包括Bagging、Boosting以及Stacking的基本思想和具体算法。第8~10章主要介绍无监督算法,包括EM算法、降维算法以及聚类算法。第11章介绍神经网络与深度学习,包括卷积神经网络、循环神经网络、生成对抗网络、图卷积神经网络等基础网络。第7~11章最后也均以一个实例结尾。第12~19章包含8个综合项目实战,帮助读者理解前面各章所讲内容。
机器学习是一门交叉学科,涉及概率论、统计学、凸优化等多个学科或分支,发展过程中还受到了生物学、经济学的启发。这样的特性决定了机器学习具有广阔的发展前景,但也正因如此,想要在短时间内“速成”机器学习是不现实的。本书希望带领读者,从基础出发,由浅入深,逐步掌握机器学习中的常见算法。在此基础上,读者将有能力根据实际问题决定使用何种算法,甚至可以查阅有关算法的最新文献,为产品研发或项目研究铺平道路。
为了更好地专注于机器学习的介绍,书中涉及的数学和统计学基础理论(如矩阵论、概率分布等)不会过多介绍。因此,如果读者希望完全理解书中的理论推导,还需要具备一定的统计学、数学基础。书中的项目实例全部使用Python实现,在阅读以前需要对Python编程语言及其科学计算模块(如numpy、scipy等)有一定了解。
本书的作者为吕云翔、王渌汀、袁琪、许丽华、王志鹏、任昌禹、张凡、唐博文、冯凯文、杨云飞,曾洪立参与了部分内容的编写及资料整理工作。
由于作者水平和能力有限,书中难免有疏漏之处,恳请各位同仁和广大读者批评指正。
作者2024年4月
评论
还没有评论。