描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302664482丛书名: 大数据与人工智能技术丛书
本书特色:
理论与实践并重、站在工程与科技的前沿;
提供书中全部程序源代码,可快速进阶到实用阶段;
由浅入深,理论结合实际,案例丰富实用;
取材科学、结构严谨、实用性突出。
本书以Python 3.10.7为平台,以实际应用为背景,通过“概述 经典应用”的形式,深入浅出地介绍Python机器学习算法及应用的相关知识。全书共12章,主要内容包括在数据上的计算机学习能力、简单的机器学习分类算法、sklearn机器学习分类器、数据预处理、降维实现数据压缩、不同模型的集成学习、连续变量的回归分析、数据的聚类分析、从单层到多层的人工神经网络、使用深度卷积神经网络实现图像分类、使用循环神经网络实现序列建模、使用生成对抗网络合成新数据等。通过本书的学习,读者可领略到Python的简单、易学、易读、易维护等特点,同时感受到利用Python实现机器学习的普遍性与专业性。
本书可作为高等学校相关专业本科生和研究生的学习用书,也可作为相关专业科研人员、学者、工程技术人员的参考用书。
查看源码
第1章在数据上的计算机学习能力
1.1转换机器学习
1.1.1转换机器学习简介
1.1.2转换机器学习对比其他方法
1.1.3转换机器学习的改进
1.1.4转换机器学习的可解释性
1.1.5转换机器学习对比深度神经网络
1.1.6构建机器学习的生态系统
1.2三种不同类型的机器学习
1.2.1用监督学习预测未来
1.2.2用强化学习解决交互问题
1.2.3用无监督学习发现隐藏的结构
1.2.4分类和回归术语
1.3评估机器学习模型
1.3.1简单的留出验证
1.3.2K折验证
1.3.3带有打乱数据的重复K折验证
1.4数据预处理、特征工程和特征学习
1.4.1神经网络的数据预处理
1.4.2特征工程
1.5过拟合和欠拟合
1.5.1减小网络大小
1.5.2添加权重正则化
1.5.3添加dropout正则化
1.6机器学习工作流程
1.6.1收集数据集
1.6.2选择衡量成功的指标
1.6.3确定评估法
1.6.4开发更好的模型
1.6.5扩大模型规模
1.6.6正则化与调节超参数
1.7应用Python解决机器学习问题
1.7.1使用Python的原因
1.7.2Python的安装
1.7.3Jupyter Notebook的安装与使用
1.7.4使用pip安装第三方库
1.8用于机器学习的软件包
1.8.1NumPy软件包
1.8.2SciPy软件包
1.8.3Pandas软件包
第2章简单的机器学习分类算法
2.1机器学习的早期历史——人工神经网络
2.1.1人工神经网络的定义
2.1.2感知机学习规则
2.2感知机分类鸢尾
2.3自适应神经学习
2.4大规模机器学习与随机梯度下降
2.4.1梯度下降算法概述
2.4.2批量梯度下降算法
2.4.3随机梯度下降算法
2.4.4小批量梯度下降算法
2.4.5梯度下降算法的调优
第3章sklearn机器学习分类器
3.1分类器的选择
3.2训练感知器
3.3基于逻辑回归的分类概率建模
3.3.1几个相关定义
3.3.2逻辑代价函数的权重
3.3.3正则化解决过拟合问题
3.4支持向量机最大化分类间隔
3.4.1超平面
3.4.2函数间隔和几何间隔
3.4.3间隔最大化
3.5核SVM解决非线性分类问题
3.5.1处理非线性不可分数据的核方法
3.5.2核函数实现高维空间的分离超平面
3.6决策树
3.6.1何为决策树
3.6.2决策树生成
3.6.3决策树的剪枝
3.6.4使用sklearn预测个人情况
3.7K近邻算法
3.7.1K近邻算法的原理
3.7.2K近邻算法的实现
3.8贝叶斯算法
3.8.1贝叶斯算法的基本思想
3.8.2贝叶斯算法的模型
3.8.3用sklearn实现贝叶斯分类
第4章数据预处理
4.1数据清洗
4.1.1缺失值处理
4.1.2异常值分析
4.2对某一列编码
4.3划分训练集与测试集
4.3.1伪随机数划分
4.3.2交叉验证
4.4数据特征缩放
4.4.1特征标准化/方差缩放
4.4.2特征归一化
4.5特征选择
4.5.1Filter
4.5.2Wrapper
4.5.3基于L1的正则化
第5章降维实现数据压缩
5.1数据降维
5.2主成分降维
5.2.1主成分分析步骤
5.2.2PCA算法实现
5.2.3降维映射PCA的实现与应用
5.3线性判别分析监督数据压缩
5.3.1线性判别分析基本思想
5.3.2LDA公式推导
5.3.3拉格朗日函数问题
5.3.4LDA实现数据降维
5.3.5基于sklearn的线性判别分析
5.4非线性映射核主成分降维
5.4.1核函数与核技巧
5.4.2KPCA与PCA降维实现
第6章不同模型的集成学习
6.1集成学习
6.2多投票机制组合分类器
6.3Bagging算法
6.4Boosting模型
6.4.1Boosting的基本思路
6.4.2AdaBoost算法
6.4.3Gradient Boosting算法
6.5Stacking模型
6.5.1Stacking原理
6.5.2Stacking模型实现
第7章连续变量的回归分析
7.1线性回归
7.1.1简单线性回归
7.1.2多元线性回归
7.1.3相关矩阵查看关系
7.1.4协方差与相关性
7.2最小二乘线性回归
7.2.1梯度下降法
7.2.2通过sklearn估计回归模型的系数
7.3使用RANSAC算法拟合健壮回归模型
7.4线性回归模型性能的评估
7.4.1线性回归算法的衡量标准
7.4.2线性回归算法应用实例
7.5利用正则化方法进行回归
7.5.1岭回归
7.5.2Lasso回归
7.5.3弹性网络
7.6将线性回归模型转换为多项式回归
7.7用随机森林处理非线性关系
7.7.1决策树
7.7.2随机森林回归
第8章数据的聚类分析
8.1KMeans算法
8.1.1KMeans算法原理
8.1.2KMeans算法步骤
8.1.3KMeans算法的缺陷
8.1.4使用sklearn进行KMeans聚类
8.1.5肘法与轮廓法
8.1.6KMeans 算法
8.2层次聚类
8.3DBSCAN算法
8.3.1DBSCAN算法相关概念
8.3.2DBSCAN算法的优缺点
8.3.3DBSCAN算法实现
第9章从单层到多层的人工神经网络
9.1人工神经网络建模复杂函数
9.1.1单隐层神经网络概述
9.1.2多层神经网络结构
9.1.3前向传播激活神经网络
9.1.4反向传播
9.2识别手写数字
9.2.1神经网络算法实现数字的识别
9.2.2实现多层感知器
第10章使用深度卷积神经网络实现图像分类
10.1构建卷积神经网络
10.1.1深度学习
10.1.2CNN的原理
10.1.3使用CNN实现手写体识别
10.2使用LeNet5实现图像分类
10.3使用AlexNet实现图片分类
10.3.1AlexNet结构分析
10.3.2AlexNet的分类实现
10.4VGG16的迁移学习实现
10.5使用OpenCV实现人脸识别
10.5.1人脸检测
10.5.2车牌检测
10.5.3目标检测
10.6使用OpenCV实现网络迁移
第11章使用循环神经网络实现序列建模
11.1RNN
11.1.1RNN的发展历史
11.1.2什么是RNN
11.1.3LSTM结构和GRU结构
11.1.4序列模型实现
11.2双向循环神经网络
11.3Seq2Seq模型序列分析
11.3.1Seq2Seq模型
11.3.2如何训练Seq2Seq模型
11.3.3利用Seq2Seq进行时间序列预测
第12章使用生成对抗网络合成新数据
12.1GAN原理
12.2GAN应用
12.3强化学习
12.3.1强化学习的方式
12.3.2强化学习系统与特点
12.3.3GAN损失函数
12.3.4马尔可夫决策
12.3.5Qlearning算法
12.3.6策略梯度
12.3.7强化学习的经典应用
人工智能(Artificial Intelligence,AI)的研究从20世纪40年代已经开始,在近80年的发展中经历了数次大起大落。自从2016年AlphaGo战胜顶尖的人类围棋选手之后,人工智能再一次进入人们的视野,成为当今的热门话题。人工智能的最新发展可以说是“古树发新枝”,到底是什么原因使沉寂多年的人工智能技术焕发了青春的活力呢?
首先,移动互联网的飞速发展产生了海量的数据,使人们有机会更加深入地认识社会、探索世界、掌握规律。其次,大数据技术为人们提供了有力的技术手段,使人们可以面对瞬息万变的市场,有效地存储和处理海量数据。最后,计算技术特别是GPU(图形处理器)的广泛应用使算力有了大幅度的提升,以前需要几天的运算如今只需要几分钟或几秒,这为机器学习的普及与应用提供了计算基础。
机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,所以也被称为统计学习理论。
机器学习是数据科学中数据建模和分析的重要方法,既是当前大数据分析的基础和主流工具,又是通往深度学习和人工智能的必经之路; Python是数据科学实践中最常用的计算机编程语言,是当前最流行的机器学习实现工具,因其在理论和应用方面的不断发展完善而拥有长期的竞争优势。在学好机器学习理论的同时,掌握Python语言这个实用工具,是成为数据科学人才所必不可少的。
当全世界都在赞叹人工智能机器时代即将到来的同时,对人工智能机器专业的人才需求急剧增加,大量的高薪职位却招不到人。处在这样一个拥有大好机会的人工智能、机器学习时代,为何不给自己一个进入人工智能行业的机会呢?本书将机器学习的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。书中讲解了如何利用Python的核心代码以及强大的函数库,实现机器学习的分析与实战。不管你是初步接触机器学习,还是想进一步拓展对机器学习领域的认知,本书都是一个重要且不可错过的资源,它有助于了解如何使用Python实现解决机器学习中遇到的各种实战问题,让读者能够快速成为机器学习领域的高手。
本书编写特色主要表现在以下方面。
1. 内容浅显易懂
本书不会细究晦涩难懂的概念,而是力求用浅显易懂的语言引出概念,用常用的方式介绍编程,用清晰的逻辑解释思路。
2. 知识全面
机器学习是一个交叉性很强的学科,涉及统计学、数据科学、计算机学科等多个领域的知识。书中从介绍机器学习相关理论出发,接着介绍机器学习分类算法,然后介绍sklearn机器学习分类器,再由实例总结巩固机器学习在各领域中的应用,全面、系统、由浅到深地介绍整本书内容。
3. 实用性强
本书在理论上突出可读性并兼具知识的深度和广度,在实践上强调可操作性并兼具应用的广泛性。书中各章都做到理论与实例相结合,内容丰富实用,帮助读者快速领会知识要点。书中的源代码、数据集等读者都可免费获得。
4. 独特有效的讲解方式
本书采用一种独特而有效的方式讲解机器学习: 一方面,依知识点的难度,由浅入深地讨论众多主流机器学习算法的原理; 另一方面,通过Python编程和可视化图形,直观地展示抽象理论背后的朴素道理和精髓,通过应用案例强化算法的应用实践。
全书共12章,各章的主要内容如下。
第1章介绍了在数据上的计算机学习能力,主要包括转换机器学习、评估机器学习模型、机器学习工作流程、应用Python解决机器学习问题等内容。
第2章介绍了简单的机器学习分类算法,主要包括机器学习的早期历史——人工神经网络、自适应神经学习、大规模机器学习与随机梯度下降等内容。
第3章介绍了sklearn机器学习分类器,主要包括分类器的选择、基于逻辑回归的分类概率建模、支持向量机最大化分类间隔、核SVM解决非线性分类问题、决策树等内容。
第4章介绍了数据预处理,主要包括数据清洗、划分训练集与测试集、数据特征缩放、特征选择等内容。
第5章介绍了降维实现数据压缩,主要包括数据降维、主成分降维、线性判别分析监督数据压缩、非线性映射核主成分降维等内容。
第6章介绍了不同模型的集成学习,主要包括集成学习、多投票机制组合分类器、Bagging模型、Stacking模型等内容。
第7章介绍了连续变量的回归分析,主要包括线性回归、最小二乘线性回归、使用RANSAC算法拟合健壮性回归模型、线性回归模型性能的评估等内容。
第8章介绍了数据的聚类分析,主要包括KMeans算法、层次聚类、DBSCAN算法等内容。
第9章介绍了从单层到多层的人工神经网络,主要包括人工神经网络建模复杂函数、识别手写数字等内容。
第10章介绍了使用深度卷积神经网络实现图像分类,主要包括构建卷积神经网络、使用LeNet5实现图像分类、使用AlexNet实现图片分类等内容。
第11章介绍了使用循环神经网络实现序列建模,主要包括RNN、双向循环神经网络、Seq2Seq模型序列分析等内容。
第12章介绍了使用生成对抗网络合成新数据,主要包括GAN原理、GAN应用、强化学习等内容。
互联网、物联网对全球的覆盖以及计算机技术的不断提升,推动了机器学习算法的快速发展,并且使其在各个行业领域中得到广泛应用。通过本书的学习,可以学会利用Python解决机器学习中的各种实际问题,达到应用自如的程度。
本书由佛山科学技术学院梁佩莹博士编写。
本书可作为高等学校相关专业本科生和研究生的学习用书,也可作为相关专业科研人员、学者、工程技术人员的参考用书。
由于时间仓促,加之编者水平有限,疏漏之处在所难免。在此,诚恳地期望得到各领域专家和广大读者的批评指正。
编者2024年2月
评论
还没有评论。