描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302601241
本书基于Python语言,借助机器学习开源框架TensorFlow实现了20个典型的实践案例,其内容涵盖了机器学习的基础算法,实践性强,注重提升动手操作的能力。
机器学习是人工智能的重要技术基础,涉及的内容十分广泛。本书基于Python语言,实现了12个典型的实战案例,其内容涵盖了机器学习的基础算法,主要包括统计学习基础、可视化、常用的分类算法、文本分析、卷积神经网络、循环神经网络、注意力机制、生成对抗网络、电子推荐系统等理论。 本书深入浅出,以实际应用的项目作为案例,实践性强,注重提升读者的动手操作能力,适合作为高等院校本科生及研究生机器学习、深度学习、数据挖掘等课程的实验教材,也可作为对机器学习和深度学习感兴趣的研究人员和工程技术人员的参考资料。
第1章集装箱危险品瞒报预测
1.1业务背景分析
1.2数据提取
1.3数据预处理
1.3.1数据集成
1.3.2数据清洗
1.3.3数据变换
1.3.4数据离散化
1.3.5特征重要性筛选
1.3.6数据平衡
1.4危险品瞒报预测建模
1.5模型评估
思考题
第2章保险产品推荐
2.1业务背景分析
2.2数据探索
2.3数据预处理
2.4分类模型构建
2.5平衡数据集
2.6算法调参
2.7模型比较
思考题
第3章图书类目自动标引系统
3.1业务背景分析
3.2数据提取
3.3数据预处理
3.4基于贝叶斯分类的文献标引
3.4.1增量训练
3.4.2特征降维与消歧
3.4.3权重调节
3.5贝叶斯分类性能评估
3.6基于BERT算法的文献标引
3.6.1数据预处理
3.6.2构建训练集
3.6.3模型实现
思考题
第4章基于分类算法的学习失败预警
4.1业务背景分析
4.2学习失败风险预测流程
4.3数据收集
4.4数据预处理
4.4.1数据探查及特征选择
4.4.2数据集划分及不平衡样本处理
4.4.3样本生成及标准化处理
4.5随机森林算法
4.5.1网格搜索及模型训练
4.5.2结果分析与可视化
4.5.3特征重要性分析
4.5.4与其他算法比较
思考题
第5章自然语言处理技术实例
5.1业务背景分析
5.2分析框架
5.3数据收集
5.4建立模型
5.4.1文本分词
5.4.2主题词提取
5.4.3情感分析
5.4.4语义角色标记
5.4.5语言模型
5.4.6词向量模型Word2Vec
思考题
第6章基于标签的信息推荐系统
6.1业务背景分析
6.2数据预处理
6.2.1现有系统现状
6.2.2数据预处理
6.3内容分析
6.4基于协同过滤推荐
6.4.1用户偏好矩阵构建
6.4.2用户相似度度量
6.5基于用户兴趣推荐
6.6“冷启动”问题与混合策略
6.6.1冷启动问题分析
6.6.2混合策略
思考题
第7章快销行业客户行为分析与流失预警
7.1业务背景分析
7.2数据预处理
7.2.1数据整理
7.2.2数据统计与探查
7.3用户行为分析
7.3.1用户流失风险评估
7.3.2流失风险预警模型集成
思考题
第8章基于深度学习的图片识别系统
8.1业务背景分析
8.2图片识别技术方案
8.3图片预处理——表格旋转
8.4图片预处理——表格提取
8.5基于密集卷积网络的文本识别模型
8.5.1训练数据生成
8.5.2DenseNet模型训练
8.5.3文本识别模型调用
8.6基于LSTM算法实现文本识别
8.6.1环境安装
8.6.2模型设计
8.6.3模型训练
8.6.4模型使用
思考题
第9章超分辨率图像重建
9.1数据探索
9.2数据预处理
9.2.1图像尺寸调整
9.2.2载入数据
9.2.3图像预处理
9.2.4持久化测试数据
9.3模型设计
9.3.1残差块
9.3.2上采样 PixelShuffle方法
9.3.3生成器
9.3.4判别器
9.3.5损失函数与优化器定义
9.3.6训练过程
9.4实验评估
思考题
第10章基于YOLO v5的电动车骑手头盔检测
10.1数据集的准备
10.2数据划分与预处理
10.3YOLO v5模型训练和优化
10.4YOLO v5模型应用
10.5YOLO v5模型移植
10.5.1模型转换
10.5.2Android头盔检测应用实现
10.6总结
思考题
第11章基于UNET算法的农业遥感图像分割
11.1数据准备
11.2数据预处理
11.3UNet语义分割模型搭建
11.3.1定义训练参数
11.3.2定义UNET主干特征提取网络模块
11.3.3定义UNET网络
11.3.4数据增强
11.3.5获取数据集以及模型
11.3.6设置回调函数
11.3.7设置损失函数
11.4图像语义分割模型训练
11.5语义分割模型使用
11.6总结
思考题
第12章基于自注意力、BiLSTM和TextCNN算法的新闻分类
12.1数据概况
12.2数据预处理
12.2.1分词
12.2.2关键词提取
12.2.3搭建和训练Word2Vec模型
12.3新闻分类模型训练和优化
12.3.1SelfAttention模型
12.3.2BiLSTM模型
12.3.3TextCNN模型
12.4结果分析
思考题
附录A机器学习复习题
附录B深度学习复习题
附录CAnaconda的安装与使用
参考文献
第2版前言
近年来人工智能发展很快,已经在很多行业得到成功的应用,推动了企业对人工智能应用人才的需求增长,市场上急缺有较强应用能力、能解决实际问题的高级人才。越来越多的高校开设了人工智能专业,其中机器学习和深度学习等核心课程不仅包含的算法众多,兼具学习难度,而且应用也有一定的门槛。如何在实际应用中掌握这些理论知识是一件非常有挑战性的事情。
目前,高校机器学习和深度学习教学还多停留在理论传授的层次,辅助一些简单的实验,远未达到实用型人才培养的要求。主要的原因之一是缺少有实际项目经验的师资; 另外,机器学习和深度学习的应用充满了不确定性,需要在实战项目中才能积累必要的技能和技巧。
如何通过精读一些典型案例的讲解,揣摩机器学习和深度学习项目流程每个步骤的常见问题以及处理方法,已经成为入门实战项目的重要基础。为此,我们在第1版的基础上,从与企业合作的真实项目或预研项目中,经过一定的简化和抽象,精选了12个案例。这些案例都有一定的综合性,尽量接近实际项目的复杂性,多数案例都使用了多种机器学习或深度学习的典型算法,对于检验读者基础算法的理解广度和深度,都有一定的挑战。
第2版拓展了一些内容,基于典型的应用场景,利用TensorFlow、PaddlePaddle等主流开源框架,思路尽量覆盖常用的数据可视化、分类算法、文本分析、卷积神经网络、循环神经网络、注意力机制、生成对抗网络、电子推荐系统等机器学习和深度学习核心知识的灵活应用。
第2版主要对第1版做了如下修改:
(1) 为了便于读者检验对基本的机器学习和深度学习算法的掌握情况,在本书的附录A和附录B提供了190多道选择题、判断题和简答题,分别对应机器学习和深度学习的基本知识点,读者可以在阅读案例前练习,并结合作者已经出版的《机器学习》(人民邮电出版社,2018)以及中国大学MOOC的深度学习及其应用课程(https://www.icourse163.org/course/FUDAN1205806833)进行学习。
(2) 补充了基于YOLO v5的电动车头盔检测、基于改进UNet算法的农业图像分割、基于注意力和TextCNN的新闻文本分类三个详细的案例,使内容有更广的覆盖度。此外,更新了第1版第8章基于深度学习的图片识别系统,适应了PaddlePaddle框架的更新。还删除了比较简单的第1版第10章的案例。
感谢百度和阿里云计算有限公司的支持。在写作本书的过程中,研究生林沿铮、王卓超等同学在资料收集和校对等方面做了不少工作,在此一并表示感谢。
赵卫东
2021年9月
第1版前言
当前,随着信息时代的快速发展,银行、投资、零售、互联网甚至传统的制造业都产生了大量数据。各行各业开始逐步应用机器学习算法分析数据,以便在海量数据中总结出规律,辅助决策。这种发展趋势使得就业市场对数据科学、机器学习人才的需求不断增加,同时对人才的多元化、综合实践能力提出了要求。
随着数据分析相关行业的快速发展,数据分析在各个领域都得到了很多成功的应用,企业和政府部门都期望在各个业务方面的工作由数据分析能力强的人承担,更期望员工能够探索有效的数据分析方法,并根据实际数据场景分析结果做出决策,将分析和处理数据作为日常工作流程的一个环节,而不是将数据分析作为一项专业技能。同时,随着数据种类的增多和数量的爆炸式增长,市场对毕业生的数据分析和处理能力提出了更高的要求。高校的基本职能是培养人才,为了使学生更好地适应现代工作场所和终身发展,需要认真思考如何培养应用型人才,以适应当前的就业环境。机器学习相关专业以培养数据分析师、算法工程师、大数据工程师等数据分析、应用型人才为目标,这不仅要求学生理解算法本身,更需要学生具备跨学科的实践能力,将算法逻辑应用到实际生产、生活场景以解决现实问题。
企业对数据分析人才的数量和质量的高要求导致了大数据技术、人工智能人才的大缺口,而目前高校的机器学习教学偏向理论化,更多地注重算法本身,缺乏完善的实践教学体系和教学资源。学生的课堂学习只是面对多种专业理论知识,缺少真实项目的实践过程,学生不能有效地将学习内容应用到实践过程中,这与应用型人才的培养目标存在一定的差距,毕业生不足以适应竞争激烈的就业市场。因此,高校需要更多地考虑就业环境对学生的真实需求,对传统的教学模式进行变革,掌握数据科学时代的新技术和新应用,在遵循教育规律的基础上,将实际项目实践与理论教学融为一体,逐步调整课程内容,培养学生自主思考与解决实际问题的能力,从而提高他们的竞争优势。
如何在教学过程中结合项目实践,已经成为各高校关注的话题。传统的机器学习教学在技能培养、数据与实际案例的选择上仍存在很大的提高空间,这与新时代机器学习人才发展的需求存在一定距离,有必要对人才培养与项目实践相结合进行探索,尝试新的满足社会发展需要的教学模式,为培养具有专业素质和创新能力的机器学习人才奠定坚实的基础。
在学生理解算法原理的基础上,可采用灵活的教学方法来培养学生对实际应用场景的认知。结合案例展示其应用,然后提出一些新问题。学生通过模仿实现一个类似的验证型实验项目,该项目作为实验项目的原型,学生可访问、分析其功能、代码并测试其效果。随后,以此为基础做扩展实践,学生可以模仿教师提供的案例,通过自主设计并实现一个相对完整的项目,深化并巩固所学的知识,锻炼整体考虑问题的能力,提高灵活应用知识的能力和创新能力。
由于企业面对的很多问题并不能直接交由机器处理,数据的筛选、特征提取以及算法的整合与取舍是需要技巧的。同时,企业实践项目真实灵活并且与当前研究热点紧密相关,在项目解决方案的探讨中学生会面临很多问题,例如样本的不平衡、算法存在的某些缺陷等,这些问题不能直接地从课堂或其他途径上获取到有效的解决方案,更多地需要学生自身总结经验,在现有的思路上进行调优,从而帮助学生掌握算法缺陷,自主发现一些原有教学中被忽略的难点。
企业实践项目不同于常规教学实验,在大多数传统教学方法中,学生按照已有步骤进行规范化的实验,往往可以获得满意的结果。本书正是基于以上的现实需求,结合作者近几年与企业合作的实战项目,通过一定的抽象和简化,精选了十个比较实用的实训案例,可以作为高校机器学习课程的实验教材,也可以作为学习Python课程的实训教材。
学习本书之前,读者需要掌握基本的机器学习理论,附录有测试题,可以在学习前检验。
在本书的写作过程中,研究生蒲实、于召鑫和本科生高名扬在资料收集方面做了很多工作,特此表示感谢。
赵卫东
2019年6月
评论
还没有评论。