描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302639329丛书名: 大数据与人工智能技术丛书
本书较完整地讲解了数据挖掘和机器学习的基本概念、基本算法原理和应用技术。本书既可作为高等院校应用型本科信息类和管理类专业的数据挖掘或机器学习课程的教材,也可作为科研人员、工程师和数据分析爱好者的参考书。
为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、在线题库、实验指导和实训指导。
本书较完整地讲解了数据挖掘和机器学习的基本概念、基本算法原理和应用技术。本书用通俗的语言和实例解释了抽象的概念,并将抽象概念融合到具体的案例中,以便于读者理解和掌握。
本书在编写过程中力求做到语言精练、概念清晰、取材合理、深入浅出、突出应用,为读者进一步从事数据分析、应用、开发和研究奠定坚实的基础。
本书既可作为高等院校信息类和管理类专业的数据挖掘或机器学习课程的教材,也可作为科研人员、工程师和数据分析爱好者的参考书。
第1篇基础篇
第1章数据挖掘概述
1.1什么是数据挖掘
1.1.1数据、信息、知识和智慧
1.1.2数据挖掘的定义
1.1.3数据挖掘的功能
1.1.4数据挖掘的发展简史
1.2数据挖掘的基本步骤及方法
1.2.1数据挖掘的基本步骤
1.2.2数据挖掘的任务
1.2.3数据挖掘的分析方法
1.3数据挖掘与统计学的关系
1.3.1数据挖掘与统计学的联系
1.3.2数据挖掘与统计学的区别
1.4数据挖掘与机器学习的关系
1.4.1数据挖掘与机器学习的联系
1.4.2数据挖掘与机器学习的区别
1.5数据挖掘的十大经典算法
1.6数据挖掘的典型应用
习题1
第2章Python数据分析基础
2.1Python程序概述
2.1.1基础数据类型
2.1.2变量和赋值
2.1.3操作符和表达式
2.1.4字符串
2.1.5流程控制
2.1.6用户函数
2.1.7lambda函数
2.2Python常用的内置数据结构
2.2.1列表
2.2.2元组
2.2.3字典
2.2.4集合
2.3正则表达式
2.3.1概述
2.3.2常用方法
2.3.3提取网页中的信息
2.4文件的操作
2.4.1文件的打开与关闭
2.4.2文件的读/写操作
2.4.3文件的其他操作
习题2
第3章Python数据挖掘中的常用模块
3.1NumPy模块
3.1.1NumPy数据类型
3.1.2NumPy基本运算
3.1.3生成随机数的常用函数
3.1.4对象转换
3.1.5数组元素和切片
3.2Pandas模块
3.2.1Pandas中的数据结构
3.2.2DataFrame的基本属性
3.2.3DataFrame的常用方法
3.2.4DataFrame的数据查询与编辑
3.2.5Pandas数据的四则运算
3.2.6函数变换
3.2.7排序
3.2.8汇总与统计
3.2.9数据的分组与统计
3.2.10Pandas数据的读取与存储
3.3Matplotlib图表绘制基础
3.3.1Matplotlib简介
3.3.2Matplotlib绘图基础
3.3.3使用Matplotlib简单绘图
3.3.4文本注解
3.4Scikitlearn
3.4.1Scikitlearn的主要功能
3.4.2Scikitlearn自带的小规模数据集
3.4.3使用Scikitlearn生成数据集
3.5股票数据的简单分析
3.5.1抓取股票数据
3.5.2股票数据的各指标折线图
3.5.3各股票的5分钟涨幅柱状图
3.5.4股票各指标之间的关系对比
习题3
第2篇数据预处理篇
第4章数据的描述与可视化
4.1概述
4.1.1数据的描述
4.1.2数据的可视化
4.2数据对象与属性类型
4.2.1数据对象
4.2.2属性与属性类型
4.3数据的基本统计描述
4.3.1中心趋势的度量
4.3.2数据散布的度量
4.4数据对象的相似性度量
4.4.1数据矩阵与相似矩阵
4.4.2标称属性的相异性
4.4.3二元属性的相异性
4.4.4数值属性的相似性度量
4.4.5序数属性的相似性度量
4.4.6混合类型属性的相似性
4.4.7余弦相似性
4.5几种数据可视化技术
4.5.1基于像素的可视化技术
4.5.2几何投影技术
4.5.3基于图符的可视化技术
4.5.4层次可视化技术
4.5.5高维数据的可视化
4.5.6文本词云图
习题4
第5章数据采集和预处理
5.1概述
5.1.1数据采集概述
5.1.2数据采集的方法
5.1.3数据预处理概述
5.2数据清洗
5.2.1缺失值清洗
5.2.2异常值清洗
5.2.3格式内容清洗
5.2.4逻辑错误清洗
5.2.5非需求数据清洗
5.2.6关联性验证
5.3数据集成
5.3.1数据集成过程中的关键问题
5.3.2Python数据集成
5.4数据标准化
5.4.1zscore方法
5.4.2极差标准化方法
5.4.3最大绝对值标准化方法
5.5数据归约
5.5.1维归约
5.5.2数量归约
5.5.3数据压缩
5.6数据变换与数据离散化
5.6.1数据变换
5.6.2数据离散化
习题5
第3篇数据挖掘算法描述和应用篇
第6章分类模型
6.1概述
6.1.1基本概念
6.1.2训练集和测试集
6.1.3分类的一般流程
6.2KNN分类模型
6.2.1KNN算法概述
6.2.2KNN算法描述
6.2.3使用Python实现KNN分类算法
6.2.4K值的确定
6.3Rocchio分类模型
6.3.1Rocchio算法概述
6.3.2Rocchio算法的原理及分类器的构建
6.3.3使用Python实现Rocchio文本分类
6.4决策树分类模型
6.4.1决策树分类概述
6.4.2决策树的生成原理
6.4.3ID3/ID4.5/CART算法
6.4.4决策树的应用
6.5贝叶斯分类模型
6.5.1贝叶斯分类概述
6.5.2朴素贝叶斯分类器
6.5.3朴素贝叶斯模型的优缺点
6.5.4朴素贝叶斯模型的Python实现
6.6支持向量机
6.6.1SVM的基本原理
6.6.2SVM分类的基本方法
6.6.3使用Python实现SVM分类的案例
6.7分类模型的评估与选择
6.7.1分类模型的性能评估
6.7.2分类模型的选择方法
习题6
第7章聚类分析
7.1概述
7.1.1聚类分析的概念
7.1.2聚类分析的特征
7.1.3聚类分析的基本步骤
7.2基于划分的聚类方法
7.2.1kmeans聚类方法
7.2.2kmedoids聚类方法
7.2.3kmeans与kmedoids的区别
7.3基于层次的聚类方法
7.3.1簇间距离度量方法
7.3.2基于层次的聚类算法
7.3.3基于层次聚类算法的Python实现
7.4基于密度的聚类方法
7.4.1与密度聚类相关的概念
7.4.2DBSCAN算法
7.4.3OPTICS算法
7.4.4DENCLUE算法
7.5基于网格的聚类方法
7.5.1基于网格的聚类概述
7.5.2CLIQUE算法
7.5.3STING算法
7.5.4基于网格聚类算法的Python实现
7.6基于模型的聚类方法
7.6.1基于模型的聚类概述
7.6.2EM算法
7.6.3COBWEB算法
7.6.4用EM算法求解高斯混合模型
7.7聚类评估
7.7.1估计聚类趋势
7.7.2确定簇数
7.7.3测定聚类质量
习题7
第8章关联规则分析
8.1概述
8.1.1关联规则概述
8.1.2关联规则的分类
8.2关联规则的相关概念
8.2.1基本概念
8.2.2支持度、置信度和提升度
8.2.3频繁项集
8.3Apriori算法
8.3.1Apriori算法的思想
8.3.2Apriori算法的描述
8.3.3Apriori算法的Python实现
8.4FPGrowth算法
8.4.1FPGrowth算法采用的策略
8.4.2构建FPTree
8.4.3从FPTree中挖掘频繁模式
8.4.4FPGrowth算法的Python实现
8.5Eclat算法
8.5.1Eclat算法概述
8.5.2Eclat算法的Python实现
8.6关联规则的典型应用场景
习题8
第9章预测模型
9.1预测模型概述
9.1.1预测方法的分类
9.1.2预测分析的一般步骤
9.2回归分析预测模型
9.2.1一元线性回归预测模型
9.2.2多元线性回归预测模型
9.2.3非线性回归预测模型
9.2.4逻辑回归模型
9.2.5多项式回归模型
9.3趋势外推法预测模型
9.3.1趋势外推法概述
9.3.2常用的趋势外推法预测模型
9.3.3趋势外推法的Python实现
9.4时间序列预测法模型
9.4.1时间序列预测法概述
9.4.2常用的时间序列预测法模型
习题9
第4篇后续学习引导篇
第10章深度学习简介
10.1深度学习概述
10.1.1人工智能、机器学习和深度学习的关系
10.1.2深度学习的发展历程
10.2感知机
10.2.1感知机的起源
10.2.2感知机的局限性
10.3前馈神经网络
10.3.1神经元
10.3.2前馈神经网络概述
10.3.3训练与预测
10.4反向传播算法
10.4.1反向传播学习算法
10.4.2反向传播学习的Python实现
10.5卷积神经网络
10.5.1卷积神经网络概述
10.5.2卷积神经网络的整体结构
10.6循环神经网络
10.6.1循环神经网络概述
10.6.2循环神经网络的设计模式
10.6.3循环神经网络的运算
10.6.4循环神经网络的Python实现
10.7生成对抗网络
10.7.1生成对抗网络概述
10.7.2生成对抗网络算法
习题10
参考文献
党的二十大报告中指出: 教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连,对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。
随着信息技术的迅猛发展和互联网的普及,人类已经积累了海量的数据,而且这些数据还在不断地、快速地以指数级的速度增长。根据国际著名数据调查公司IDC在2021年的估计,全世界数据库中的数据量正以每20个月翻一番的速度增长。数据挖掘作为一种大有前途的工具和方法引起了产业界和学术界的极大关注,形成了信息领域的热点。本书中的案例采用Python语言编写。Python具有代码开源、简洁易读、科学计算软件包丰富的特点,已成为很多高校和研究机构进行教学和科学计算的语言。
本书结合编者多年从事数据挖掘课程教学、开发智能数据分析项目的经验,利用Python作为工具,以实用的案例,系统地讲解了数据挖掘的相关算法及其应用。全书共10章,分为四篇。
第1篇为基础篇,由第1~3章组成。第1章介绍数据挖掘的定义和发展过程、数据挖掘的经典算法和应用领域等; 第2章介绍Python用于数据分析的基础知识; 第3章介绍数据挖掘中常用的Python处理模块。
第2篇为数据预处理篇,由第4章和第5章组成。第4章介绍数据的描述与可视化,首先讲解属性类型和数据对象,然后讲解数据对象的相似性度量和数据的可视化; 第5章介绍数据采集和预处理,首先讲解数据的采集,然后讲解缺失值清洗、异常值清洗等,接着讲解数据标准化、数据归约、数据变换与数据离散化。
第3篇为数据挖掘算法描述和应用篇,由第6~9章组成。第6章首先讲解数据分类的基本概念、分类挖掘的一般流程,然后讲解KNN分类模型、Rocchio分类模型、决策树分类模型、贝叶斯分类模型、支持向量机等相应算法的原理和Python实现; 第7章首先讲解聚类分析的基本概念,然后讲解基于划分、层次、密度、网格、模型的聚类方法及其应用和Python实现; 第8章首先讲解频繁项集、最小支持度、最小置信度、强关联规则、兴趣度、提升度等概念,然后讲解Apriori算法、FPGrowth算法、Eclat算法的原理及Python实现; 第9章首先讲解预测分析的一般步骤,然后讲解回归分析预测模型、趋势外推法预测模型、时间序列预测法模型的概念及应用。
第4篇为后续学习引导篇,由第10章组成。第10章首先讲解深度学习的发展和基本概念,然后讲解深度学习的几种经典模型与算法,即常用的卷积神经网络、循环神经网络、生成对抗网络等。
本书具有如下特色:
(1) 在逻辑安排上循序渐进,由浅入深,便于读者系统学习。
(2) 内容丰富,信息量大,融入了大量本领域的新知识和新方法。
(3) 重要知识点配有与理论内容相结合的案例分析,并采用Python语言编程实现。
(4) 在内容选取、章节安排、难易程度、例子选取等方面充分考虑理论教学和实践教学的需要,力求使教材概念准确、清晰、重点明确,内容精练,便于取舍。每章均配有习题,便于教学。
为便于教学,本书提供丰富的配套资源,包括教学大纲、教学课件、在线作业、习题答案、实验指导和实训指导。
资源下载提示
课件等资源: 扫描封底的“课件下载”二维码,在公众号“书圈”下载。
在线作业: 扫描封底的作业系统二维码,登录网站在线做题及查看答案。
为了方便对数据挖掘课程的学习及数据挖掘技术的应用,编者还组织编写了配套教材《Python数据挖掘算法与应用实验及课程实训指导》,作为读者学习本课程时的实践用书。
清华大学出版社的魏江江分社长和王冰飞老师对本书的编写给出了指导性的意见,张囡囡老师参与了本书的部分工作,在此表示衷心的感谢。
本书使用Python 3.6版本进行实验。
由于编者水平有限,书中疏漏之处在所难免,殷切希望广大读者批评指正。
编者2024年1月
评论
还没有评论。