描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302642695丛书名: 高等学校计算机专业系列教材
(1)本书内容丰富,涵盖了数据分析中主流常用库:NumPy、Pandas、Matplotlib和Seaborn等,内容系统详细。配套资源丰富,方便教学和学习。
(2)内容从Python的基础知识讲起,结合应用背景,由浅入深,力求易懂,尽量避免晦涩难懂的专业解释,帮助读者轻松入门。
(3)结合有应用背景的例子,尽量做到知识点有应用点,透彻讲述了数据处理、分析以及可视化。
(4)本书采用图文结合的方式,能够让读者直观、清晰地了解操作步骤和呈现效果,方便读者校对操作时的正误。
本书全面介绍了使用Python进行数据分析所必需的各项知识,全书共分为14章,包括数据分析与可视化概述、Python编程基础、NumPy数组计算、Pandas基础知识、Pandas数据获取与清洗、Pandas数据形式变化、Pandas数据分析与可视化、Pandas数据处理与分析实战、Matplotlib库绘制可视化图表、图表辅助元素定制与美化、Seaborn绘制数据分析图表、时间序列数据处理与分析、文本数据分析、图像处理与分析等内容。结合了有应用背景的数据分析示例,系统介绍了数据分析与可视化方法,可以帮助读者逐步掌握运用Python技术解决数据分析问题的能力。 本书可以作为高校数据科学与大数据技术、大数据管理与应用、软件工程和计算机科学与技术等专业的教材,也可以作为Python数据分析爱好者的自学用书。
第1章数据分析与可视化概述/1
1.1数据分析概念与常用指标1
1.1.1数据分析的概念1
1.1.2数据分析常用指标2
1.1.3数据分析常用方法4
1.2什么是数据可视化4
1.3数据分析与可视化基本流程5
1.4数据分析与可视化开发环境安装与包管理6
1.4.1Python做数据分析与可视化的优势6
1.4.2Anaconda工具的安装与配置7
1.4.3通过Anaconda管理Python包8
1.5Jupyter Notebook的启动与使用10
1.5.1Jupyter Notebook的启动11
1.5.2Jupyter Notebook界面功能11
1.5.3Jupyter Notebook的基本使用13
1.6Jupyter的魔术命令16
1.7常见的数据分析与可视化工具17
小结18
思考与练习18
第2章Python编程基础/19
2.1Python语法基础19
2.1.1编写规范19
2.1.2数据类型20
2.1.3运算符21
2.2列表和元组22
2.2.1列表定义与元素访问22
2.2.2列表的操作方法23
2.2.3元组定义与元素操作25
2.3字典和集合27
2.3.1字典定义与元素操作272.3.2集合定义与元素操作28
2.4程序控制结构29
2.4.1输入、输出与顺序控制语句29
2.4.2if选择语句31
2.4.3循环语句31
2.5函数34
2.5.1函数的定义与调用35
2.5.2函数参数类型36
2.5.3函数参数的作用域38
2.5.4匿名函数38
2.6面向对象39
2.6.1类和对象39
2.6.2类的继承41
2.7模块与包42
2.7.1模块的导入42
2.7.2模块的创建与使用43
2.7.3第三方库的安装44
2.7.4包的创建与使用46
2.8程序的错误与异常处理48
2.8.1程序的错误与处理48
2.8.2程序的异常与处理49
小结50
思考与练习50
〖1〗Python大数据分析与可视化目录〖3〗〖3〗第3章NumPy数组计算/52
3.1NumPy与数组对象52
3.1.1NumPy概述52
3.1.2NumPy数组对象53
3.2创建NumPy数组54
3.2.1利用array函数创建数组54
3.2.2其他方式创建数组55
3.2.3利用随机数模块生成随机数组58
3.2.4从已有的数组中创建数组60
3.3数组对象的数据类型63
3.3.1查看数据类型63
3.3.2转换数据类型64
3.4数组运算65
3.4.1形状相同的数组间运算65
3.4.2形状不同的数组间运算66
3.4.3数组与标量间的运算67
3.5数组元素的操作68
3.5.1整数索引和切片的基本使用68
3.5.2花式(数组)索引的基本使用70
3.5.3布尔型索引的基本使用71
3.5.4数组元素的删除、修改和查询72
3.6数组的重塑和转置73
3.6.1数组重塑73
3.6.2数组合并74
3.6.3数组分割75
3.6.4数组转置75
3.7NumPy通用函数77
3.8NumPy数据处理与统计分析79
3.8.1将条件逻辑转为数组运算79
3.8.2数组统计运算79
3.8.3数组排序80
3.8.4检索数组元素82
3.8.5重复数据与去重(唯一化)82
3.9NumPy矩阵的基本操作84
3.9.1矩阵创建84
3.9.2矩阵运算86
3.9.3矩阵转换88
3.10数组读/写88
3.10.1读/写二进制文件88
3.10.2读/写文本文件89
3.10.3读取CSV文件89
小结90
思考与练习90
第4章Pandas基础知识/92
4.1Pandas与数据结构92
4.1.1Pandas概述92
4.1.2Pandas中的数据结构93
4.1.3Series对象与生成93
4.1.4DataFrame对象与生成95
4.1.5Pandas的数据类型99
4.1.6算术运算与数据对齐99
4.2Pandas索引操作100
4.2.1Series对象索引操作101
4.2.2DataFrame对象索引操作103
4.2.3索引对象的不可操作性105
4.2.4设置索引106
4.2.5重命名轴名称111
4.3数据编辑112
4.3.1增加数据112
4.3.2修改数据115
4.3.3删除数据118
4.4Pandas中调用函数的方法119
4.4.1map()方法应用119
4.4.2apply()方法应用120
4.4.3applymap()方法应用121
4.4.4pipe()方法应用121
小结122
思考与练习122
第5章Pandas数据获取与清洗/123
5.1数据获取操作123
5.1.1读取文本(CSV和TXT)文件123
5.1.2读取Excel文件126
5.1.3读取JSON数据文件128
5.1.4读取HTML表格数据129
5.1.5读取MySQL数据库中数据130
5.2数据清洗133
5.2.1空值和缺失值的处理134
5.2.2重复值的处理139
5.2.3异常值的处理141
5.2.4更改数据类型146
5.3数据格式化149
5.3.1数据设置小数位数149
5.3.2数据设置百分比150
5.3.3数据设置千位分隔符151
5.4数据保存操作151
5.4.1数据保存为CSV文件151
5.4.2数据保存为Excel文件152
5.4.3数据保存为JSON格式文件152
5.4.4数据保存为HTML文件154
5.4.5数据保存到MySQL数据库154
小结155
思考与练习155
第6章Pandas数据形式变化/156
6.1数据集成与合并156
6.1.1数据集成概述156
6.1.2主键合并数据158
6.1.3轴向堆叠合并数据159
6.1.4合并重叠数据160
6.1.5根据行索引合并数据163
6.1.6数据追加164
6.2数据变换165
6.2.1数据标准化变换166
6.2.2数据离散化处理168
6.2.3数据泛化处理170
6.2.4哑变量处理类别数据170
6.2.5轴向旋转173
6.3层次化索引与数据重塑175
6.3.1层次化索引的创建175
6.3.2层次化索引的数据访问与操作180
6.3.3重塑层次化索引183
6.4数据分组与聚合187
6.4.1分组与聚合的原理187
6.4.2数据分组188
6.4.3数据聚合192
小结196
思考与练习196
第7章Pandas数据分析与可视化/197
7.1数据基本统计分析197
7.1.1了解数据信息197
7.1.2统计描述199
7.1.3统计计算200
7.1.4位置计算207
7.2数据选取与查询209
7.2.1选取指定列的数据210
7.2.2选取一行数据212
7.2.3选取多行数据212
7.2.4选取指定行列数据214
7.2.5剔除区间以外的数据215
7.2.6其他复杂查询选取数据215
7.3数据排序与排名218
7.3.1按索引排序218
7.3.2按值排序219
7.3.3数据排名221
7.4常用的数据分析223
7.4.1分组分析223
7.4.2分布分析225
7.4.3交叉分析229
7.4.4结构分析230
7.4.5相关分析231
7.5Pandas可视化方法232
小结233
思考与练习234
第8章Pandas数据处理与分析实战/235
8.1数据集准备235
8.2编程实现数据处理分析235
8.2.1数据探索235
8.2.2处理数据236
8.3Pandas实现成绩数据处理与分析237
8.3.1数据探索237
8.3.2数据预处理239
8.3.3数据选取241
8.3.4数据分析243
8.3.5数据可视化244
8.3.6数据输出245
小结245
思考与练习245
第9章Matplotlib库绘制可视化图表/246
9.1数据可视化概述246
9.1.1常见的可视化图表类型246
9.1.2可视化图表的基本构成249
9.1.3数据可视化方式选择依据250
9.1.4常见的数据可视化库252
9.2可视化Matplotlib库的概述253
9.2.1Matplotlib库的使用导入与设置253
9.2.2Matplotlib库绘图的层次结构253
9.3Matplotlib库绘图的基本流程254
9.3.1创建简单图表的基本流程254
9.3.2绘制子图的基本流程256
9.4使用Matplotlib库绘制常用图表262
9.4.1绘制直方图262
9.4.2绘制散点图263
9.4.3绘制柱状图264
9.4.4绘制折线图265
9.4.5绘制饼图266
9.4.6绘制面积图270
9.4.7绘制热力图271
9.4.8绘制箱形图272
9.4.9绘制雷达图275
9.4.10绘制3D图形276
小结278
思考与练习278
第10章图表辅助元素定制与美化/279
10.1图表辅助元素的设置279
10.2图表样式定制279
10.2.1默认图表样式279
10.2.2颜色样式定制281
10.2.3线型样式选择282
10.2.4数据标记添加283
10.2.5字体样式设置284
10.3设置坐标轴的标签、刻度范围和刻度标签286
10.3.1设置坐标轴的标签286
10.3.2设置刻度范围和刻度标签287
10.4标题和图例添加与网格线显示288
10.4.1添加图表标题288
10.4.2添加图表图例289
10.4.3显示网格线290
10.5添加参考线和参考区域290
10.5.1显示网格线290
10.5.2添加参考区域291
10.6添加注释文本与表格291
10.6.1添加指向型注释文本291
10.6.2添加无指向型注释文本292
10.6.3在图表中添加表格293
小结294
思考与练习295
第11章Seaborn绘制数据分析图表/296
11.1Seaborn与数据集加载296
11.1.1Seaborn概述296
11.1.2Seaborn数据集加载297
11.2Seaborn图表的基本设置298
11.2.1背景风格设置298
11.2.2设置绘图元素比例298
11.2.3边框控制299
11.3常用图表的绘制300
11.3.1可视化数据的分布300
11.3.2对分类数据绘图305
11.3.3类别内的统计估计307
小结310
思考与练习311
第12章时间序列数据处理与分析/312
12.1日期和时间数据类型312
12.1.1datetime构造312
12.1.2数据转换314
12.2时间序列的基本操作315
12.2.1创建时间序列315
12.2.2通过时间戳索引选取子集317
12.3固定频率的时间序列319
12.3.1创建固定频率的时间序列319
12.3.2时间序列的频率、偏移量321
12.3.3时间序列的移动323
12.4时间周期及计算324
12.4.1时期对象创建与运算324
12.4.2时期的频率转换326
12.5重采样处理326
12.5.1重采样方法(resample)327
12.5.2降采样328
12.5.3升采样328
12.6窗口计算处理330
12.7基于四类影响要素的时间序列分析332
小结334
思考与练习335
第13章文本数据分析/336
13.1文本数据处理与分析工具336
13.1.1文本数据处理336
13.1.2语料库中的NLTK与jieba338
13.1.3安装NLTK和下载语料库339
13.1.4jieba库的安装341
13.2文本预处理341
13.2.1预处理的流程342
13.2.2分词343
13.2.3词性标注345
13.2.4词形归一化346
13.2.5删除停用词348
13.3文本情感分析349
小结352
思考与练习352
第14章图像处理与分析/353
14.1OpenCV概述353
14.2cv2图像处理基础353
14.2.1cv2的基本方法与属性353
14.2.2图像处理中的阈值355
14.2.3cv2图像处理中的几何变换357
14.3图像的降噪处理362
14.3.1均值滤波器图像降噪362
14.3.2中值滤波器图像降噪363
14.3.3高斯滤波器图像降噪364
14.3.4双边滤波器图像降噪366
14.4图像中的图形检测367
14.4.1图像的轮廓367
14.4.2图像处理中的边缘检测369
14.5图像的分割370
14.5.1常用的图像分割方法370
14.5.2基于Kmeans的图像分割371
14.5.3基于区域生长的图像分割373
14.5.4基于分水岭算法的图像分割374
小结376
思考与练习377
我国“十四五”规划纲要已明确将大数据上升为国家战略,我们已经进入以大数据为基础的智能时代,大数据正在成为智慧农业、智能制造、智慧城市、智慧医疗等各行业数字转型的重要工具, 对数据分析相关岗位的需求愈来愈多。
无论你是处于单位中的哪个岗位,从科研数据的结果处理、到企业的专职数据分析、市场策划、销售运营、客户服务,都要求掌握数据分析。只要单位有业务决策需求,都离不开数据分析这个“工具”,数据分析是业务绩效的关键组成部分。数据分析逐步成为各个行业通吃的技能,能够洞察数据规律,做出驱动业务高效增长决策的人才必是市场上的“抢手货”,且都能有不错的收入水平。因此,未来大家都需要掌握一定的数据分析技能。
本书的编写是 第二批新工科研究与实践项目“涉农院校新工科人才培养实践创新平台建设探索与实践(EXTYR20200604)”的项目成果。本书的特色主要体现在以下4点。
(1) 主流技术,系统详尽。本书内容丰富,涵盖了数据分析中的主流常用库: NumPy、Pandas、Matplotlib和Seaborn等,内容系统详细,配套资源丰富,方便教学和学习。
(2) 层层递进,融会贯通。内容从Python的基础知识讲起,结合应用背景,由浅入深,力求易懂,尽量避免晦涩难懂的专业解释,帮助读者轻松入门。
(3) 示例丰富,轻松易学。结合有应用背景的例子,尽量做到知识点有应用点,透彻讲述了数据处理、分析以及可视化。
(4) 图文解析,步骤详尽。本书采用图文结合的方式,能够让读者直观、清晰地了解操作步骤和呈现效果,方便读者校对操作时的正误。
本书从基础和实践两个层面引导读者学习利用Python技术,系统、全面地讨论了Python数据分析与可视化的思想和方法。具体体现在如下内容。
第1章数据分析与可视化概述,主要介绍了数据分析与可视化的概念、数据分析与可视化基本流程、数据分析与可视化开发环境安装与包管理、Jupyter Notebook的启动与使用方法、常见的数据分析与可视化工具等内容。
第2章Python编程基础,主要介绍了Python语法基础、列表和元组、字典和集合、程序控制结构、函数、面向对象、模块与包等内容。
第3章NumPy数组计算,主要介绍了NumPy与数组对象、数组对象的数据类型、数组运算、数组元素的操作及数组的重塑和转置等内容。
第4章Pandas基础知识,主要介绍了Pandas与数据结构、Pandas索引操作、数据编辑和Pandas中调用函数的方法等内容。
第5章Pandas数据获取与清洗,主要介绍了数据获取操作、数据清洗、数据格式化、数据保存操作等内容。
第6章Pandas数据形式变化,主要介绍了数据集成与合并、数据变换、层次化索引与数据重塑、数据分组与聚合等内容。
第7章Pandas数据分析与可视化,主要介绍了数据基本统计分析、数据选取与查询、数据排序与排名、常用的数据分析、Pandas可视化方法等内容。
第8章Pandas数据处理与分析实战,主要介绍了对学生考试成绩数据进行处理分析,让读者体验从Python编程到Pandas库等做数据处理与分析知识的应用实践。
第9章Matplotlib库绘制可视化图表,主要介绍了数据可视化概述、可视化Matplotlib库的概述、Matplotlib库绘图的基本流程、使用Matplotlib库绘制常用图表等内容。
第10章图表辅助元素定制与美化,主要介绍了图表辅助元素的设置、图表样式定制、设置坐标轴的标签、刻度范围和刻度标签、标题和图例添加与网格线显示、添加参考线和参考区域、添加注释文本与表格等内容。
第11章Seaborn绘制数据分析图表,主要介绍了Seaborn与数据集加载、Seaborn图表的基本设置、常用图表的绘制等内容。
第12章时间序列数据处理与分析,主要介绍了日期和时间数据类型、时间序列的基本操作、固定频率的时间序列、时间周期及计算、重采样处理、窗口计算处理、基于四类影响要素的时间序列分析等内容。
第13章文本数据分析,主要介绍了文本数据处理与分析工具、文本预处理、文本情感分析等内容。
第14章图像处理与分析,主要介绍了OpenCV概述、cv2图像处理基础、图像的降噪处理、图像中的图形检测、图像的分割等内容。
本书的参考课时为32~48学时,可以作为高校数据科学与大数据技术、大数据管理与应用、软件工程和计算机科学与技术等专业的教材,也适合从事相关工作的人员阅读。
本书由李辉、倪健编写,在编写过程中,张标、孙鑫鑫、朱玲、金晓萍等提出了宝贵的修改意见和建议,在此表示感谢。
由于编者水平有限,加之Python语言的发展日新月异,书中难免会有疏漏和不足之处,敬请广大读者批评指正。
编者
2023年1月
评论
还没有评论。