描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111685456丛书名: 数据分析与决策技术丛书
(1)要用好Python,必先学好Pandas,它是数据科学武器库中的瑞士军刀;
(2)初学者的系统学习入门书,资深Python工程师的案头速查手册;
(3)聚焦读者痛点,全面、详尽讲解Pandas,知识精练,代码简洁,案例实用;
(4)学术界和企业界多位专家联袂推荐。
如果你想充分发挥Python的强大作用,如果你想成为一名好的Python工程师,你应该先学好Pandas。
这是一本全面覆盖了Pandas使用者的普遍需求和痛点的著作,基于实用、易学的原则,从功能、使用、原理等多个维度对Pandas做了全方位的详细讲解,既是初学者系统学习Pandas难得的入门书,又是有经验的Python工程师案头必不可少的查询手册。
本书共17章,分为七部分。
部分(第1~2章) Pandas入门
首先介绍了Pandas的功能、使用场景和学习方法,然后详细讲解了Python开发环境的搭建,Z后介绍了Pandas的大量基础功能,旨在引领读者快速入门。
第二部分(第3~5章) Pandas数据分析基础
详细讲解了Pandas读取与输出数据、索引操作、数据类型转换、查询筛选、统计计算、排序、位移、数据修改、数据迭代、函数应用等内容。
第三部分(第6~9章) 数据形式变化
讲解了Pandas的分组聚合操作、合并操作、对比操作、数据透视、转置、归一化、标准化等,以及如何利用多层索引对数据进行升降维。
第四部分(第10~12章) 数据清洗
讲解了缺失值和重复值的识别、删除、填充,数据的替换、格式转换,文本的提取、连接、匹配、切分、替换、格式化、虚拟变量化等,以及分类数据的应用场景和操作方法。
第五部分(第13~14章)时序数据分析
讲解了Pandas中对于各种时间类型数据的处理和分析,以及在时序数据处理中经常使用的窗口计算。
第六部分(第15~16章) 可视化
讲解了Pandas的样式功能如何让数据表格更有表现力,以及Pandas的绘图功能如何让数据自己说话。
第七部分(第17章) 实战案例
介绍了从需求到代码的思考过程,如何利用链式编程思想提高代码编写和数据分析效率,以及数据分析的基本方法与需要掌握的数据分析工具和技术栈,此外还从数据处理和数据分析两个角度给出了大量的应用案例及代码详解。
前言
部分 Pandas入门
第1章 Pandas简介及快速入门2
1.1 Pandas是什么2
1.1.1 Python简介2
1.1.2 Python的应用3
1.1.3 为什么不选择R4
1.1.4 Pandas简介4
1.1.5 Pandas的使用人群5
1.1.6 Pandas的基本功能5
1.1.7 Pandas的学习方法6
1.1.8 小结6
1.2 环境搭建及安装6
1.2.1 Python环境安装7
1.2.2 Anaconda简介7
1.2.3 安装miniconda8
1.2.4 多Python版本环境9
1.2.5 安装编辑器10
1.2.6 Jupyter Notebook10
1.2.7 用pip安装三方库11
1.2.8 安装Jupyter Notebook12
1.2.9 启动Jupyter Notebook12
1.2.10 使用Jupyter Notebook13
1.2.11 安装Pandas14
1.2.12 小结14
1.3 Pandas快速入门14
1.3.1 安装导入14
1.3.2 准备数据集15
1.3.3 读取数据15
1.3.4 查看数据16
1.3.5 验证数据17
1.3.6 建立索引17
1.3.7 数据选取18
1.3.8 排序19
1.3.9 分组聚合19
1.3.10 数据转换20
1.3.11 增加列21
1.3.12 统计分析21
1.3.13 绘图21
1.3.14 导出24
1.3.15 小结24
1.4 本章小结24
第2章 数据结构25
2.1 数据结构概述25
2.1.1 什么是数据25
2.1.2 什么是数据结构26
2.1.3 小结26
2.2 Python的数据结构26
2.2.1 数字27
2.2.2 字符串27
2.2.3 布尔型28
2.2.4 列表29
2.2.5 元组30
2.2.6 字典30
2.2.7 集合31
2.2.8 小结32
2.3 NumPy32
2.3.1 NumPy简介33
2.3.2 数据结构33
2.3.3 创建数据34
2.3.4 数据类型34
2.3.5 数组信息35
2.3.6 统计计算35
2.3.7 小结35
2.4 Pandas的数据结构35
2.4.1 Series36
2.4.2 DataFrame36
2.4.3 索引37
2.4.4 小结38
2.5 Pandas生成数据38
2.5.1 导入Pandas38
2.5.2 创建数据38
2.5.3 生成Series40
2.5.4 生成DataFrame41
2.5.5 小结43
2.6 Pandas的数据类型43
2.6.1 数据类型查看43
2.6.2 常见数据类型44
2.6.3 数据检测44
2.6.4 小结45
2.7 本章小结45
第二部分 Pandas数据分析基础
第3章 Pandas数据读取与输出48
3.1 数据读取48
3.1.1 CSV文件49
3.1.2 Excel49
3.1.3 JSON 50
3.1.4 HTML50
3.1.5 剪贴板51
3.1.6 SQL51
3.1.7 小结52
3.2 读取CSV52
3.2.1 语法52
3.2.2 数据内容53
3.2.3 分隔符53
3.2.4 表头54
3.2.5 列名54
3.2.6 索引54
3.2.7 使用部分列54
3.2.8 返回序列55
3.2.9 表头前缀55
3.2.10 处理重复列名55
3.2.11 数据类型55
3.2.12 引擎55
3.2.13 列数据处理56
3.2.14 真假值转换56
3.2.15 跳过指定行56
3.2.16 读取指定行57
3.2.17 空值替换57
3.2.18 保留默认空值57
3.2.19 日期时间解析58
3.2.20 文件处理59
3.2.21 符号60
3.2.22 小结61
3.3 读取Excel61
3.3.1 语法61
3.3.2 文件内容62
3.3.3 表格62
3.3.4 表头62
3.3.5 列名62
3.3.6 其他62
3.3.7 小结63
3.4 数据输出63
3.4.1 CSV63
3.4.2 Excel63
3.4.3 HTML64
3.4.4 数据库(SQL)64
3.4.5 Markdown65
3.4.6 小结65
3.5 本章小结65
第4章 Pandas基础操作66
4.1 索引操作66
4.1.1 认识索引66
4.1.2 建立索引67
4.1.3 重置索引68
4.1.4 索引类型68
4.1.5 索引对象69
4.1.6 索引的属性70
4.1.7 索引的操作70
4.1.8 索引重命名72
4.1.9 修改索引内容72
4.1.10 小结73
4.2 数据的信息73
4.2.1 查看样本73
4.2.2 数据形状74
4.2.3 基础信息74
4.2.4 数据类型74
4.2.5 行列索引内容75
4.2.6 其他信息75
4.2.7 小结75
4.3 统计计算76
4.3.1 描述统计76
4.3.2 数学统计77
4.3.3 统计函数78
4.3.4 非统计计算79
4.3.5 小结80
4.4 位置计算80
4.4.1 位置差值diff()80
4.4.2 位置移动shift()81
4.4.3 位置序号rank()81
4.4.4 小结82
4.5 数据选择82
4.5.1 选择列83
4.5.2 切片[]83
4.5.3 按轴标签.loc84
4.5.4 按数字索引.iloc86
4.5.5 取具体值.at/.iat86
4.5.6 获取数据.get86
4.5.7 数据截取.truncate87
4.5.8 索引选择器87
4.5.9 小结87
4.6 本章小结88
第5章 Pandas高级操作89
5.1 复杂查询89
5.1.1 逻辑运算89
5.1.2 逻辑筛选数据91
5.1.3 函数筛选92
5.1.4 比较函数92
5.1.5 查询df.query()93
5.1.6 筛选df.filter()93
5.1.7 按数据类型查询93
近年来,国内掀起了一股学习Python的热潮。作为一名互联网产品经理,我也不能免俗。凭借不错的学习能力,我很快就入了门,但接下来,用Python来干什么却成了问题,我因此迷茫了很久。后来我做数据相关的产品,经常要涉及数据采集、数据处理、数据分析等工作,总算有了相契合的使用场景。使用Python的时间越长,对Python的强大功能的体会就越深,于是我又把它推广到了团队。
这段从入门到实践的Python学习之旅也引发我思考:我们学习Python是在学什么?虽然听说Python什么都能做,但我发现,普通学习者在学习了Python的语法、数据类型、流程控制、函数、类等内容后,还是不知道Python能解决什么问题。
于是,我找到Python在全社会常见、广泛的使用场景,那就是收集数据、处理Excel表格、做数据分析,简单来说就是代替Excel的复杂操作,实现高效办公。而Pandas正是解决这方面问题的专业数据科学库。Pandas既能完成上述这些基础操作,又能在数据建模、机器学习等更高层次的领域发挥重要作用。
所以,对于Python的初学者,我都建议直接学Pandas,因为一来它能应对上述真实需求,学完就能解决问题;二来随着学习的深入,你会发现不论哪个领域都需要一个数据结构来承载数据,而Pandas提供的Series和DataFrame结构正好解决了这个问题。
读者对象
如同Python在诸多领域有广泛应用一样,Pandas处理的是数据问题,同样在各行各业都能展现其魅力,因此本书没有预设读者的行业和职业。阅读本书需要掌握一点Python的语法、数据结构和函数方面的基础知识,不过零基础的读者也完全可以理解本书的内容,本书会介绍Python环境的安装和Python的数据结构,方便初学者入门学习。阅读本书也不需要有专业的线性代数和概率统计学知识,只需具备基础的数学知识即可。
不过,还是强烈推荐以下人群阅读本书:
Excel中度、重度使用者,如文秘、公关人员、教师,从事行政、人力资源、市场和销售等工作的人员;
数据分析师、商业分析师、数据科学家;
互联网运营人员、数据运营人员;
互联网产品经理、项目经理;
开发人员、测试人员、算法人员;
财务、会计、金融从业者;
企业决策者、管理人员。
本书特色
不同于市面上众多由开发人员编写的Python图书,本书作者非技术人员出身,更能从用户体验角度入手解决学习者的痛点。本书有以下特色:
专注于介绍Pandas;
非技术思维,语言通俗易懂,面向应用;
不需要相关背景知识,不引入Python的高级用法;
减少变量的传递,代码短小精练;
覆盖知识全,几乎囊括了Pandas的所有函数和方法;
较少使用专业技术名词及统计学知识;
案例使用极简数据集,方便理解;
使用了流行的链式方法,代码简洁,逻辑清晰,可读性强;
有大量的实用案例。
为了减少篇幅,书中未展示部分不必要的输出结果,读者可自行执行代码查看结果。本书没有一一介绍一些方法的不重要参数,对有些同时适用于DataFrame和Series的方法也未重复介绍,读者可参考Pandas官方文档进一步学习。除了常规的系统学习外,还可以将本书作为工具书,在日常操作中随手查阅。本书也可作为技能培训教材,在教学中使用。
如何阅读本书
使用Pandas是一项技能,需要多动手实践才能熟练掌握。因此,阅读本书好的方法是紧跟书中的思路,对照书中的代码,自己输入电脑中运行,然后在工作和生活中发现应用场景,去解决实际问题。同时建议将本书所有的方法都过一遍,以了解各种工具的作用,这样遇到问题时心中才会有方案。后,建议多看看Pandas官方文档,学会看API说明,如果有能力,可以看看源码的实现,让自己对Pandas的掌握更上一层楼。
本书共17章,分为七部分,全面介绍了如何利用Pandas进行数据处理和数据分析。
部分(第1~2章) Pandas入门
主要介绍了Python和Pandas是什么,它们有哪些数据结构和数据类型,以及Pandas开发环境的搭建,此外还介绍了Pandas的快速入门。
第二部分(第3~5章) Pandas数据分析基础
主要介绍了Pandas读取与输出数据、索引操作、数据类型转换、查询筛选、统计计算、排序、位移、数据修改、数据迭代、函数应用等内容。
第三部分(第6~9章) 数据形式变化
主要介绍了Pandas的分组聚合操作、合并操作、对比操作、数据透视、转置、归一化、标准化等,还包括利用多层索引对数据进行升降维处理。
第四部分(第10~12章) 数据清洗
主要介绍了缺失值和重复值的识别、删除、填充,数据的替换、格式转换,文本的提取、连接、匹配、切分、替换、格式化、虚拟变量化等,还介绍了分类数据的应用场景和操作方法。
第五部分(第13~14章) 时序数据分析
主要介绍了Pandas中对于时间类型数据的处理和分析,包括固定时间、时长、周期、时间偏移等的表示方法、查询、计算、格式处理,以及时区转换、重采样、工作日和工作时间的处理方法。本部分还讲解了在时序数据处理中经常使用的窗口计算。
第六部分(第15~16章) 可视化
主要介绍了P
Python在大数据、人工智能领域的应用十分广泛,依托其丰富的数据科学生态库,我们可以高效地进行相关的理论研究和业务实践。作为Python数据科学的核心力量之一,Pandas是学习大数据、人工智能的基础工具。本书从理论到实践、深入浅出地对Pandas做了全面介绍,是非常合适的学习材料。
——张军平 复旦大学计算机科学技术学院教授
Pandas是一款大数据领域的优秀工具,拥有非常广泛的应用场景。本书是一本全面讲解Pandas的优秀著作,不仅详细介绍了Pandas的数据采集、处理、展示等常见实践场景,而且给出了丰富的代码示例和运行效果,是理论和实践相结合的典范。
——陈运文 博士/国家“万人计划”专家/达观数据CEO
Pandas是一个快速、强大、灵活且易用的开源数据分析和操作工具,它建立在Python之上,已被广泛应用在统计分析和机器学习领域。它是建立数据分析管道的后一公里,熟练掌握它,我们就能从海量数据中高效提取关键信息。本书全面系统地介绍了Pandas的各种方法,并结合简洁、清晰的代码片段,辅以大量的应用案例,使我们能够深刻理解Pandas的设计理念,并掌握其使用方法,非常值得阅读。
——耿杰森 美国数据工程与科学协会主席
作为Python的重度使用者,我将Pandas作为处理数据的主要工具库。本书覆盖了日常工作中的主要数据处理场景,详细介绍了众多的功能和方法,且内容深入浅出,简单易懂。本书既可以作为初学者的Pandas入门书,也可以作为Pandas高手随手查阅的工具书。
——宋天龙 触脉咨询合伙人/《Python数据分析与数据化运营》作者
对于互联网时代的分析师而言,利用Python进行数据处理已经成为一项基础能力,而Pandas是Python中用来处理数据的核心库,因此我们十分有必要掌握它。本书深入浅出地介绍了Pandas的常见用法,推荐给想要系统学习Pandas的读者。
——张俊红 《对比Excel,轻松学习Python数据分析》作者
评论
还没有评论。