描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111726722
适读人群 :本书是对Python数据科学工具的实操化、现代化的介绍,非常适合刚学Python的数据分析师或刚学数据科学以及科学计算的Python编程者。
本书第1版出版于2012年,彼时基于Python的开源数据分析库(例如pandas)仍然是一个发展迅速的新事物,本书也成为该领域排名No1的经典畅销书,前两版中文版累计销售近30万册。
阅读本书可以学习使用Python对数据集进行操作、处理、清洗和规整。第3版针对Python 3.10和pandas 1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。
本书作者Wes McKinney是Python pandas项目的创始人。本书对Python数据科学工具的介绍既贴近实战又内容新颖,非常适合刚开始学习Python的数据分析师或刚开始学习数据科学和科学计算的Python程序员阅读。读者可以从GitHub获取数据文件和相关资料。
学完本书,你将能够:
• 使用Jupyter notebook和IPython shell进行探索性计算。
• 掌握NumPy的基础功能和高级功能。
• 掌握pandas库中的数据分析工具。
• 使用灵活的工具对数据进行加载、清洗、转换、合并和重塑。
• 使用matplotlib进行信息可视化。
• 使用pandas的groupBy功能对数据集进行切片、切块和汇总。
• 分析并处理规则的时间序列数据和不规则的时间序列数据。
• 利用完整、详细的示例学习如何解决现实中的数据分析问题。
本书是Python数学分析经典畅销书的升级版,由Python pandas项目的创始人Wes McKinney撰写。自2012年第1版出版以来,迅速成为该领域的权威指南,并且为了与时俱进,作者也在对本书内容进行持续更新,以摒弃一些过时、不兼容的工具,添加新的内容,用以介绍一些新特性、新工具及方法。本书第3版针对Python 3.10和pandas 1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。
第1章 准备工作7
1.1 本书内容7
1.2 为什么使用Python进行数据分析8
1.3 重要的Python库9
1.4 安装和设置14
1.5 社区和会议18
1.6 本书导航18
第2章 Python语法基础、IPython和Jupyter notebook21
2.1 Python解释器22
2.2 IPython基础23
2.3 Python语法基础29
2.4总结47
第3章 Python的数据结构、函数和文件48
3.1 数据结构和序列48
3.2 函数65
3.3 文件和操作系统76
3.4 总结81
第4章 NumPy基础:数组和向量化计算82
4.1 NumPy的ndarray:多维数组对象84
4.2 生成伪随机数101
4.3 通用函数:快速的元素级数组函数103
4.4 利用数组进行面向数组编程105
4.5 使用数组进行文件输入和输出113
4.6 线性代数114
4.7 示例:随机漫步115
4.8 总结118
第5章 pandas入门119
5.1 pandas的数据结构介绍120
5.2 基本功能133
5.3 描述性统计的汇总和计算159
5.4 总结167
第6章 数据加载、存储与文件格式168
6.1 读写文本格式的数据168
6.2 二进制数据格式185
6.3 与Web API交互190
6.4 与数据库交互191
6.5 总结193
第7章 数据清洗和准备194
7.1 处理缺失数据194
7.2 数据转换200
7.3 扩展数据类型214
7.4 字符串操作216
7.5 分类数据224
7.6 总结233
第8章 数据规整:连接、联合和重塑234
8.1 层次化索引234
8.2 联合与合并数据集240
8.3 重塑和透视256
8.4 总结264
第9章 绘图和可视化265
9.1 matplotlib API入门266
9.2 使用pandas和seaborn绘图279
9.3 其他Python可视化工具293
9.4 总结294
第10章 数据聚合与分组操作295
10.1 GroupBy机制296
10.2 数据聚合304
10.3 Apply:通用的“拆分-应用-联合”范式310
10.4 分组转换和“展开式”GroupBy运算322
10.5 透视表和交叉表326
10.6 总结330
第11章 时间序列331
11.1 日期和时间数据的类型及工具332
11.2 时间序列基础知识336
11.3 日期的范围、频率以及移位341
11.4 时区处理348
11.5 周期及其算术运算353
11.6 重采样及频率转换360
11.7 移动窗口函数369
11.8 总结375
第12章 Python建模库介绍376
12.1 pandas与模型代码的接口376
12.2 用Patsy创建模型描述379
12.3 statsmodels介绍385
12.4 scikit-learn介绍390
12.5 总结393
第13章 数据分析案例395
13.1 来自1.USA.gov的Bitly数据395
13.2 MovieLens 1M数据集404
13.3 1880—2010年间全美婴儿姓名411
13.4 USDA食品数据库425
13.5 2012年联邦选举委员会数据库431
13.6 总结440
附录A 高阶NumPy441
附录B 更多关于IPython的内容475
2017年9月,我以SeanCheney为网名在互联网上写作、翻译了一系列文章,内容包括Python数据分析、爬虫、机器学习。出乎意料地,在随后的5年时间里,我得以接触成千上万的读者,其中既有各种专业的学生,也有从事不同行业的职场人士。这让我认识到,除了程序员,越来越多的人正在学习数据分析。身处大数据时代,数据分析能力正逐渐成为现代人不可或缺的一项技能。
在数据分析领域,本书是最值得阅读的图书之一。首先,Python这门语言非常适合初学者。得益于简洁的语法,Python代码的可读性非常好,即便非计算机专业的读者也能快速掌握它。
本书正是以Python作为编程语言来讲解数据分析的,不仅学习门槛低,而且上手快。其次,对于已经入门Python的读者,数据分析是非常好的进阶学习内容。当掌握数据分析之后,读者可以继续学习机器学习、深度学习或者量化金融等。
pandas库是使用Python进行数据分析最主要的工具,而本书作者正是pandas库的创建者,因此对知识点的讲解十分亲切、流畅、自然。最后,本书提供了非常丰富的学习内容,涉及机器学习、统计、时间序列分析、数据可视化。经过三版的迭代,本书的知识体系更加合理和系统化。如果读者能跟随本书示例学习并勤加练习,一定能收获学习和精进的乐趣。
本书第3版最大的变化是紧贴pandas的升级进行扩展,将pandas升级为1.4.0,将Python升级为3.10,主要是新增了方法和特性等内容。作者为第11章新增了分组时间重采样,并将第2版中第12章的内容前置到本书第7章中。曾经不止一次听别人抱怨,pandas的知识点分散、零碎、不便于记忆,作者在细节上也对此进行了改进。在本书中,作者摒弃了许多容易造成记忆混乱的用法,比如,用axis = “columns”替代axis = 1。简写方式破坏了代码的可读性,作者修改了许多类似的编程细节。本书对初学者更为友好了!
早在Python成为主力的数据分析工具之前,Excel、MATLAB、R都是强有力的竞争者。Python能后来居上,除了它极易上手的特性,主要还是归功于开源。本书作者Wes McKinney是开源界的先锋,他早年创建了pandas,后来完全依托开源社群对其维护。社群中不乏优秀的开发者,众人合力推动pandas持续进步,pandas才有如今的影响力。正是因为这种纯粹的开源理念,Wes专门为本书搭建了开源的网页版本,相信pandas社区不仅会进一步壮大,还会迎来一大批新用户和读者。
评论
还没有评论。