描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302530169
本书介绍了Python语言中的核心工具和库,以帮助读者与数据分析处理过程协同工作、准备相关数据以执行简单的统计学分析,进而构建具有实际意义的数据可视化结果。本书将讨论Python语言中的各种库,如NumPy、pandas、matplotlib、seaborn、SciPy和scikit-learn,并将其应用于实际数据分析和统计示例中。在阅读过程中,读者将会领略到如何高效地使用Jupyter Noyebook,并借助于NumPy和landas库对数据进行操控。此外,还将利用Python库实现简单的预测模型、统计计算-分析和数据分析技术。
本书既可作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。
第1章 Anaconda和Jupyter Notebook 1
1.1 Anaconda 1
1.2 Jupyter Notebook 3
1.2.1 创建自己的Jupyter Notebook 3
1.2.2 Jupyter Notebook用户界面 4
1.3 使用Jupyter Notebook 5
1.3.1 在代码单元格中运行代码 5
1.3.2 在文本单元格中运行markdown语法 6
1.3.3 键盘快捷操作 9
1.4 本章小结 10
第2章 NumPy向量计算 11
2.1 NumPy简介 11
2.2 NumPy数组 13
2.2.1 在NumPy中创建数组 13
2.2.2 数组的属性 16
2.2.3 数组中的基本数学运算 17
2.2.4 数组的常见操作 19
2.3 使用NumPy进行模拟 23
2.3.1 投掷硬币 23
2.3.2 模拟股票收益 25
2.4 本章小结 27
第3章 数据分析库pandas 29
3.1 pandas库 29
3.1.1 导入pandas中的对象 30
3.1.2 Series 30
3.1.3 创建pandas中的Series 31
3.1.4 DataFrame 34
3.1.5 创建pandas DataFrame 35
3.1.6 剖析DataFrame 36
3.2 pandas操作 37
3.2.1 检查数据 37
3.2.2 数据的选取、添加和删除 37
3.2.3 DataFrame切片 40
3.2.4 基于标记的选择操作 40
3.3 数据集 42
3.3.1 数据集中按部门划分的员工数量 42
3.3.2 员工的流失率 42
3.3.3 平均时薪 43
3.3.4 平均工作年限 43
3.3.5 任职时间最长的员工 44
3.3.6 员工的整体满意度 44
3.4 进一步思考 46
3.4.1 低满意度员工 46
3.4.2 低工作满意度和低工作参与度的员工 47
3.4.3 员工比较 48
3.5 本章小结 53
第4章 可视化和数据分析 55
4.1 matplotlib简介 55
4.2 pyplot简介 58
4.3 面向对象接口 64
4.4 常见的自定义方式 70
4.4.1 颜色 70
4.4.2 限定坐标轴 71
4.4.3 设置刻度和刻度标记 71
4.4.4 图例 73
4.4.5 标注 74
4.4.6 生成网格、水平线和垂直线 75
4.5 基于seaborn和pandas的EDA 76
4.5.1 seaborn库 76
4.5.2 执行探索性数据分析 77
4.5.3 核心目标 78
4.5.4 变量类型 78
4.6 单独分析变量 79
4.6.1 理解主变量 80
4.6.2 数值变量 81
4.6.3 类别变量 83
4.7 变量间的关系 86
4.7.1 散点图 86
4.7.2 箱形图 89
4.7.3 复杂的条件图 92
4.8 本章小结 94
第5章 Python统计计算 95
5.1 SciPy简介 95
5.1.1 统计子包 95
5.1.2 置信区间 98
5.1.3 概率计算 100
5.2 假设测试 101
5.3 执行统计测试 102
5.4 本章小结 107
第6章 预测分析模型 109
6.1 预测分析和机器学习 109
6.2 理解scikit-learn库 110
6.3 使用scikit-learn构建回归模型 113
6.4 利用回归模型预测房屋价格 118
6.5 本章小结 122
Python是高级数据分析师和统计人员所用的最常见和最流行的语言之一,可用于处理大型数据集和复杂的数据可视化任务。
本书介绍了Python语言中的核心工具和库,以帮助读者与数据分析处理过程协同工作、准备相关数据以执行简单的统计学分析,进而构建具有实际意义的数据可视化结果。本书将讨论Python语言中的各种库,如NumPy、pandas、matplotlib、seaborn、SciPy和scikit-learn,并将其应用于实际数据分析和统计示例中。在阅读过程中,读者将会领略到如何高效地使用Jupyter Noyebook,并借助于NumPy和landas库对数据进行操控。此外,还将利用Python库实现简单的预测模型、统计计算-分析和数据分析技术。
在阅读完本书后,读者在基于Python的数据分析方面将具备较为丰富的经验。
适用读者
本书面向初级数据分析师、数据工程师和BI专业人员,他们希望使用Python工具执行高效的数据分析。要理解本书所涉及的概念,读者应具备Python编程方面的一些背景知识。
本书内容
第1章:Anaconda和Jupyter Notebook。本章介绍了Python中一些较为重要的数据科学库,并对Python预测分析所用的主要对象、属性、方法和函数进行了整体描述。
第2章:NumPy向量计算。本章讨论NumPy库,这也是Python项目中几乎全部科学计算所使用的库。学习如何使用NumPy数组,对于Python数据科学来说十分重要。
第3章:数据分析库pandas。本章将整体介绍pandas库。对于Python编程语言来说,pandas库提供了高性能、易于使用的数据结构和分析工具,因而受到了数据科学家以及Python社区开发者的喜爱。本章将通过相关示例展示如何利用pandas执行描述性分析。
第4章:可视化和数据分析。本章将考查数据科学的可视化效果。Python针对不同的功能提供了多种可视化选项。本章将学习两种最为流行的库,即matplotlib和seaborn,并面向真实数据集执行探索性数据分析。
第5章:Python统计计算。本章解释了如何利用Python执行统计计算,并据此考查包含青少年饮酒信息的数据集。
第6章:预测分析模型。本章简要介绍了预测分析,并通过构建一个模型对青少年的饮酒习惯进行预测。
资源下载
本书将引领读者整体了解Python中的数据分析过程、Python数据科学栈中的主要库,并讨论如何使用各种Python工具有效地分析、可视化和处理数据。
读者可访问http://www.packtpub.com并通过个人账户下载示例代码文件。另外,在http://www.packtpub.com/support中注册成功后,我们将以电子邮件的方式将相关文件发与读者。
读者可根据下列步骤下载代码文件。
(1)访问www.packtpub.com,利用电子邮件地址和密码登录,或注册。
(2)选择SUPPORT选项卡。
(3)单击Code Downloads & Errata。
(4)在Serach文本框中输入书名。
当文件下载完毕后,确保使用下列最新版本软件解压文件夹。
? Windows系统下的WinRAR/7-Zip。
? Mac系统下的Zipeg/iZip/UnRarX。
? Linux系统下的7-Zip/PeaZip。
另外,读者还可访问GitHub获取本书的代码包,对应网址为https://github.com/ PacktPublishing/Become-a-Python-Data-Analyst。此外,读者还可访问https://github.com/ PacktPublishing/,以了解丰富的代码和视频资源。
下载彩色图像
另外,我们还进一步提供了本书所用截图/图表的彩色图像,读者可访问http://www. packtpub.com/sites/default/files/downloads/BecomeaPythonDataAnalyst_ColorImages.pdf进行下载。
本书约定
本书通过不同的文本风格区分相应的信息类型。下面通过一些示例对此类风格以及具体含义的解释予以展示。
代码块如下所示。
# The largest heading
## The second largest heading
###### The smallest heading
当某个代码块希望引起读者的足够重视时,一般会采用黑体表示,如下所示。
[default]
exten => s,1,Dial(Zap/1|30)
exten => s,2,Voicemail
(u100)
exten => s,102,Voicemail(b100)
exten =>
i,1,Voicemail(s0)
图标则表示较为重要的说明事项。
图标则表示提示信息和操作技巧。
读者反馈和客户支持
欢迎读者对本书的建议或意见予以反馈。对此,读者可向[email protected]发送邮件,并以书名作为邮件标题。若读者对本书有任何疑问,均可发送邮件至[email protected],我们将竭诚为您服务。若读者针对某项技术具有专家级的见解,抑或计划撰写书籍或完善某部著作的出版工作,则可访问www.packtpub.com/authors。
勘误表
尽管我们在最大程度上做到尽善尽美,但错误依然在所难免。如果读者发现谬误之处,无论是文字错误抑或是代码错误,还望不吝赐教。对此,读者可访问http://www.packtpub.com/ submit-errata,选取对应书籍,然后单击Errata Submission Form超链接,并输入相关问题的详细内容。
版权须知
一直以来,互联网上的版权问题从未间断,Packt出版社对此类问题异常重视。若读者在互联网上发现本书任意形式的副本,请告知网络地址或网站名称,我们将对此予以处理。关于盗版问题,读者可发送邮件至[email protected]。
评论
还没有评论。