描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111573890丛书名: 数据科学与工程技术丛书
译者序
关于审稿人
前言
第1章数据转换成决策——从分析应用着手
1.1设计高级分析方案
1.1.1数据层:数据仓库、数据湖和数据流
1.1.2模型层
1.1.3部署层
1.1.4报告层
1.2案例学习:社交媒体数据的情感分析
1.2.1数据输入和转换
1.2.2合理性检查
1.2.3模型开发
1.2.4评分
1.2.5可视化和报告
1.3案例学习:针对性电子邮件活动
1.3.1数据输入和转换
1.3.2合理性检查
1.3.3模型开发
1.3.4评分
1.3.5可视化和报告
1.4总结
第2章Python数据分析和可视化初探
2.1在IPython中探索分类和数值型数据
2.1.1安装IPython notebook
2.1.2notebook的界面
2.1.3加载和检视数据
2.1.4基本操作——分组、过滤、映射以及透视
2.1.5用Matplotlib绘制图表
2.2时间序列分析
2.2.1清洗和转换
2.2.2时间序列诊断
2.2.3连接信号和相关性
2.3操作地理数据
2.3.1加载地理数据
2.3.2工作在云上
2.4PySpark简介
2.4.1创建SparkContext
2.4.2创建RDD
2.4.3创建Spark DataFrame
2.4总结
第3章在噪声中探求模式——聚类和无监督学习
3.1相似性和距离度量
3.1.1数值距离度量
3.1.2相关相似性度量和时间序列
3.1.3分类数据的相似性度量
3.1.4k均值聚类
3.2近邻传播算法——自动选择聚类数量
3.3k中心点算法
3.4凝聚聚类算法
3.5Spark中的数据流聚类
3.6总结
第4章从点到模型——回归方法
4.1线性回归
4.1.1数据准备
4.1.2模型拟合和评价
4.1.3回归输出的显著性差异
4.1.4广义估计方程
4.1.5混合效应模型
4.1.6时间序列数据
4.1.7广义线性模型
4.1.8线性模型的正则化
4.2树方法
4.2.1决策树
4.2.2随机森林
4.3利用PySpark进一步扩展——预测歌曲的发行年份
4.4总结
第5章数据分类——分类方法和分析
5.1逻辑回归
5.1.1多分类逻辑分类器:多元回归
5.1.2分类问题中的数据格式化
5.1.3基于随机梯度下降法的学习逐点更新
5.1.4使用二阶方法联合优化所有参数
5.2拟合模型
5.3评估分类模型
5.4通过支持向量机分离非线性边界
5.4.1人口普查数据的拟合和SVM
5.4.2Boosting:组合小模型以改善准确度
5.4.3梯度提升决策树
5.5分类方法比较
5.6案例学习:在PySpark中拟合分类器模型
5.7总结
第6章词语和像素——非结构化数据分析
6.1文本数据分析
6.1.1文本数据清洗
6.1.2从文本数据中提取特征
6.1.3利用降维来简化数据集
6.2主分量分析
6.2.1隐含狄利克雷分布
6.2.2在预测模型中使用降维
6.3图像
6.3.1图像数据清洗
6.3.2利用图像阈值来突出显示对象
6.3.3图像分析中的降维
6.4案例学习:在PySpark中训练一个推荐系统
6.5总结
第7章自底向上学习——深度网络和无监督特征
7.1使用神经网络学习模式
7.1.1单一感知器构成的网络
7.1.2感知器组合——一个单层神经网络
7.1.3反向传播的参数拟合
7.1.4判别式模型与生成式模型
7.1.5梯度消失及“解去”
7.1.6预训练信念网络(贝叶斯网络)
7.1.7使用dropout来正则化网络
7.1.8卷积网络和纠正单元
7.1.9利用自编码网络压缩数据
7.1.10优化学习速率
7.2TensorFlow库与数字识别
7.2.1MNIST数据
7.2.2构建网络
7.3总结
第8章利用预测服务共享模型
8.1预测服务的架构
8.2客户端和发出请求
8.2.1GET请求
8.2.2POST请求
8.2.3HEAD请求
8.2.4PUT请求
8.2.5DELETE请求
8.3服务器——Web流量控制器
8.4利用数据库系统持久化存储信息
8.5案例学习——逻辑回归服务
8.5.1建立数据库
8.5.2Web服务器
8.5.3Web应用
8.6总结
第9章报告和测试——分析型系统迭代
9.1利用诊断检查模型的健康度
9.1.1评估模型性能的变化
9.1.2特征重要性的变化
9.1.3无监督模型性能的变化
9.2通过A/B测试对模型进行迭代
9.2.1实验分配——将客户分配给实验
9.2.2决定样本大小
9.2.3多重假设检验
9.3沟通指南
9.3.1将术语转换为业务价值
9.3.2可视化结果
9.3.3报告服务器
9.3.4报告应用
9.3.5可视化层
9.4总结
本书内容第1章讲述了如何描述一个分析管道中的核心组件以及组件间的交互方式,也探讨了批处理和流处理之间的区别,以及每种应用适用的一些情况,还讲解了基于两种范式的基础应用样例以及每一步所需的设计决策。
第2章讨论了着手搭建分析型应用所需完成的诸多工作。运用IPython notebook,我们讨论了如何使用pandas将文件中的数据上传到数据帧中、重命名数据集中的列名、过滤掉不想要的行、转换类型以及创建新的列。另外,我们将整合不同来源的数据,并使用聚合和旋转进行一些基本的统计分析。
第3章将演示如何将一个数据集里的相似项定义成组。这种探索性分析是我们在理解新数据集过程中经常个使用的。我们探索计算数据点值间相似性的不同方法,并描述这些度量可能适合于哪些数据。我们既探讨分裂聚类算法(将数据分解成一组一组更小的部分),也探讨凝聚聚类算法(每个数据点都是一个聚类的开始)。通过一系列数据集,我们将展示每种算法在哪些情景下性能更好或者更差,以及如何优化它们。我们也看到了首个(比较小的)数据管道——PySpark中基于流数据的聚类应用。
第4章探讨了几种回归模型拟合模型,包括将输入参数调整到正确数值范围并对类别特征做出正确说明。我们对线性回归进行拟合、评估,也包括正则化回归模型。我们还研究树回归模型的用处,以及如何优化参数选项来拟合模型。后,我们会讨论一个基于PySpark的简单随机森林模型,该模型也可以用于更大的数据集。
第5章阐述了如何使用分类模型并介绍几种提升模型性能的策略。除了转换类别特征之外,我们讨论了如何利用ROC曲线对逻辑回归准确性进行解释。为了尝试提升模型的性能,我们讲解了SVM的用处。后,我们将使用梯度提升决策树算法,以期在测试数据集上可以取得较好的性能。
第6章讨论复杂的、非结构化的数据。其中还涉及了降维技术(例如HashingVectorizer)、矩阵分解(例如PCA、CUR和NMR)以及概率模型(例如LDA),讨论了图像数据,包括标准化操作和阈值转换操作,并介绍如何使用降维技术找出图像之间的共同模式。
第7章介绍了将深度神经网络作为一种生成模型的方法,来处理那些工程师难以处理其特征的复杂数据。我们将研究如何使用反向传播训练神经网络,并探究附加层难以达到的原因。
第8章描述了一个基本预测服务的三个组件,并探讨这种设计如何使我们与其他用户或者软件系统分享预测模型的结果。
第9章介绍几个监控初步设计后预测模型性能的策略。我们也会讨论一些模型的性能或组件会随时间变化的场景。
阅读准备你需要安装好版的Python、PySpark以及Jupyter notebook。
读者人群本书主要针对业务分析员、BI分析员、数据科学家,或是一些已经掌握高级分析员理论知识的初级数据分析员。通过阅读本书,上述读者将可以运用Python设计并构建高级分析解决方案。读者必须具备基础Python开发经验。
本书约定在本书中,你会发现很多用以区别不同信息的文本样式。以下是一些文本样式的例子,以及每种样式所代表含义的解释。
正文中的代码、数据库表名、文件夹名称、文件名、文件扩展名、路径名、虚拟URL、用户输入,以及Twitter用户名等均以以下模式展现:“使用head()和tail()来查看以下数据的开头和结尾。”
任何命令行的输入或者输出都会采用以下形式:
新名词和重要文字会以加粗格式给出。屏幕上的文字(例如菜单或者对话框)在文中以如下形式展现:“回到文件标签栏,你会注意到在右上角有两个选项。”
表示警示或重要提醒。
表示提示和技巧。
下载样例代码你可以用自己的账户登录http://wwwpacktpubcom下载本书上的样例代码文件。如果你是通过其他途径购买本书,可以访问http://wwwpacktpubcom/support,注册账户申请这些文件。
你也可以访问华章官网http://wwwhzbookcom,通过注册并登录个人账号,下载本书的代码。
下载本书彩图我们也提供本书的PDF文件,支持彩色版的截屏/图表。这些彩色图片会帮助你更好地理解输出的变化。文件下载地址:https://wwwpacktpubcom/sites/default/files/downloads/MasteringPredictiveAnalyticswithPython_ColorImagespdf。
评论
还没有评论。