描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121449451
《商业策略数据分析》作为CDA LEVEL Ⅱ考试教材,打破传统的知识整合模式,从EDIT(探索、诊断、指导和工具)数字化工作模型的角度进行讲解,在介绍知识概念的同时,还讲解了在进行商业策略数据分析时应遵循的整体思维和思考方式,以达到业务宏观分析与用户微观洞察相结合、使用科学的方式进行数据分析的教学目标。
《精益业务数据分析》适合CDA LEVELⅠ应试人员、业务工作人员、数据分析从业人员、数据分析岗位求职人员学习。
本书作为CDA LEVEL Ⅱ考试教材,打破传统的知识整合模式,从EDIT(探索、诊断、指导和工具)数字化工作模型的角度进行讲解,在介绍知识概念的同时,还讲解了在进行商业策略数据分析时应遵循的整体思维和思考方式,以达到业务宏观分析与用户微观洞察相结合、使用科学的方式进行数据分析的教学目标。
本书分为六部分,分别讲解数据科学基础与EDIT 数字化工作模型、数据处理与可视化、根因分析、业务优化,以及数据治理与数据模型管理。其中,第一部分就是第1 章的内容,第二部分包含第2 章和第3 章,第三部分包含第4~8 章,第四部分包含第9~11 章,第部分包含第12 章和第13 章,每章分别针对当前部分的问题进行分析与处理。第六部分是第14章,是案例章节。
目录
第1 章 EDIT 模型概述. 1
1.1 探索阶段 4
1.2 诊断阶段 5
1.3 指导阶段 8
1.4 工具支持 9
1.5 本章练习题 10
第2 章 数据处理 12
2.1 使用pandas 读取结构化数据 .13
2.1.1 读取数据 .14
2.1.2 写出数据 .17
2.2 数据整合 17
2.2.1 行、列操作 .17
2.2.2 条件查询 .21
2.2.3 横向连接 .24
2.2.4 纵向合并 .27
2.2.5 排序 .30
2.2.6 分组汇总 .31
2.2.7 拆分列 .35
2.2.8 赋值与条件赋值 .36
2.3 数据清洗 39
2.3.1 重复值处理 .39
2.3.2 缺失值处理 .40
2.4 本章练习题 43
第3 章 指标体系与数据可视化. 45
3.1 Python 可视化 45
3.1.1 Matplotlib 绘图库 .45
3.1.2 Seaborn 绘图库.54
3.2 描述性统计分析与绘图 60
3.2.1 描述性统计进行数据探索 .60
3.2.2 制作报表与统计制图 .69
3.2.3 制图的步骤 .76
3.3 指标体系 81
3.3.1 建立指标标准 .82
3.3.2 什么是指标体系 .83
3.3.3 构建指标体系的意义 .85
3.3.4 构建指标库 .86
3.3.5 搭建管理分析视图和指标应用模式 .89
3.4 本章练习题 90
第4 章 数据采集与数据预处理. 92
4.1 数据采集方法 92
4.1.1 市场研究中的数据 .92
4.1.2 概率抽样方法 .93
4.1.3 非概率抽样方法 .99
4.1.4 概率抽样和非概率抽样的比较 .101
4.2 市场调研和数据录入 101
4.2.1 市场调研流程 .101
4.2.2 市场调研目标设定 .102
4.2.3 市场调研前的准备工作 .102
4.2.4 实施调研 .109
4.3 数据预处理基础 110
4.3.1 数据预处理基本步骤 .110
4.3.2 错误数据识别与处理 .111
4.3.3 连续型变量离群值识别与处理 .116
4.3.4 分类型变量概化处理 .117
4.3.5 缺失值处理 .118
4.3.6 连续型变量分布形态转换 .122
4.3.7 连续型变量中心标准化或归一化 .122
4.3.8 变量降维 .123
4.3.9 WoE 转换 124
4.4 本章练习题 125
第5 章 宏观业务分析方法 129
5.1 矩阵分析法 129
5.2 连续型变量降维 134
5.2.1 方法概述 .135
5.2.2 变量筛选 .136
5.2.3 维度归约 .136
5.3 主成分分析法 137
5.3.1 主成分分析简介 .137
5.3.2 主成分分析原理 .138
5.3.3 主成分分析的运用 .141
5.3.4 实战案例:在Python 中实现主成分分析 .142
5.3.5 基于主成分的冗余变量筛选 .145
5.4 因子分析 146
5.4.1 因子分析模型 .146
5.4.2 因子分析算法 .148
5.4.3 实战案例:在Python 中实现因子分析 .151
5.5 多维尺度分析 155
5.6 本章练习题 159
第6 章 用户标签体系与用户画像 165
6.1 标签体系的整体框架 167
6.2 标签的分类 168
6.2.1 从研究客体的数据类型角度分类 .168
6.2.2 从标签的时态角度分类 .170
6.2.3 从标签的加工角度分类 .171
6.2.4 业务指标与用户标签的关系 .175
6.3 用户画像 181
6.3.1 细分市场与STP 模型 182
6.3.2 快速入手用户画像 .182
6.3.3 用户分群的发展历程 .185
6.3.4 用户的决策进程 .186
6.3.5 马斯洛需求理论 .187
6.3.6 用户消费的成本与收益 .187
6.3.7 用户细分的方法 .188
6.3.8 基于用户分群的精准营销 .190
6.3.9 标签与数据科学的过程 .191
6.4 实战案例:用Python 实现用户画像 .192
6.4.1 使用Python 进行用户画像的基础知识 .192
6.4.2 用户画像在诊断阶段中的应用 .192
6.4.3 样本数据集介绍 .193
6.4.4 使用SQL 语句进行数据处理 .195
6.4.5 使用Python 进行用户画像 .198
6.5 本章练习题 202
第7 章 使用统计学方法进行变量有效性测试 205
7.1 假设检验 205
7.1.1 假设检验的基本概念 .206
7.1.2 假设检验中的两类错误 .207
7.1.3 假设检验与区间估计的联系 .209
7.1.4 假设检验的基本步骤 .209
7.1.5 配对样本t 检验211
7.2 方差分析 211
7.2.1 单因素方差分析 .212
7.2.2 多因素方差分析 .217
7.3 列联表分析与卡方检验 220
7.3.1 列联表 .220
7.3.2 卡方检验 .222
7.4 线性回归 224
7.4.1 简单线性回归 .225
7.4.2 多元线性回归 .227
7.4.3 多元线性回归的变量筛选 .236
7.4.4 线性回归模型的经典假设 .239
7.4.5 建立线性回归模型的基本步骤 .248
7.5 Logistic 回归 249
7.5.1 逻辑回归的相关关系分析 .252
7.5.2 逻辑回归模型及实现 .253
7.5.3 逻辑回归的极大似然估计 .264
7.5.4 模型评估 .266
7.5.5 因果推断模型 .274
7.6 本章练习题 278
第8 章 使用时间序列分析方法做预报. 294
8.1 认识时间序列 294
8.2 效应分解法 295
8.2.1 时间序列的效应分解 .296
8.2.2 时间序列3 种效应的组合方式 .296
8.3 平稳时间序列分析ARMA 模型 297
8.3.1 平稳时间序列 .297
8.3.2 ARMA 模型 298
8.3.3 在Python 中进行AR 建模 304
8.4 非平稳时间序列分析ARIMA 模型 .310
8.4.1 差分与ARIMA 模型 .310
8.4.2 在Python 中进行ARIMA 建模 313
8.5 ARIMA 建模方法总结 322
8.6 本章练习题 323
第9 章 用户分群方法 327
9.1 用户细分与聚类 327
9.1.1 用户细分的重要意义 .327
9.1.2 用户细分的不同商业主题 .328
9.2 聚类分析的基本概念 335
9.3 聚类模型的评估 336
9.3.1 轮廓系数 .336
9.3.2 平方根标准误差 .337
9.3.3 R2 .337
9.3.4 ARI 338
9.4 层次聚类 338
9.4.1 层次聚类的算法描述 .338
9.4.2 层次聚类分群数量的确定 .342
9.4.3 层次聚类应用案例 .343
9.4.4 层次聚类的特点 .347
9.5 K-means 聚类算法 .347
9.5.1 K-means 聚类算法描述 .347
9.5.2 K-means 聚类算法的应用:用户细分 .348
9.6 聚类事后分析:决策树应用 356
9.6.1 决策树的基本概念 .356
9.6.2 决策树解读用户分群后的特征 .357
9.7 本章练习题 359
第10 章 业务流程分析与流程优化 364
10.1 价值流程图 364
10.2 对比测试 366
10.2.1 转换漏斗 .366
10.2.2 对比测试 .367
10.3 本章练习题 371
第11 章 运筹优化模型 373
11.1 线性规划 373
11.2 整数规划 380
11.3 二次规划 386
11.4 本章练习题 .390
第12 章 数据治理 393
12.1 数据治理的驱动因素 393
12.2 数据治理体系 394
12.2.1 数据治理域 .395
12.2.2 数据管理域 .397
12.2.3 数据应用域 .401
12.3 如何开展数据治理 404
12.3.1 准确的定位数据治理 .404
12.3.2 明确数据应用方向 .405
12.3.3 多层级全方位进行治理 .406
12.4 本章练习题 406
第13 章 数据模型管理 408
13.1 数据分类 408
13.2 数据建模 411
13.2.1 数据架构的基本概念 .411
13.2.2 数据模型介绍 .413
13.2.3 数据建模基础 .413
13.2.4 主题域分类 .414
13.2.5 概念模型 .414
13.2.6 逻辑模型 .415
13.2.7 物理模型 .416
13.3 数据建模案例 416
13.4 数据仓库体系和ETL 419
13.5 本章练习题 423
第14 章 智能对话分析与预测 426
14.1 导入数据 430
14.2 数据探索 430
14.2.1 缺失值 .430
14.2.2 重复值 .431
14.2.3 异常值 .431
14.2.4 相关分析 .432
14.3 可视化展示 434
14.3.1 多变量图 .434
14.3.2 回归拟合图 .434
14.3.3 联合分布图 .436
14.4 逻辑回归模型 436
14.4.1 划分数据集 .436
14.4.2 初步建模 .437
14.4.3 模型优化 .438
14.4.4 模型预测与评估 .439
序言
CDA,数字化人才的身份认证
数据曾经是商业“尾气”,而现在成为当今世界的“石油”,借助合适的模型、算法、技术,可以从数据中挖掘出巨大的商业价值。数据分析极大地促进了现代服务业、制造业差异化竞争格局,将来更会成为各行业获得竞争优势的助推力。
数据分析的主要目标之一就是满足组织的业务运营需求,为业务服务。大部分组织经历了从以产品为中心到以客户为中心的过程,其数据分析的重点也从关注组织经营结果到进行全方位的客户洞察,分析方法也从以管理报表为主到微观个体的行为预测。另外,IT 技术的发展使得组织可以以更低的成本存储和处理大量的数据,促使组织不断从宏观业务分析到个体微观分析,使用的数据层次从基本属性、时点状态数据,逐渐丰富到行为数据,使用的分析技术从统计分析逐渐过渡到机器学习和深度学习。
满足业务运营需求更本质的目标是通过数据分析改变决策方式,从依靠经验转向依靠数据。目前,数据分析有两个主要阶段,分别是隐性知识显性化和显性知识算法化。前者是一个概念明晰和逐渐量化的过程,后者是提取知识形成算法并固化在业务流程系统中的过程。组织核心能力从“以人为核心”转变到“以算法为核心”。
通过数据分析进行科学决策、自主决策,从而实现业务价值,使数据分析在决策过程中不可或缺,逐渐成为组织的核心竞争力。
在数据分析领域深耕多年的CDA 数据科学研究院,通过多年的业界深耕,建立起CDA 数据分析能力认证体系,助力企业实现宏、微观相结合的数字化转型,提供合格的数据化工作人才保障。
CDA 数据分析能力认证体系涵盖绩效分析、客户分析、流程分析、智能学习,助力企业成为宏、微观相结合的数字化战略中心组织。前面的分析为后面的工作指明方向,后面的活动为前面目标的实现提供能力支持。而最下层的学习活动在数字化时代,已经演变成“机器学习”,将业务知识以算法的形式固化在系统中。
CDA LEVEL Ⅰ教材主要讲解业务分析所涉及的评价指标体系的构建、数据采集与数据操作、商业智能分析、战略及运营分析报告等业务宏观分析技术;CDALEVEL Ⅱ教材主要讲解客户运营、流程分析和策略优化所涉及的标签体系、用户画像、根因分析、预测模型、运筹优化等业务宏观分析与客户微观洞察相融合的技术;CDA LEVEL Ⅲ教材主要讲解在商业机器学习运营(MLOps)框架下如何设计、开发和落地相关的算法模型,以及机器学习经典算法与案例、自然语言处理、自动学习等客户微观分析技术。教材在工具实现上选择当今比较流行的数据库语言SQL和编程语言Python 等。
很多企业将CDA 证书作为内部数据分析人才的评定标准和招聘要求。如果认真把这套教材学好,可以形成体系化、专业化的数据分析思维,通过认证考试,达到一个现代数据分析人的合格要求。
即使不参加相关认证考试,这套教材对于读者来说也是很好的数据分析参考书,常读常新,体会数据分析之美,灵活运用教材中的分析方法和案例,让数据分析和实证研究相得益彰,让数据分析和业务经验优势互补。这套教材将在数据分析行业产生影响,如春风化雨,在数据分析理念、理论、方法、技术及工具等方面,滋养各个领域孜孜不倦的数据分析学习者和工作者。
CDA 数据科学研究院
2022 年9 月
前言
数据分析是一个有目的的进行数据收集、整理、加工和分析的过程。随着各行各业对“数据分析重要性”认识的提高,基本的数据分析能力是求职者在求职过程中必不可少的技能,而进阶的数据分析能力是从业者突破职业天花板的重要进阶技能之一。这种进阶的数据分析能力,被称为数据策略分析。本书的写作目的是帮助各位读者打破传统的数据分析思维,从数字化工作模型的角度充分理解数据策略分析的流程与意义,运用宏观和微观相结合的方法科学地进行数据分析。
内容特色定位
本书可以分为六部分,包含13 个内容章节和1 个案例章节,其中不仅有数据分析的整体思维,也融入了数据治理与数据模型管理的知识。第一部分是数据科学基础与EDIT 数字化工作模型,介绍数据科学的基本概念与EDIT 数字化工作模型的基本思维,主要帮助读者建立科学的数据分析思维。第二部分是数据处理与可视化,介绍常用的数据清洗与可视化技术,是进行数据分析的必经步骤。第三部分是根因分析,包括数据采集、宏观业务分析方法、微观业务分析方法和用户洞察等内容,介绍如何从宏观和微观相结合的角度全面进行数据分析的思路。第四部分是业务优化,主要介绍用于业务优化的统计模型和策略,帮助读者理解数据分析中的优化策略与统计模型。第五部分是数据治理与数据模型管理,介绍数据治理和数据模型的基本概念,这也是在数据分析过程中需要读者重点关注的内容,可以帮助读者更加全面地进行数据分析。第六部分是案例章节。
读者定位
鉴于对数据分析的理解与探讨,本书比较适合以下几类人群阅读。
(1)经常接触数据策略分析的业务人员。
本书能够帮助数据策略分析业务人员了解基本的策略分析思路与方法,掌握常见的策略分析工具,使其成为更加优秀的数据策略分析人员。
(2)数据分析入门者或有一定的数据分析基础,想要进一步了解数据策略分析思维与方法的读者。
对于数据分析人员来说,培养科学的数据分析思维是至关重要的,而这也是本书的一大特点。掌握了更深入的分析思维与正确的方向,是得到更有效的数据分析结果的基本保障,也是编者撰写本书的核心目标。
评论
还没有评论。