描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111566670丛书名: 数据分析与决策技术丛书
内容简介
本书分为三大部分,*部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫描、数据标注、异常值分析、回归等。
目 录
目 录 Contents
前言
第1章 什么是数据分析1
1.1 一眼就看到结论还需要数据分析吗1
1.1.1 企业数据量2
1.1.2 数据复杂度2
1.1.3 数据颗粒度3
1.2 数据分析能给我们带来什么4
1.2.1 了解数据的整体状况4
1.2.2 快速查询数据5
1.2.3 数据之间关系的探索5
1.2.4 业务预测6
1.3 数据分析的几大抓手6
1.3.1 足够多的数据6
1.3.2 数据质量6
1.3.3 合适的工具7
1.3.4 分析结果的呈现7
1.4 数据分析的流程7
1.4.1 数据采集7
1.4.2 数据整理8
1.4.3 制表11
1.4.4 数据分析11
1.4.5 数据展示(呈现)12
1.5 如何成为数据分析高手12
1.5.1 “拳不离手,曲不离口”12
1.5.2 熟练掌握常用工具12
1.5.3 最好能编点程序13
1.5.4 一定要通晓业务14
第2章 数据分析的理论、工具、模型15
2.1 基本概念和术语15
2.1.1 基本概念15
2.1.2 术语22
2.2 选择称手的软件工具26
2.2.1 EXCEL27
2.2.2 VBA27
2.2.3 Access27
2.2.4 SPSS28
2.2.5 XLSTAT29
2.2.6 Modeler29
2.2.7 R语言30
2.3 在分析需求和模型之间搭起桥梁30
2.3.1 识别需求30
2.3.2 分解需求30
2.3.3 选择工具和模型31
第3章 数据采集与整理32
3.1 数据采集的几条重要原则32
3.1.1 要足够“复杂”32
3.1.2 要足够“细”33
3.1.3 要有“跨度”33
3.1.4 要有可行性34
3.2 用“逐步推进法”推测需要的数据34
3.3 耗时耗力的数据整理过程35
3.3.1 重复、空行、空列数据删除36
3.3.2 缺失值的填充和分析39
3.3.3 数据间逻辑的排查45
3.4 数据量太大了怎么办47
3.4.1 放到数据库中处理47
3.4.2 用专业工具处理47
3.4.3 数据抽样51
第4章 数据分析的基础:制表(上)53
4.1 以数据合并为目标的制表53
4.1.1 跨工作表合并53
4.1.2 跨工作簿合并55
4.2 以数据筛选为目标的制表56
4.2.1 普通数据筛选57
4.2.2 高级筛选60
4.2.3 计算筛选62
4.2.4 函数筛选63
4.3 以获得概要数据为目标的制表64
4.3.1 分类汇总方法64
4.3.2 数据透视表汇总68
第5章 数据分析的基础:制表(下)70
5.1 “七个百分比”让你懂得大部分表格类型70
5.1.1 行总计的百分比70
5.1.2 列总计的百分比73
5.1.3 全部总计的百分比74
5.1.4 父行(列)的百分比74
5.1.5 累计占比75
5.1.6 环比78
5.1.7 同比79
5.2 分组功能经常让分析峰回路转81
5.2.1 文本的分组81
5.2.2 等步长的数据分组83
5.2.3 不等步长的数据分组86
5.2.4 日期型的分组88
5.3 随意生成各种派生指标89
5.3.1 添加字段89
5.3.2 添加项91
5.4 从大数据库中挑选要分析的数据:Microsoft Query92
5.5 强大的SQL97
5.5.1 SQL的基本语法97
5.5.2 SQL的应用97
第6章 数据扫描:给数据做体检100
6.1 在EXCEL中给数据做扫描100
6.2 SPSS中给数据做扫描103
6.3 在Modeler中给数据做扫描105
6.4 其他相应的指标108
第7章 数据标注:给数据上色110
7.1 大数据块的整体标注111
7.1.1 突出显示单元格规则111
7.1.2 特殊数据选取规则112
7.2 根据业务逻辑在数据中标注上色113
7.2.1 数据条、色阶、图标集的应用113
7.2.2 规则的理解115
7.2.3 根据业务需求改变规则118
7.3 采用公式实现复杂强大的数据标注119
7.3.1 理解逻辑表达式的含义119
7.3.2 复杂逻辑公式的应用120
7.4 如何在一张表格中实现多种标注规则123
7.4.1 多规则的应用123
7.4.2 如何理解“遇真则停止”125
第8章 找到数据中的“特殊分子”127
8.1 什么是异常值127
8.2 异常值的判断标准128
8.3 用绘图技巧找到异常值129
8.3.1 散点图129
8.3.2 面板图130
8.4 用公式函数法发掘异常值135
8.5 三倍标准差法137
第9章 相关分析与决策树140
9.1 Pearson相关140
9.1.1 应用场景141
9.1.2 输出指标的解析141
9.2 典型相关分析145
9.2.1 操作步骤145
9.2.2 结果解读147
9.3 决策树149
9.3.1 什么时候需要用决策树149
9.3.2 决策树的操作和指标解释150
第10章 聚类155
10.1 多维度数据的分类怎么办155
10.1.1 低维度数据的分类方法155
10.1.2 高维度数据的分类需求157
10.1.3 常用的聚类操作介绍157
10.2 聚类的烦恼1:如何面对数量级差别大的数据165
10.3 聚类的烦恼2:如何判断聚类的质量167
第11章 回归168
11.1 如何寻找现有数据的内在规律168
11.1.1 什么是数据拟合169
11.1.2 多元线性回归171
11.2 logistic回归173
11.2.1 回归(客户“买”与“不买”)173
11.2.2 多元logistic回归(多个品牌的选择)176
11.2.3 多元有序logistic回归181
第12章 关联分析183
12.1 因果关系的弱化183
12.2 关联分析的指标184
12.2.1 支持度184
12.2.2 置信度185
12.2.3 提升度185
12.3 什么样的数据适合做关联分析186
12.3.1 商超数据186
12.3.2 金融数据186
12.3.3 生产质量数据187
12.4 关联分析的具体操作187
第13章 预测191
13.1 什么是预测,预测的准确度高吗191
前言
第1章 什么是数据分析1
1.1 一眼就看到结论还需要数据分析吗1
1.1.1 企业数据量2
1.1.2 数据复杂度2
1.1.3 数据颗粒度3
1.2 数据分析能给我们带来什么4
1.2.1 了解数据的整体状况4
1.2.2 快速查询数据5
1.2.3 数据之间关系的探索5
1.2.4 业务预测6
1.3 数据分析的几大抓手6
1.3.1 足够多的数据6
1.3.2 数据质量6
1.3.3 合适的工具7
1.3.4 分析结果的呈现7
1.4 数据分析的流程7
1.4.1 数据采集7
1.4.2 数据整理8
1.4.3 制表11
1.4.4 数据分析11
1.4.5 数据展示(呈现)12
1.5 如何成为数据分析高手12
1.5.1 “拳不离手,曲不离口”12
1.5.2 熟练掌握常用工具12
1.5.3 最好能编点程序13
1.5.4 一定要通晓业务14
第2章 数据分析的理论、工具、模型15
2.1 基本概念和术语15
2.1.1 基本概念15
2.1.2 术语22
2.2 选择称手的软件工具26
2.2.1 EXCEL27
2.2.2 VBA27
2.2.3 Access27
2.2.4 SPSS28
2.2.5 XLSTAT29
2.2.6 Modeler29
2.2.7 R语言30
2.3 在分析需求和模型之间搭起桥梁30
2.3.1 识别需求30
2.3.2 分解需求30
2.3.3 选择工具和模型31
第3章 数据采集与整理32
3.1 数据采集的几条重要原则32
3.1.1 要足够“复杂”32
3.1.2 要足够“细”33
3.1.3 要有“跨度”33
3.1.4 要有可行性34
3.2 用“逐步推进法”推测需要的数据34
3.3 耗时耗力的数据整理过程35
3.3.1 重复、空行、空列数据删除36
3.3.2 缺失值的填充和分析39
3.3.3 数据间逻辑的排查45
3.4 数据量太大了怎么办47
3.4.1 放到数据库中处理47
3.4.2 用专业工具处理47
3.4.3 数据抽样51
第4章 数据分析的基础:制表(上)53
4.1 以数据合并为目标的制表53
4.1.1 跨工作表合并53
4.1.2 跨工作簿合并55
4.2 以数据筛选为目标的制表56
4.2.1 普通数据筛选57
4.2.2 高级筛选60
4.2.3 计算筛选62
4.2.4 函数筛选63
4.3 以获得概要数据为目标的制表64
4.3.1 分类汇总方法64
4.3.2 数据透视表汇总68
第5章 数据分析的基础:制表(下)70
5.1 “七个百分比”让你懂得大部分表格类型70
5.1.1 行总计的百分比70
5.1.2 列总计的百分比73
5.1.3 全部总计的百分比74
5.1.4 父行(列)的百分比74
5.1.5 累计占比75
5.1.6 环比78
5.1.7 同比79
5.2 分组功能经常让分析峰回路转81
5.2.1 文本的分组81
5.2.2 等步长的数据分组83
5.2.3 不等步长的数据分组86
5.2.4 日期型的分组88
5.3 随意生成各种派生指标89
5.3.1 添加字段89
5.3.2 添加项91
5.4 从大数据库中挑选要分析的数据:Microsoft Query92
5.5 强大的SQL97
5.5.1 SQL的基本语法97
5.5.2 SQL的应用97
第6章 数据扫描:给数据做体检100
6.1 在EXCEL中给数据做扫描100
6.2 SPSS中给数据做扫描103
6.3 在Modeler中给数据做扫描105
6.4 其他相应的指标108
第7章 数据标注:给数据上色110
7.1 大数据块的整体标注111
7.1.1 突出显示单元格规则111
7.1.2 特殊数据选取规则112
7.2 根据业务逻辑在数据中标注上色113
7.2.1 数据条、色阶、图标集的应用113
7.2.2 规则的理解115
7.2.3 根据业务需求改变规则118
7.3 采用公式实现复杂强大的数据标注119
7.3.1 理解逻辑表达式的含义119
7.3.2 复杂逻辑公式的应用120
7.4 如何在一张表格中实现多种标注规则123
7.4.1 多规则的应用123
7.4.2 如何理解“遇真则停止”125
第8章 找到数据中的“特殊分子”127
8.1 什么是异常值127
8.2 异常值的判断标准128
8.3 用绘图技巧找到异常值129
8.3.1 散点图129
8.3.2 面板图130
8.4 用公式函数法发掘异常值135
8.5 三倍标准差法137
第9章 相关分析与决策树140
9.1 Pearson相关140
9.1.1 应用场景141
9.1.2 输出指标的解析141
9.2 典型相关分析145
9.2.1 操作步骤145
9.2.2 结果解读147
9.3 决策树149
9.3.1 什么时候需要用决策树149
9.3.2 决策树的操作和指标解释150
第10章 聚类155
10.1 多维度数据的分类怎么办155
10.1.1 低维度数据的分类方法155
10.1.2 高维度数据的分类需求157
10.1.3 常用的聚类操作介绍157
10.2 聚类的烦恼1:如何面对数量级差别大的数据165
10.3 聚类的烦恼2:如何判断聚类的质量167
第11章 回归168
11.1 如何寻找现有数据的内在规律168
11.1.1 什么是数据拟合169
11.1.2 多元线性回归171
11.2 logistic回归173
11.2.1 回归(客户“买”与“不买”)173
11.2.2 多元logistic回归(多个品牌的选择)176
11.2.3 多元有序logistic回归181
第12章 关联分析183
12.1 因果关系的弱化183
12.2 关联分析的指标184
12.2.1 支持度184
12.2.2 置信度185
12.2.3 提升度185
12.3 什么样的数据适合做关联分析186
12.3.1 商超数据186
12.3.2 金融数据186
12.3.3 生产质量数据187
12.4 关联分析的具体操作187
第13章 预测191
13.1 什么是预测,预测的准确度高吗191
前 言
Preface 前 言为什么要写这本书在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。
“理想很丰满,现实很骨感”,原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨,到分析结果截图的选择等,每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳,颈椎病也复发了,因为在写书的同时,我的数据分析方面的培训并没有停止。
我在写作本书的时候,给自己规定了几个原则:
一是要实用,要能够解决企业工作中的实际问题。
二是要尽可能地降低读者上手的难度,那种操作非常繁复、需要强大坚实的统计分析理论基础,或者需要编程才能实现的功能,我都没有放在本书中。原因很简单,即使本书讲了那些难度比较大的内容,读者也很难真正应用起来。
三是语言风格尽可能轻松活泼一点,尽量避免很严肃、很晦涩的专业术语,我很难做到“寓教于乐”,但还是尽己所能让本书的阅读轻松一点吧。
在本书的写作过程中,我经常提醒自己这三条原则,并且要求自己遵守它们。
简言之,给读者带来一本“有用的、上手比较容易的、读起来比较轻松的”数据分析书,这就是我写这本书的原则和动力。
读者对象这本书的读者对象是企事业单位中从事数据分析的非统计专业人士:
企业中的市场部相关人员,包括市场分析人员、产品设计和研发人员、销售经理等。
企业中的生产部人员,包括生产经理、质量控制经理等。
企业中的财务部人员,包括财务总监、财务经理等。
企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。
如果读者是高校或者科研院所的教师、学生、科研人员,要从事专业学术论文的撰写或者纵向科研项目的研究工作,不建议你将本书作为主要的阅读和学习的书籍,因为使用的工具、模型、方法都会大相径庭,例如撰写学术论文经常要使用Eviews、Stata等专业计量工具,而这些专业计量工具在企业中使用的概率非常低。
如何阅读本书本书分为三大部分,第一部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。
第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。
第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫描、数据标注、异常值分析、回归等。
正文中所提“案例文件”为本书的配置案例资料,请通过网络自行下载,下载地址为http://www.hzbook.com。
勘误和支持由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你发现本书有错误,或者有其他宝贵意见,请发送邮件到我的邮箱[email protected],我很期待能够收到你们的真挚反馈。
致谢我跟我的家人说,我这本书是以“part time”的方式写出来的,因为在写书的过程中,我还在四处上课,也做了一些小的咨询项目。
多年以后,如果回顾2016年,我给哪些企业上过哪些课,我未必能记清楚,但是2016年我写作了平生第一本书,这点我不会忘记。
感谢机械工业出版社华章公司的编辑杨绣国老师,感谢你的魄力和远见,在这一年多的时间中始终支持我的写作,你的鼓励和帮助引导我顺利完成了全部书稿。
最后我一定要感谢我的家人,是你们给了我一个温暖的港湾,让我在这一年中几乎不用做家务,专心从事培训和本书的写作,多谢多谢!
谨以此书,献给我最亲爱的家人,以及众多热爱数据分析的朋友。
纪贺元2017年1月于中国上海
“理想很丰满,现实很骨感”,原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨,到分析结果截图的选择等,每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳,颈椎病也复发了,因为在写书的同时,我的数据分析方面的培训并没有停止。
我在写作本书的时候,给自己规定了几个原则:
一是要实用,要能够解决企业工作中的实际问题。
二是要尽可能地降低读者上手的难度,那种操作非常繁复、需要强大坚实的统计分析理论基础,或者需要编程才能实现的功能,我都没有放在本书中。原因很简单,即使本书讲了那些难度比较大的内容,读者也很难真正应用起来。
三是语言风格尽可能轻松活泼一点,尽量避免很严肃、很晦涩的专业术语,我很难做到“寓教于乐”,但还是尽己所能让本书的阅读轻松一点吧。
在本书的写作过程中,我经常提醒自己这三条原则,并且要求自己遵守它们。
简言之,给读者带来一本“有用的、上手比较容易的、读起来比较轻松的”数据分析书,这就是我写这本书的原则和动力。
读者对象这本书的读者对象是企事业单位中从事数据分析的非统计专业人士:
企业中的市场部相关人员,包括市场分析人员、产品设计和研发人员、销售经理等。
企业中的生产部人员,包括生产经理、质量控制经理等。
企业中的财务部人员,包括财务总监、财务经理等。
企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。
如果读者是高校或者科研院所的教师、学生、科研人员,要从事专业学术论文的撰写或者纵向科研项目的研究工作,不建议你将本书作为主要的阅读和学习的书籍,因为使用的工具、模型、方法都会大相径庭,例如撰写学术论文经常要使用Eviews、Stata等专业计量工具,而这些专业计量工具在企业中使用的概率非常低。
如何阅读本书本书分为三大部分,第一部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。
第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。
第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫描、数据标注、异常值分析、回归等。
正文中所提“案例文件”为本书的配置案例资料,请通过网络自行下载,下载地址为http://www.hzbook.com。
勘误和支持由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你发现本书有错误,或者有其他宝贵意见,请发送邮件到我的邮箱[email protected],我很期待能够收到你们的真挚反馈。
致谢我跟我的家人说,我这本书是以“part time”的方式写出来的,因为在写书的过程中,我还在四处上课,也做了一些小的咨询项目。
多年以后,如果回顾2016年,我给哪些企业上过哪些课,我未必能记清楚,但是2016年我写作了平生第一本书,这点我不会忘记。
感谢机械工业出版社华章公司的编辑杨绣国老师,感谢你的魄力和远见,在这一年多的时间中始终支持我的写作,你的鼓励和帮助引导我顺利完成了全部书稿。
最后我一定要感谢我的家人,是你们给了我一个温暖的港湾,让我在这一年中几乎不用做家务,专心从事培训和本书的写作,多谢多谢!
谨以此书,献给我最亲爱的家人,以及众多热爱数据分析的朋友。
纪贺元2017年1月于中国上海
评论
还没有评论。