描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121285004丛书名: CDA数据分析师系列丛书
1.1 什么是数据分析 2
1.2 数据分析六部曲 2
1.2.1 明确分析目的和内容 2
1.2.2 数据收集 . 3
1.2.3 数据预处理 . 3
1.2.4 数据分析 . 4
1.2.5 数据展现 . 5
1.2.6 报告撰写 . 6
1.3 数据分析方法简介 6
1.3.1 单纯的数据加工方法 6
1.3.2 基于数理统计的数据分析方法 7
1.3.3 基于数据挖掘的数据分析方法 8
1.3.4 基于大数据的数据分析方法 11
1.3.5 数理统计与数据挖掘的区别和联系 13
1.4 常用数据分析工具的安装 14
1.4.1 在Excel 2013 中安装数据分析工具 14
1.4.2 数据分析软件SPSS 的安装 . 16
1.5 重要知识点回顾 22
1.6 课后习题 . 23
第2 章 描述性统计分析 24
2.1 直方图 . 252.1.1 什么是直方图 25
2.1.2 如何看直方图 25
2.1.3 如何画直方图 26
2.1.4 使用Excel 2013 进行直方图的绘制 27
2.2 数据的计量尺度 30
2.3 数据的集中趋势 31
2.3.1 平均数 . 31
2.3.2 分位数 . 33
2.3.3 众数 . 34
2.4 数据的离中趋势 34
2.4.1 极差 . 35
2.4.2 分位距 . 35
2.4.3 平均差 . 36
2.4.4 方差与标准差 37
2.4.5 离散系数 . 38
2.5 数据分布的测定 40
2.5.1 数据偏态及其测定 40
2.5.2 数据峰度及其测定 41
2.5.3 数据偏度和峰度的作用 42
2.6 数据的展示——统计图 43
2.6.1 条形图与扇形图 43
2.6.2 折线图 . 44
2.6.3 茎叶图 . 45
2.6.4 箱线图 . 48
2.6.5 统计图小结 . 52
2.7 使用Excel 实现数据的描述性统计及分析 . 52
2.7.1 使用Excel 实现三国全部人物武力描述性统计 . 52
2.7.2 使用Excel 分别实现三个国家人物武力描述性统计分析 . 54
2.7.3 使用Excel 分别实现三个国家武将武力描述性统计分析 . 55
2.7.4 使用SPSS 实现三个国家武将武力的分位数分析 . 56
2.8 重要知识点回顾 59
2.9 课后习题 . 59
第3 章 数理统计基础 62
3.1 抽样估计基础 63
3.1.1 随机事件 . 63
3.1.2 随机事件的概率 64
3.1.3 随机变量及其概率分布 66
3.1.4 随机变量的数字特征 71
3.2 正态分布及三大分布 72
3.2.1 正态分布的概率密度函数 73
3.2.2 正态分布的特征 73
3.2.3 标准正态分布 74
3.2.4 基于正态分布的三大分布 77
3.3 中心极限定理 80
3.3.1 中心极限定理的提法 80
3.3.2 中心极限定理的内容 81
3.3.3 中心极限定理的意义与应用 81
3.4 重要知识点回顾 82
3.5 课后习题 . 83
第4 章 抽样估计 . 86
4.1 抽样估计的基本概念 87
4.1.1 总体及总体指标 87
4.1.2 样本及样本指标 88
4.1.3 抽样估计的思想 89
4.1.4 抽样估计的理论基础 91
4.1.5 样本统计量及分布 92
4.2 抽样估计的方法——点估计 93
4.2.1 点估计 . 93
4.2.2 点估计精度和样本容量的关系 95
4.2.3 点估计的优缺点 96
4.3 抽样估计的误差 97
4.3.1 抽样估计的实际误差 97
4.3.2 抽样估计的平均误差 98
4.3.3 抽样估计的极限误差 102
4.4 抽样估计的方法——区间估计 102
4.4.1 抽样估计的精度及置信度 102
4.4.2 区间估计的方法 105
4.4.3 区间估计的步骤 106
4.5 抽样的组织形式和抽样数目的确定 107
4.5.1 抽样的组织形式 107
4.5.2 必要抽样数目的确定 109
4.6 重要知识点回顾 112
4.7 课后习题 113
第5 章 假设检验 . 117
5.1 假设检验概述 118
5.1.1 假设检验的概念 118
5.1.2 假设检验的基本思想 118
5.1.3 假设检验在数据分析中的作用 119
5.2 假设检验的分析方法 119
5.2.1 假设检验的基本步骤 119
5.2.2 假设检验与区间估计的联系 122
5.2.3 假设检验中的两类错误 123
5.2.4 利用P 值进行决策 124
5.2.5 应用假设检验需要注意的问题 125
5.3 常见的检验统计量 126
5.3.1 z 检验统计量 126
5.3.2 t 检验统计量 128
5.3.3 ?2 检验统计量 129
5.3.4 F 检验统计量 . 129
5.4 SPSS 中常用的几种t 检验实例 . 130
5.4.1 单样本t 检验 . 130
5.4.2 两独立样本t 检验 . 133
5.4.3 配对样本t 检验 . 139
5.5 重要知识点回顾 143
5.6 课后习题 143
第6 章 方差分析 . 147
6.1 方差分析 148
6.1.1 方差分析的概述 148
6.1.2 方差分析的几个概念 148
6.1.3 单因素方差分析中的基本假定 149
6.2 单因素方差分析 149
6.2.1 单因素方差分析的原理 149
6.2.2 单因素方差分析的原假设 150
6.2.3 单因素方差分析的统计量 151
6.2.4 单因素方差分析的基本步骤 152
6.3 使用SPSS 实现三国武将武力差异分析 . 152
6.3.1 检验不同国家武将数据是否符合正态分布 153
6.3.2 单因素方差分析操作步骤及必要说明 155
6.3.3 对三国武将武力单因素方差分析结果的分析 160
6.4 使用SPSS 实现三国文官智力差异分析 . 163
6.4.1 检验不同国家文官数据是否符合正态分布 163
6.4.2 单因素方差分析操作步骤及必要说明 165
6.4.3 对三国文官智力单因素方差分析结果的分析 167
6.5 数说汉室衰微与三足鼎立现象 169
6.6 重要知识点回顾 171
6.7 课后习题 171
第7 章 相关与回归分析 175
7.1 变量间的关系 176
7.1.1 函数关系及特点 176
7.1.2 相关关系及特点 176
7.2 相关分析 177
7.2.1 相关分析及步骤 177
7.2.2 散点图的绘制 177
7.2.3 相关系数的计算 178
7.2.4 相关系数的显著性检验 182
7.3 使用SPSS 实现相关分析 . 182
7.3.1 在SPSS 中绘制散点图 . 182
7.3.2 在SPSS 中进行正态性检验 . 185
7.3.3 相关系数的计算和检验 187
7.4 一元线性回归分析 189
7.4.1 一元回归模型及相关假定 190
7.4.2 一元线性回归方程及求法 190
7.4.3 回归模型的检验 191
7.4.4 回归直线的拟合优度 194
7.5 使用SPSS 实现一元线性回归分析 . 195
7.5.1 画散点图和趋势线 195
7.5.2 简单相关分析 198
7.5.3 一元线性回归分析的操作步骤 199
7.5.4 一元线性回归分析的结果解读 205
7.6 重要知识点回顾 207
7.7 课后习题 208
附录A 三国人物数据 . 213
附录B CDA 数据分析师致力于好的数据分析人才建设 . 226
附录C 参考答案 . 230
在CDA(注册数据分析师)Level I 级教材付诸印刷之际,关于数据分析这个职业及其价值的报道就有很多,比如,下面两条报道就充分体现了在大数据时代下,数据分析的价值。这在以前是从来没有过的。
LinkedIn 的投票结果显示,“统计分析和数据挖掘”是2014 年的求职法宝。LinkedIn对全球超过3.3 亿用户的工作经历和技能进行分析,公布2014 年受雇主喜欢、炙手可热的25项技能,其中位列榜首的是统计分析和数据挖掘。
麦肯锡公司的一份研究预测称,到2018 年,在“具有深入分析能力的人才”方面,美国可能面临着14 万到19 万人的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师”缺口则会达到150 万人。
早在2010 年2 月,肯尼斯?库克尔在《经济学人》上发表了一份关于管理信息的特别报告——《数据,无所不在的数据》,文中写道:“世界上有着无法想象的巨量数字信息,并以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。”2011 年,麦肯锡发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,使人们在这篇文章里认识到了数据的力量,于是,一夜之间,面向数据分析市场的新产品、新技术、新服务、新业态正在不断涌现。从个人、企业到国家层面,都把数据作为一种重要的战略资产,逐渐认识到了数据的价值,不同程度地渗透到每个行业领域和部门,大大提升了企业的经营利润,推动了经济的发展。
这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界500 强企业中,有90%以上都建立了数据分析部门。IBM、微软、Google 等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。
作为一个数学和统计学的强国,数据分析、数据挖掘和大数据价值挖掘行业在我国仍属于朝阳行业,数据分析人才仍然比较稀缺。各行各业在平常工作中积累的各种各样的数据分析问题仍然没有得到及时有效地解决,有些问题,还是关乎本行业发展的至关重要的问题。数据积累越来越多,期待解决分析的数据问题也越来越多,人们逐渐习惯的使用数据作为决策的重要参考依据。据艾瑞的研究报告,未来与数据分析相关的就业岗位会在1000 万左右,而目前来说国内合格的数据分析师不足5 万左右,建立一个科学有效的数据分析师培训体系迫在眉睫。
在这样一个用数据说话的时代,积累了丰富的数据分析培训经验的人大经济论坛承担起使命,几番调查研究,几番反复推演论证,在2013 年,这个大数据的“元年”,CDA 注册数据分析师应运而生!
2003 年,人大经济论坛依托中国人民大学成立,在金融、管理、统计领域已积淀11 个年头,在国内享有良好声誉。
2006 年,人大经济论坛数据分析培训中心设立,至今经历8 个春秋,建立了大陆、台湾一线师资团队,培养人才已达3 万余人。
2013 年,“中国数据挖掘与数据分析俱乐部CDMC”在人大经济论坛旗下成立,2014 年改名为“中国数据分析师俱乐部CDA”。来自政府、金融、电信、零售、电商、互联网、教育等行业人士加入会员,成功举办了数十场行业聚会。紧接着,积累了数据分析培训丰富经验的人大经济论坛在国内展开CDA 数据分析师系统培训和认证考试,成功见证了1000 余名数据分析师的成长。
2015 年,人大经济论坛将提供高水平、多层次的数据分析培训服务,以在行业积累 多年的影响力,吸引更好更多的优秀师资,瞄准行业内重要的数据分析问题和难点,攻坚突破,建立更加规范的行业培训体系,引领数据分析培训行业向规范化、有效化和前瞻化方向发展,为数据分析培训做出应有的贡献。
其实,数学(含统计)和英语一样重要,都是人们不可或缺的重要技能。既然英语全民这么重视,数学及其数据分析的技能更加需求于方方面面,更应被做大做强。让我们共同期待人大经济论坛办成另一个数据的“新东方”!
覃智勇
2015 年1 月1 日
前 言
本书第1 版自2015 年2 月出版后,在市场上获得了强烈的反响,当月在东东网的新书热卖榜中排名第二,半年内销售近万册,至2016 年1 月已经印刷了5 次,共发行近两万册,图书被收录进百度百科。
如此巨大的市场销量和好评,引起笔者的深思,除本书构思巧妙、内容翔实、文法流畅等主观因素外,宏观的市场环境也是不容忽视的。2015 年,中国经济由原来的爆发式增长进入到略显低迷的新常态,无论是企业还是商家都感受到了压力,钱不再像以前那样好赚了。如何实现经济增长,如何让企业存活下去,这就需要深挖企业内部的痛点和洞察外部客户的特点。深挖和洞察的过程就是数据分析的过程,数据分析时代在中国悄然到来了。
随着数据分析师的价值凸显,有越来越多先知先觉的人们纷纷转行加入到数据分析师的大军中。而统计学是数据分析师们必修的课程之一,“从零进阶!数据分析的统计基础”的本意就是让更多的人能从零基础快速进阶到数据分析领域,并且重点讲述数据分析师们必须具备的概率和统计的关键知识点。而经管之家(原人大经济论坛)适时地推出本书,使其得到了很好的市场回馈。正所谓天时地利人和,造就了一本好书。
为了和市场的发展紧密结合,以及更好地适应读者的需求,本书进行了改版。本次改版继续坚持从零进阶,强化数据分析基础理论,和市场接轨等核心理念,继续使用“三国武将”这个大家都耳熟能详的业务背景知识。根据学员的需求和市场的实际情况,作者还对本书内容进行了如下调整。
(1)进一步精练数据分析的理论基础,去除了一些不必要的数学公式。由于数据分析涉及概率论、微积分、数理统计的很多内容,但有些内容又不用全部学会,这让初学者很难找出哪些是需要学习的内容,哪些是不需要学习的内容。因此在编写本书第1 版时,将很多数据分析师不需要知道的知识点都省略了,比如省略了统计量服从某个分布的证明过程,省略了抽样平均误差的证明过程。这样做的目的是为了让数据分析师们能更快地进入这个领域,更好地洞察数据。在编写本书的第2版时,继续沿用此思想,去掉了一些数据分析师不必要知道的公式,增加了更多的数据分析思想的内容。
(2)将原来的第3 章抽样估计分解成数理统计基础和抽样估计两章,这样做的目的是考虑到原来的第3 章涉及的理论内容太多,并且比较枯燥,将其分成两部分,一来可以在每一部分增加更多的公式解读内容,也可以补充更多的案例进来;二来降低了阅读难度,使读者能在学习知识的同时,获得更多的成就感,从而更加有兴趣学习。
(3)对试验数据进行了更多的数据分析,增加了对读者数据分析思维的培养。尤其是第2 章的描述性数据分析过程,进行了更深入的数据分析过程剖析,主要宗旨在于让读者更快地进入到数据分析行业的队伍中来。当然,这也使得第2 版中的三国武将数据和第1 版中的数据存在一些差异。
当然,仅就本书而言,读者并不会学到数据分析师所需要的全部知识,这需要几年的循序渐进学习,但我希望读者看过本书后,能快速具有数据分析师所需要的基本的统计学知识,能快速地进入到数据分析的行业,从而具备一个数据分析师应具备的起码的知识,在工作中能说内行话,而不是说行外话。
在本书改版之际,作者衷心感谢经管之家(原人大经济论坛)和CDA 课程研发团队多年来始终不渝的关心与鼎力支持,感谢关继杰,感谢广大读者给予我的理解与感受,感谢电子工业出版社多年来的密切合作与支持。没有这一切,本书不可能取得这么好的成果,我永远感谢曾经帮助和支持过我的相识的和不相识的同志和朋友。由于作者水平有限,本书肯定会有不少缺点和不足,热切期望得到专家和读者的批评指正。
曹正凤
2016 年3 月于北京
1.描述性统计分析
描述性统计分析是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。通俗地讲,描述性统计就是当数据分析师需要分析一万个数时,他仅需要用八个数就把这一万个数说清楚了,这样进行决策管理时才不用再看一万个数,而只看这八个数就能解决问题。描述性数据分析的关键就是要看明白这八个数,能解释清楚其背后的含义。描述性统计分析分为集中趋势分析、离中趋势分析和数据分布分析三大部分。
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势,例如测试班级的平均成绩是多少。离中趋势分析主要靠全距、四分位距、方差、标准差等统计指标来研究数据的离中趋势。例如,当我们想知道两个教学班的语文成绩哪个班级的成绩分布更分散时,就可以用两个班级的方差来比较。数据分布分析是指和正态分布相比,所得数据的直方图从形态上看是左偏的还是右偏的,从峰度上看是尖峰的还是扁平的,这些内容会在第2 章详细介绍。
2.相关分析
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系一一例如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系一一例如年龄、抑郁症发生率和个人领域空间之间的关系;既可以是A 大B 就大(小),A 小B 就小(大)的直线相关关系,也可以是复杂相关关系;既可以是A、B 变量同时增大的正相关关系,也可以是A 变量增大时B 变量减小的负相关关系,还包括两变量共同变化的紧密程度一一相关系数。
基于数理统计的数据分析方法
数理统计的理论基础比较复杂,也就是概率论和高等数学中的微积分。当然这里的微积分只是简单的一元函数积分,即根据概率论和微积分引出数据的分布,从数据的分布出发,进行数据的抽样推断和假设检验,由此引出方差分析、回归分析、因子分析等基于数理统计的数据分析方法。此种分析方法一般使用SPSS Statistics、SAS EG 等分析工具就可以实现。
1.方差分析
方差分析(Analysis of Variance, ANOVA)又称“变异数分析”、“F 检验”,它是R.A.Fisher 发明的分析方法,用于两个及两个以上样本均数差别的显著性检验。由于受各种因素的影响,方差分析研究所得的数据呈现波动状。造成波动的因素可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
2.回归分析
回归分析(Regression)是确定两个或两个以上变量之间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量Y 对另一个变量(X)或一组(X1,X2,…,Xk)变量的相依关系,回归分析按照涉及的自变量的数量,可分为一元回归分析和多元回归分析。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。此处所讲的回归分析是指一元线性回归,区别于数据挖掘方法里的多元线性回归和逻辑斯蒂回归。
3.因子分析
因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。因子分析的方法有十多种,例如重心法、影像分析法、似然解法、小平方法、阿尔法抽因法、拉奥典型抽因法等。这些方法在本质上大都属于近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。在社会经济统计研究中,因子分析常以主成分分析为基础。
评论
还没有评论。