描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121285325丛书名: CDA数据分析师系列丛书
1.1 SAS EG 介绍 .. 2
1.1.1 SAS EG 简介 . 2
1.1.2 SAS EG 的窗口及菜单 . 3
1.2 SPSS 介绍 . 4
1.2.1 SPSS 简介 .. 4
1.2.2 SPSS 窗口及菜单 5
1.3 数据挖掘的流程介绍 . 9
1.3.1 KDD 介绍 9
1.3.2 CRISP-DM .. 10
1.3.3 SEMMA . 11
1.3.4 三种数据挖掘流程的比较 .. 11
1.4 课后练习 . 11
第2 章 使用数据 .. 12
2.1 通过SAS 逻辑库访问数据 .. 13
2.1.1 商业背景 .. 13
2.1.2 SAS 相关功能介绍 .. 13
2.1.3 EG 菜单解决方案 . 14
2.1.4 SAS 程序实现 . 15
2.1.5 SPSS 菜单解决方案 .. 16
2.2 理解SAS 与SPSS 数据集的定义 19
2.2.1 理解数据集的含义 .. 19
2.2.2 商业背景 .. 19
2.2.3 SAS 与SPSS 相关概念介绍 .. 19
2.2.4 EG 菜单解决方案 . 25
2.2.4 SAS 程序实现 . 26
2.2.5 SPSS 菜单解决方案 28
2.3 导入其他格式的数据文件 30
2.3.1 商业背景 .. 30
2.3.2 SAS 相关功能介绍 .. 30
2.3.3 EG 菜单解决方案 . 31
2.3.4 SAS 程序实现 . 33
2.3.5 SPSS 菜单解决方案 35
2.4 数据来源 . 36
2.4.1 直接来源 .. 36
2.4.2 间接来源 .. 37
2.5 扩展阅读 . 37
2.6 课后练习 . 38
第3 章 探索性数据分析及数据的清理 39
3.1 探索性数据分析 . 40
3.1.1 基本理论讲解 . 40
3.1.2 EG 菜单解决方案 . 40
3.1.3 SPSS 菜单解决方案 44
3.2 数据清理介绍 .. 54
3.2.1 商业背景 .. 54
3.2.2 需要清理的数据类型 . 55
3.3 类别变量的清理 . 57
3.3.1 EG 菜单解决方案 . 57
3.3.2 SAS 程序实现 . 61
3.3.3 SPSS 菜单解决方案 62
3.4 数值型变量的清理 66
3.4.1 EG 菜单解决方案 . 66
3.4.2 SAS 程序实现 . 70
3.4.3 SPSS 菜单解决方案 71
3.5 正态分布的验证 . 75
3.5.1 商业背景 .. 75
3.5.2 相关理论介绍 . 75
3.5.3 EG 菜单解决方案 . 75
3.5.4 SAS 程序实现 . 78
3.5.5 SPSS 菜单解决方案 80
3.6 扩展阅读 . 83
3.7 课后练习 . 84
第4 章 数据的行处理 . 85
4.1 数据筛选 . 86
4.1.1 商业背景 .. 86
4.1.2 相关理论介绍 . 86
4.1.3 EG 菜单解决方案 . 86
4.1.4 SAS 程序实现 . 88
4.1.5 SPSS 菜单解决方案 93
4.2 排序与求秩 94
4.2.1 商业背景 .. 94
4.2.2 理论介绍 .. 95
4.2.3 EG 菜单解决方案 . 95
4.2.4 SAS 程序实现 .. 101
4.2.5 SPSS 菜单解决方案 . 103
4.3 抽样 105
4.3.1 商业背景 105
4.3.2 抽样理论介绍 .. 105
4.3.3 EG 菜单解决方案 .. 108
4.3.4 SAS 程序实现 .. 110
4.3.5 SPSS 菜单解决方案 . 111
4.4 数据分组和汇总 .. 111
4.4.1 商业背景 111
4.4.2 EG 菜单解决方案 .. 111
4.4.3 SAS 程序实现 .. 113
4.4.4 SPSS 菜单解决方案 . 113
4.5 扩展阅读 .. 115
4.6 课后练习 .. 115
第5 章 数据的列处理 .. 116
5.1 计算新变量 . 117
5.1.1 商业背景 117
5.1.2 EG 菜单解决方案 .. 117
5.1.3 SPSS 菜单解决方案 . 120
5.2 拆分列 .. 123
5.2.1 商业背景 123
5.2.2 EG 菜单解决方案 .. 123
5.2.3 SPSS 菜单解决方案 . 125
5.3 堆叠列 .. 128
5.3.1 商业背景 128
5.3.2 EG 菜单解决方案 .. 129
5.3.3 SPSS 菜单解决方案 . 131
5.4 转置列 .. 136
5.4.1 商业背景 136
5.4.2 EG 菜单解决方案 .. 136
5.4.3 SAS 程序实现 .. 138
5.4.4 SPSS 菜单解决方案 . 139
5.5 函数及运算符的使用 140
5.5.1 运算符 . 140
5.5.2 SAS 函数 142
5.5.3 常用SPSS 函数与SAS 函数的对应关系 150
5.6 对列重编码 . 151
5.6.1 商业背景介绍 .. 151
5.6.2 EG 菜单解决方案 .. 151
5.6.3 SAS 程序实现 .. 155
5.6.4 SPSS 菜单解决方案 . 157
5.7 标准化 .. 158
5.7.1 商业背景 158
5.7.2 相关理论介绍 .. 159
5.7.3 EG 菜单实现 . 159
5.7.4 SAS 实现程序 .. 161
5.7.5 SPSS 菜单解决方案 . 162
5.8 扩展阅读 .. 163
5.9 课后练习 .. 163
第6 章 数据集的操作 .. 164
6.1 纵向连接 .. 165
6.1.1 商业背景 165
6.1.2 相关的理论 165
6.1.3 EG 菜单解决方案 .. 165
6.1.4 SAS 程序实现 .. 168
6.1.5 SPSS 菜单解决方案 . 172
6.2 横向连接 .. 174
6.2.1 商业背景 174
6.2.2 相关理论介绍 .. 174
6.2.3 EG 菜单解决方案 .. 174
6.2.4 SAS 程序实现 .. 178
6.2.5 SPSS 菜单解决方案 . 182
6.3 数据集的比较 183
6.3.1 商业背景介绍 .. 183
6.3.2 相关理论介绍 .. 183
6.3.3 EG 菜单解决方案 .. 183
6.3.4 SAS 程序实现 .. 186
6.3.5 SPSS 菜单解决方案 . 187
6.4 创建格式 .. 191
6.4.1 商业背景 191
6.4.2 相关理论介绍 .. 191
6.4.3 EG 菜单解决方案 .. 193
6.4.4 SAS 程序实现 .. 196
6.5 删除数据集和格式 . 197
6.5.1 EG 菜单解决方案 .. 197
6.5.2 SAS 程序实现 .. 198
6.6 扩展阅读 .. 198
6.7 课后练习 .. 199
第7 章 数据的展示:图形及报告的编制 200
7.1 数据可视化与图表 . 201
7.1.1 商业背景 201
7.1.2 相关理论介绍 .. 201
7.1.3 EG 菜单解决方案 .. 204
7.1.4 SPSS 菜单解决方案 . 207
7.2 创建Listing 报表 . 208
7.2.1 商业背景 208
7.2.2 相关理论介绍 .. 208
7.2.3 EG 菜单解决方案 .. 209
7.2.4 SAS 程序实现 .. 212
7.2.5 SPSS 菜单解决方案 . 213
7.3 扩展阅读 .. 216
7.4 课后练习 .. 216
第8 章 在SAS EG 中使用提示和条件处理 .. 217
8.1 提示与宏变量 218
8.1.1 商业背景 218
8.1.2 相关的理论介绍 . 218
8.1.3 EG 菜单解决方案 .. 219
8.2 条件处理 .. 223
8.2.1 商业背景 223
8.2.2 EG 菜单解决方案 .. 223
8.3 扩展阅读 .. 227
第9 章 在SAS EG 中使用程序 .. 228
9.1 如何在SAS EG 中使用程序 229
9.2 SAS 程序 231
9.2.1 SAS 语言元素 .. 231
9.2.2 DATA 步 . 232
9.2.3 PROC 步 . 233
9.2.4 SAS 的模块介绍(图9-9) . 234
9.3 扩展阅读 .. 234
第10 章 SQL 语言基础与MySQL 入门 . 235
10.1 SQL 语言概况与MySQL 的安装 236
10.1.1 SQL 语言概况 236
10.1.2 MySQL 安装 .. 237
10.1.3 MySQL 内创建数据库 . 238
10.2 查询语句 238
10.2.1 简单查询并对数据过滤与排序 .. 240
10.2.2 用表达式创建新列 . 241
10.2.3 对列重编码 . 242
10.2.4 在查询中对数据分组和汇总 243
10.2.5 表的横向连接和子查询 .. 244
10.2.6 子查询 .. 250
10.2.7 集合操作语句 251
10.3 创建表或视图 . 252
10.3.1 创建表 .. 252
10.3.2 创建视图 . 252
附录A SAS EG 菜单对应关系 254
附录B SPSS 菜单对应关系表 256
附录C SAS 和SPSS 关键术语、命令对应关系 258
附录D CDA 数据分析师致力于最好的数据分析人才建设 . 261
参考文献 265
这是一个用数据说话的时代 在CDA(注册数据分析师)Level I 级教材付诸印刷之际,关于数据分析这个职业及其价值的报道就有很多,比如,下面两条报道就充分体现了在大数据时代下,数据分析的价值。这在以前是从来没有过的。
LinkedIn 的最新投票结果显示,“统计分析和数据挖掘” 是2014 年最大的求职法宝。LinkedIn对全球超过3.3 亿用户的工作经历和技能进行分析,公布2014 年最受雇主喜欢、最炙手可热的25项技能,其中位列榜首的是统计分析和数据挖掘。
麦肯锡公司的一份研究预测称,到2018 年,在“具有深入分析能力的人才”方面,美国可能面临着14 万到19 万人的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师”缺口则会达到150 万人。
早在2010 年2 月,肯尼斯?库克尔在《经济学人》上发表了一份关于管理信息的特别报告——《数据,无所不在的数据》,文中写道:“世界上有着无法想象的巨量数字信息,并以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。”2011 年,麦肯锡发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,使人们在篇文章里认识到了数据的力量,于是,一夜之间,面向数据分析市场的新产品、新技术、新服务、新业态正在不断涌现。从个人、企业到国家层面,都把数据作为一种重要的战略资产,逐渐认识到了数据的价值,不同程度地渗透到每个行业领域和部门,大大提升了企业的经营利润,推动了经济的发展。
这是一个用数据说话的时代,也是一个依靠数据竞争的时代。目前世界500 强企业中,有90%以上都建立了数据分析部门。IBM、微软、Google 等知名公司都积极投资数据业务,建立数据部门,培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为日益倚重的技术手段。
作为一个数学和统计学的强国,数据分析、数据挖掘和大数据价值挖掘行业在我国仍属于朝阳行业,数据分析人才仍然比较稀缺。各行各业在平常工作中积累的各种各样的数据分析问题仍然没有得到及时有效地解决,有些问题,还是关乎本行业发展的至关重要的问题。数据积累越来越多,期待解决分析的数据问题也越来越多,人们逐渐习惯的使用数据作为决策的重要参考依据。据艾瑞的研究报告,未来与数据分析相关的就业岗位会在1000 万左右,而目前来说国内合格的数据分析师不足5 万左右,建立一个科学有效的数据分析师培训体系迫在眉睫。
在这样一个用数据说话的时代,积累了丰富的数据分析培训经验的人大经济论坛承担起使命,几番调查研究,几番反复推演论证,在2013 年,这个大数据的“元年”,CDA 注册数据分析师应运而生!
2003 年,人大经济论坛依托中国人民大学成立,在金融、管理、统计领域已积淀11 个年头,在国内享有良好声誉。
2006 年,人大经济论坛数据分析培训中心设立,至今经历8 个春秋,建立了大陆、台湾一线师资团队,培养人才已达3 万余人。
2013 年,“中国数据挖掘与数据分析俱乐部CDMC”在人大经济论坛旗下成立,2014 年改名为“中国数据分析师俱乐部CDA”。来自政府、金融、电信、零售、电商、互联网、教育等行业人士加入会员,成功举办了数十场行业聚会。紧接着,积累了数据分析培训丰富经验的人大经济论坛在国内展开CDA 数据分析师系统培训和认证考试,成功见证了1000 余名数据分析师的成长。
2015 年,人大经济论坛将提供高水平、多层次的数据分析培训服务,以在行业积累 多年的影响力,吸引更好更多的优秀师资,瞄准行业内重要的数据分析问题和难点,攻坚突破,建立更加规范的行业培训体系,引领数据分析培训行业向规范化、有效化和前瞻化方向发展,为数据分析培训做出应有的贡献。
其实,数学(含统计)和英语一样重要,都是人们不可或缺的重要技能。既然英语全民这么重视,数学及其数据分析的技能更加需求于方方面面,更应被做大做强。让我们共同期待人大经济论坛办成另一个数据的“新东方”!
前言
感谢您选择“CDA 数据分析师”Level I 学习系列丛书之《如虎添翼!数据处理的SPSS 和SASEG 实现(第2 版)》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础(第2 版)》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SPSS 和SAS EG 实现(第2 版)》中利用SAS EG、SPSS 和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SPSS 和SAS EG 进阶(第2 版)》中进行了详细的讲解和操作分析。
CDA 数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
阅读指南
对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbage in, garbage out”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。
数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,本书作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SAS EG、SPSS 的菜单操作中,并配以SAS 程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS 语言完成相对复杂的数据处理要求。
全书共分为10 章:
第1 章介绍了SAS EG、SPSS 软件,并介绍了三种常见的数据分析流程;
第2 章介绍了如何通过多种方式使SAS EG、SPSS 可以轻松地访问多种形式的外部数据;
第3 章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数值数据进行清理;
第4 章、第5 章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等;
第6 章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等;
第7 章讲解了数据的可视化及图表、报告的编制方法;
第8 章、第9 章介绍了如何在SAS EG 中运用提示、程序等来提高数据处理效率;
第10 章介绍了SQL 语言基础和MySQL 入门。
各部分相互独立,读者可以根据自己的需要选择性阅读。本书在第1 版的基础上,新增了第10章,其他各章分别对应加入了SPSS 的操作。
本书特点
1.关于SAS EG 模块和SPSS 实现功能比较的首本实战中文教材,通过比较,读者能更快掌握这两个应用最广、功能最强大的统计软件;
2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;
3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;
4.本书除讲解软件操作,还同时介绍了各种操作的SAS 语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS 处理数据的大门。学习方法
本书在编写上力求从读者的实战角度出发,每章基本上分为五部分:
1.商业背景的介绍;
2.相关的理论介绍;
3.EG 软件的解决方案;
4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;
5.SPSS 菜单解决方案;
6.扩展阅读,对于想深入学习SAS 编程、数据准备的读者,进一步介绍了相关的学习内容及方向。
读者可以根据自己的需要来阅读,本书的菜单操作部分以SAS Eenterprise guide 5.1,SPSS22 为例进行示范,代码部分以SAS 9.3 为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。
售后服务
为方便读者学习,本书提供了书中实例的源文件下载,请读者进经管之家(http://bbs.pinggu.org/),注册后搜索“CDA 教材源文件”关键词下载相应的源文件。
本书读者可以在经管之家的“数据挖掘与商业智能(http://bbs.pinggu.org/forum-133-1.html)”就书中的问题进行提问,也欢迎读者就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,作者邮箱为[email protected]。
致谢
本书由经管之家主编,徐筱刚、常国珍、丁亚军负责编写和完成统稿。丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、张童、王静等多位编辑的心血,特在此表示衷心地感谢!
为保证丛书的质量,使其更贴近读者,我们组织了经管之家
的多位版主和高级会员参与了本书第1版和第2版的预读工作,第1版是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚
军;第2
版是关继杰、殷子涵、种法辉。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了第1
版的预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。
再次感谢您的支持!
〈1〉缺失值的来源在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。
〈2〉缺失值的处理方式?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;单独作为一类。
〈3〉缺失值在SAS 中的表现方式?数值型的为“.”;?字符型的缺失值为空。
异常值
〈1〉异常值(Outlier)异常值也称为离群值、极端值(Extreme)。明显偏大或偏小的值,异常值不一定为错误值。
〈2〉识别异常值的常用方法有三种:第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3 个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。
〈3〉箱线图(Box Plot)箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.
〈4〉异常值的处理方法大多数情况下,被认定为极端值的观测值或者被删除,或者将其替换为某个更符合的值。但当被认定的异常值超过 10%以上时,异常值可能暗示其数据产生模式与其他数据不同,通过分析异常数据可以得到有用的信息,在对数据集进行建模或者分析时,应当分开分析无效值(Invalid)在录入时导致的错误,比如性别在录入时F 代表女,M 代表男,但是在录入时出现了“F,M”的情况,这种情况就是无效值。数据存在有效期,随着周围情况的变化,数据也会发生变化。例如,通过办理会员卡方式得到的客户住址、电话、邮箱等,在数据使用前,一定要知道数据是否还有效。无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。?数据的重复值(Duplicate)对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。
评论
还没有评论。