描述
开 本: 大32开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302299547
产品特色
编辑推荐
全书以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,使读者在阅读时能突破方法和工具的局限,真正聚集于对数据分析精髓的领悟。本书所附光盘包括案例数据和分析程序/流文件,读者可完整重现全部的分析内容。
本书适合从初学者到专家各个级别的数据分析人员阅读,尤其适合于以下读者群:需要提升实战能力的数据分析专业人员;在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士;同时也适合于各专业的本科和研究生作为学习数据分析应用的参考书。
本书适合从初学者到专家各个级别的数据分析人员阅读,尤其适合于以下读者群:需要提升实战能力的数据分析专业人员;在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士;同时也适合于各专业的本科和研究生作为学习数据分析应用的参考书。
内容简介
全书以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,使读者在阅读时能突破方法和工具的局限,真正聚集于对数据分析精髓的领悟。本书所附光盘包括案例数据和分析程序/流文件,读者可完整重现全部的分析内容。
本书适合从初学者到专家各个级别的数据分析人员阅读,尤其适合于以下读者群:需要提升实战能力的数据分析专业人员;在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士;同时也适合于各专业的本科和研究生作为学习数据分析应用的参考书。
本书适合从初学者到专家各个级别的数据分析人员阅读,尤其适合于以下读者群:需要提升实战能力的数据分析专业人员;在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士;同时也适合于各专业的本科和研究生作为学习数据分析应用的参考书。
目 录
1.1 三种数据分析方法论 3
1.1.1 严格设计支持下的统计
方法论 3
1.1.2 半试验研究支持下的统计
方法论 4
1.1.3 偏智能化、自动化分析的
数据挖掘应用方法论 5
1.2 CRISP-DM方法论介绍 6
1.2.1 概述 6
1.2.2 商业理解 8
1.2.3 数据理解 8
1.2.4 数据准备 9
1.2.5 建立模型 9
1.2.6 模型评价 9
1.2.7 结果部署 10
第2章 数据分析方法体系简介 11
2.1 统计软件中的数据存储格式 11
2.1.1 二维数据表 11
2.1.2 变量的存储类型 12
2.1.3 变量的测量尺度 12
2.2 数据的统计描述与参数估计 13
2.2.1 连续变量的统计描述 13
2.2.2 连续变量的参数估计 16
2.2.3 分类变量的统计描述和参数
估计 18
2.2.4 统计图形体系 21
2.3 常用假设检验方法 24
2.3.1 假设检验的基本原理 25
2.3.2 单变量假设检验方法 26
2.3.3 双变量假设检验方法 28
2.4 多变量模型 31
2.4.1 方差分析/一般线性模型 31
2.4.2 广义线性模型和混合线性
模型 32
2.4.3 回归模型 34
2.4.4 其他常见模型 36
2.5 多元统计分析模型 38
2.5.1 信息浓缩 38
2.5.2 变量间内在关联结构的
探讨 38
2.5.3 数据分类 39
2.5.4 分析元素间的关联 41
2.6 智能统计分析/数据挖掘方法 42
2.6.1 树模型 42
2.6.2 神经网络 43
2.6.3 支持向量机 43
2.6.4 贝叶斯网络 44
2.6.5 近邻元素分析 44
2.6.6 关联规则与序列分析 44
第3章 IBM SPSS Statistics操作
入门 46
3.1 案例背景 46
3.2 数据文件的读入与变量整理 47
3.2.1 SPSS的基本操作界面 47
3.2.2 数据准备 49
3.3 问卷数据分析 53
3.3.1 生成频数表 53
3.3.2 计算均值 54
3.3.3 对多选题进行描述 55
3.4 项目总结和讨论 56
第4章 IBM SPSS Statistics操作
进阶 57
4.1 案例背景 57
4.1.1 项目背景 57
4.1.2 分析思路 59
4.2 问卷录入 59
4.2.1 开放题的定义 59
4.2.2 单选题的定义 60
4.2.3 多选题的定义 60
4.3 问卷质量校验 62
4.3.1 去除重复记录 62
4.3.2 发现异常值 64
4.3.3 逻辑校验 65
4.4 问卷数据分析 67
4.4.1 问卷加权 67
4.4.2 业务分析 70
4.5 项目总结和讨论 71
第5章 IBM SPSS Modeler操作入门 73
5.1 IBM SPSS Modeler概述 73
5.1.1 IBM SPSS Modeler的界面 73
5.1.2 IBM SPSS Modeler的架构
与产品构成 76
5.2 IBM SPSS Modeler相关操作
与技巧 77
5.2.1 IBM SPSS Modeler的基本
操作 77
5.2.2 IBM SPSS Modeler中的
表达式 79
5.2.3 IBM SPSS Modeler的若干
使用技巧 79
5.3 IBM SPSS Modeler功能介绍 81
5.3.1 数据整理案例 81
5.3.2 探索性数据分析案例 82
5.3.3 建立模型、模型检验与模型
应用案例 83
5.4 案例分析:药物选择决策支持 86
5.4.1 背景介绍 86
5.4.2 数据说明 86
5.4.3 商业理解 87
5.4.4 数据理解 87
5.4.5 数据准备 88
5.4.6 模型建立和评估 89
5.4.7 模型发布 91
5.5 如何进一步学习IBM SPSS
Modeler 93
第二部分 影响因素发现与数值预测
第6章 酸奶饮料新产品口味测试
研究案例 97
6.1 案例背景 97
6.1.1 研究项目概况 97
6.1.2 分析思路与商业理解 98
6.2 数据理解 98
6.2.1 研究设计框架复查 98
6.2.2 均值的列表描述 99
6.2.3 均值的图形描述 101
6.3 不同品牌的评分差异分析 102
6.3.1 单因素方差分析模型简介 103
6.3.2 品牌作用的总体检验 104
6.3.3 组间两两比较 105
6.3.4 方差齐性检验 108
6.4 两因素方差分析模型分析 108
6.4.1 两因素方差分析模型简介 109
6.4.2 拟合包括交互项的饱
和模型 110
6.4.3 拟合只包含主效应的模型 111
6.4.4 组间两两比较 112
6.4.5 随机因素分析 114
6.5 分析结论与讨论 116
6.5.1 分析结论 116
6.5.2 Benchmark:用还是不用 116
第7章 偏态分布的激素水平影响
因素分析 118
7.1 案例背景 118
7.1.1 研究项目概况 118
7.1.2 分析思路与商业理解 119
7.2 数据理解 119
7.2.1 单变量描述 119
7.2.2 变量关联探索 122
7.3 对因变量变换后的建模分析 127
7.3.1 常见的变量变换方法 127
7.3.2 本案例的具体操作 128
7.4 秩变换分析 131
7.5 利用Cox模型进行分析 132
7.5.1 Cox回归模型的基本原理 133
7.5.2 本案例的具体操作 134
7.6 项目总结与讨论 136
7.6.1 分析结论 136
7.6.2 如何正确选择分析模型 136
第8章 某车企汽车年销量预测案例 138
8.1 案例背景 138
8.1.1 研究项目概况 138
8.1.2 分析思路和商业理解 139
8.2 数据理解 140
8.3 变量变换后的线性回归 142
8.3.1 线性回归模型简介 142
8.3.2 变量变换后拟合线性回归
模型 143
8.3.3 模型拟合效果的判断 146
8.3.4 存储预测值和区间估计值 148
8.4 曲线拟合 148
8.4.1 用曲线估计过程同时拟合
多个曲线模型 149
8.4.2 模型拟合效果的判断 151
8.4.3 模型的预测 153
8.5 利用非线性回归进行拟合 154
8.5.1 模型简介 154
8.5.2 构建分段回归模型 155
8.5.3 不同模型效果的比较 157
8.6 项目总结与讨论 158
8.6.1 分析结论 158
8.6.2 行走在理想与现实之间 158
第9章 脑外伤急救后迟发性颅脑损伤
影响因素分析案例 160
9.1 案例背景 160
9.1.1 研究项目概况 160
9.1.2 分析思路和商业理解 161
9.2 数据理解 161
9.2.1 变量关联的图表描述 161
9.2.2 变量关联的单变量检验 164
9.3 构建二分类Logistic回归模型 167
9.3.1 模型简介 167
9.3.2 初步尝试建模 169
9.3.3 构建终模型 174
9.4 利用树模型发现交互项 175
9.4.1 模型简介 176
9.4.2 进行树模型分析 178
9.5 使用广义线性过程进行分析 181
9.5.1 模型简介 181
9.5.2 构建仅包括主效应的模型 182
9.5.3 在模型中加入交互项 185
9.6 项目总结与讨论 186
9.6.1 分析结论 186
9.6.2 尺有所短,寸有所长 187
第10章 中国消费者信心指数影响
因素分析 188
10.1 案例背景 188
10.1.1 项目背景 188
10.1.2 项目问卷 189
10.1.3 分析思路和商业理解 192
10.2 数据理解 193
10.2.1 考察时间、地域对信心
指数的影响 193
10.2.2 考察性别、职业、婚姻状况
等对信心指数的影响 195
10.2.3 考察年龄对信心指数的
影响 196
10.3 标准GLM框架下的建模分析 197
10.3.1 建立总模型 197
10.3.2 两两比较的结果 200
10.4 多元方差分析模型的结果 202
10.4.1 模型简介 202
10.4.2 拟合多元方差分析模型 203
10.5 尺度回归 209
10.5.1 方法简介 210
10.5.2 利用尺度回归进行
分析 211
10.6 多水平模型框架下的建模分析 214
10.6.1 模型简介 215
10.6.2 针对时间拟合多水平模型 216
10.7 项目总结与讨论 221
10.7.1 分析结论 221
10.7.2 什么时候运用复杂模型
来建模 222
第三部分 信息浓缩、分类与感知图呈现
第11章 探讨消费者购买保健品的
动机 225
11.1 案例背景 225
11.1.1 研究项目概况 225
11.1.2 分析思路和商业理解 227
11.2 数据理解 227
11.2.1 单变量描述 227
11.2.2 变量关联探索 228
11.3 利用因子分析进行信息浓缩 229
11.3.1 模型简介 229
11.3.2 因子分析的具体操作 231
11.4 基于因子分析结果进行市场细分 238
11.4.1 不同婚姻状况受访者的
差异 238
11.4.2 不同品牌保健品使用者的
因子偏好差异 240
11.5 项目总结与讨论 241
11.5.1 研究结论 241
11.5.2 合理解读因子分析的结果 242
第12章 1988年汉城奥运会男子十项
全能成绩分析 244
12.1 案例背景 244
12.1.1 项目概况 244
12.1.2 分析思路和商业理解 245
12.2 数据理解 246
12.2.1 单变量描述 246
12.2.2 变量关联性探索 246
12.2.3 尝试初步建模 247
12.3 利用因子分析进行信息浓缩 249
12.3.1 初步分析 249
12.3.2 因子旋转 252
12.3.3 继续寻找更好的分析结果 253
12.3.4 结果存储与发布 254
12.4 主成分回归 255
12.5 将主成分回归方程还原回原始
变量的形式 257
12.6 项目总结与讨论 257
12.6.1 研究结论 257
12.6.2 正确诠释因子的方差解释
比例 258
第13章 打败SARS 259
13.1 案例背景 259
13.1.1 研究项目概况 259
13.1.2 分析思路和商业理解 262
13.2 数据理解与数据准备 263
13.2.1 消费者关注的信息 263
13.2.2 突发事件保险产品购买
倾向 265
13.2.3 未来消费者生活方式的
变化 267
13.3 “非典”信息关注倾向的多维偏好
分析 269
13.3.1 模型简介 269
13.3.2 多维偏好分析的SPSS
操作 270
13.3.3 尝试初步建模 272
13.3.4 引入更多的背景变量 275
13.4 突发事件险种购买倾向的多重
对应分析 278
13.4.1 模型简介 278
13.4.2 简单对应分析 280
13.4.3 多重对应分析 284
13.5 “非典”对未来生活方式的影响 289
13.5.1 采用多维偏好分析进行
初步探索 289
13.5.2 换用因子分析进行信息
汇总 291
13.6 项目总结与讨论 295
13.6.1 研究结论 295
13.6.2 对多维偏好分析等信息浓缩
方法本质的讨论 297
第14章 住院费用影响因素挖掘 299
14.1 案例背景 299
14.1.1 项目概况 299
14.1.2 分析思路/商业理解 302
14.2 数据理解与数据准备 303
14.2.1 费用数据分布 303
14.2.2 变量合并 305
14.2.3 值清理 306
14.2.4 病种分布考察 306
14.2.5 变量变换 307
14.3 采用聚类分析寻找费用类型 308
14.3.1 用因子分析汇总信息 308
14.3.2 聚类分析方法简介 310
14.3.3 对费用数据进行聚类分析 312
14.4 住院费用影响因素的神经网络
分析 315
14.4.1 模型简介 316
14.4.2 初步尝试用神经网络建模 318
14.4.3 对年龄离散化后重新建模 323
14.4.4 构建双因变量神经网络 325
14.4.5 进一步寻找更清晰的结果
解释 327
14.5 不同疗法疗效与费用比较的神经
网络分析 328
14.5.1 生成工作用数据集 329
14.5.2 进行神经网络的建模预测 330
14.5.3 模型预测值的比较 332
14.6 项目总结与讨论 334
14.6.1 研究结论 334
14.6.2 数据挖掘方法和经典方法的
取舍 335
第四部分 数据挖掘案例精选
第15章 淘宝大卖家之营销数据
分析 339
15.1 案例背景 339
15.1.1 卖家张三 339
15.1.2 分析思路和商业理解 340
15.2 利用RFM模型定位促销名单 341
15.2.1 RFM模型简介 341
15.2.2 对数据进行RFM模型
分析 343
15.3 寻找有重购行为买家的特征 348
15.3.1 数据理解与数据准备 348
15.3.2 利用直销模块寻找重购
人群的特征 354
15.4 总结与讨论 356
15.4.1 可使用的其他营销分析
方法 356
15.4.2 研究总结 357
第16章 超市商品购买关联分析 358
16.1 案例背景 358
16.1.1 研究背景 358
16.1.2 分析思路和商业理解 358
16.2 数据准备 359
16.3 商品购买关联分析 362
16.3.1 几种典型关联算法介绍 362
16.3.2 商品购买关联分析 364
16.4 结果应用 369
第17章 电信业客户流失分析 370
17.1 案例背景 370
17.2 商业理解 371
17.2.1 如何定义流失 372
17.2.2 哪些变量可用于预测流失 372
17.2.3 如何定义分析用数据的
时间窗口 373
17.2.4 如何从分析结果中获取实际
收益 374
17.3 数据理解与数据准备 374
17.3.1 分析的数据基础 374
17.3.2 生成数据挖掘宽表 376
17.3.3 数据探索性分析 382
17.4 建立模型与模型评估 390
17.4.1 模型的选择 390
17.4.2 建模思路1:聚类 392
17.4.3 建模思路2:用决策树生成
规则集 394
17.4.4 建模思路3:用神经网络
生成流失评分 395
17.5 模型的应用及营销预演 399
17.6 总结与讨论 401
17.6.1 研究总结 401
17.6.2 进一步阅读 402
第18章 信用风险评分方法 403
18.1 案例背景 403
18.1.1 引言 403
18.1.2 信用评分的方法 405
18.2 商业理解 406
18.3 数据理解与数据准备 409
18.4 建立模型与模型评估 410
18.4.1 对输入变量分箱 411
18.4.2 用Logistic回归建立信用
预测模型 415
18.4.3 生成信用评分模型 417
18.4.4 模型检验 420
18.5 对若干问题的说明 422
18.5.1 拒绝推断 422
18.5.2 模型的监控 423
18.5.3 进一步阅读 424
第19章 医疗保险业的欺诈发现 425
19.1 案例背景 425
19.2 商业理解 426
19.3 数据理解与数据准备 427
19.3.1 数据集概况 427
19.3.2 对数据进行描述 429
19.3.3 对数据源合并的考虑 431
19.4 建立模型 432
19.4.1 进行欺诈发现的若干技术
思路和方法 432
19.4.2 模型1:变量对比发现疑似
欺诈 434
19.4.3 模型2:通过Benford定律
发现疑似欺诈 436
19.4.4 模型3:通过对投保人细分
发现疑似欺诈 439
19.4.5 模型4:发现医疗保健机构
行为模式异常 441
19.4.6 模型5:使用关联规则发现
多个医保机构共用投保人
信息 441
19.4.7 模型6:发现异常诊断与
处理过程 442
19.5 结果发布 444
19.6 进一步阅读 445
第20章 电子商务中的数据挖掘
应用 446
20.1 案例背景 446
20.1.1 引言 446
20.1.2 网络数据分析的分类 447
20.2 数据理解 448
20.2.1 分析的数据基础 448
20.2.2 网络数据的常见来源 450
20.3 数据准备 452
20.3.1 识别访问用户 453
20.3.2 从网络日志中提取有用
信息 454
20.3.3 合并网络日志与相关数据 455
20.4 建立模型与模型发布 455
20.4.1 对访问建立模型 456
20.4.2 自动选择模型功能及组合
模型的应用 459
20.4.3 对访问者建立模型 462
20.4.4 产品特征模型 464
20.5 进一步阅读 465
附 录
附录A 本书光盘内容介绍 469
附录B SPSS 软件的安装与激活 470
附录C 书中统计方法、模型与知识点
索引 472
附录D IBM SPSS Statistics函数
一览表 474
附录E IBM SPSS Modeler节点
功能简介 485
参考文献 495
后记 498
前 言
前 言
所谓艺术,就是指如果只靠系统地学习既有知识体系,但自身不具备相当的天赋,或者没有经过长期实践以积累经验和激发灵感,始终难以登堂入室成为大师的那些学科;音乐、舞蹈、绘画等就是如此。大英百科全书就把统计学定义为:一门收集数据、分析数据,并根据数据进行推断的艺术和科学。显然,作为一门应用学科,统计学非常强调实战能力。一名出色的统计师需要通过经历各种各样的实战分析项目来吸取经验、教训以便持续成长。光靠操作教科书上那些标准案例,他只能成为工匠,而不能成为大师。
近年来,随着计算机技术的飞速发展,统计工具出现了日新月异的变化,大大提高了其可用性。统计学和数据库技术、人工智能技术的融合,更是进一步催生了数据挖掘这个目前炙手可热,也更强调实战能力的领域。具体到SPSS系列产品,随着IBM的并购,原先的SPSS软件已经成为IBM SPSS Statistics,它定位于标准的统计分析需求,而更贴近企业用户的数据分析与挖掘的需求则由IBM SPSS Modeler来满足。分析工具的高度易用性和实战需求的同步发展,使得各行各业对统计分析和数据挖掘人员的需求呈现爆炸性增长,远远超过了正常培养周期能够提供的数量,而广大统计分析人员也迫切希望能够得到的是一本讲解提高实战操作技能的书,而不是单纯以介绍某一种统计软件为目的的参考书,以便帮助自己迅速提升实战能力。因此,笔者便有了编写这样一本书的打算。
笔者先后于2000年、2002年和2004年编写过三轮SPSS教程/参考书,均获得了读者的好评。作为在数据分析领域从业十余年的统计专业人员,本书的作者深知在漫长的经验积累阶段所需要付出的努力和汗水,更能体会到编写一本实战案例书的市场价值。虽然作者从业以来经手的分析案例有上千个,但很多优秀案例都因涉及相应公司的业务机密而无法和读者分享。而且案例的复杂程度和代表性也颇费思量,过于复杂会牵扯太多的具体业务细节,影响案例的可读性,而案例过于简单,则无法展示实战分析中可能遇到的各种情况,参考价值不大。在反复讨论之后,笔者终决定编写此书,因为这件事情有利于推动数据分析行业的发展,非常值得去做。
本书定位为实战类书籍,分为4个部分,共20章(不包括附录部分),以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为准,完全从实际案例的分析需求出发,讲解各类方法的综合运用和实战操作,本书的具体特点如下。
* 行业实战:以案例集的方式提供医疗、电信、金融、零售、市场研究等行业的真实案例,完全从实际项目的分析需求出发,讲解各类方法的综合运用,使本书更贴近数据分析实战,更具参考价值。
* 内容全面:同样是从实战需求出发,不再拘泥于常规统计方法,也不再拘泥于IBM SPSS Statistics一个软件,而是基于实际应用的需求,随时使用各种SPSS软件中的新功能、新技巧,必要时进一步引入Modeler来解决各种数据挖掘的具体应用,从而在实际案例的背景下,使读者充分了解IBM SPSS系列产品的强大功能。
* 易学易用:以实用性为标准,结合笔者多年的统计教学经验和现在的商业应用经验,重点讲解实战分析应用,案例的安排顺序从简到繁,将软件操作的讲解自然融入案例分析过程中,使读者的学习过程更加自然流畅。
* 案例重现:本书附带光盘中包含书中涉及的完整案例数据、案例实现程序和Modeler数据流,并提供IBM SPSS Statistics和IBM SPSS Modeler试用软件的下载网址,读者可以在学习时利用试用软件同步完整重现所有的分析过程和结果,彻底避免纸上谈兵的尴尬。
对不同的读者群,他们可以从书中学到以下知识和技能。
* 软件入门:对IBM SPSS Statistics和IBM SPSS Modeler新用户而言,本书显然是的学习软件操作和实战技能的教科书。本书采用相应软件的较新版本,就统计分析和数据挖掘项目中的一些典型案例进行了深入浅出的介绍,读者只需要按照讲解顺序操作,就可以真正掌握相应的数据分析实战操作技能。
* 技能提升:对已经熟悉相应SPSS系列产品如何使用的老用户而言,本书则是读者渴望多年的专家教程。笔者在案例中真正展示的并非简单的软件操作,而是完整的统计思维和实战分析思路,已有数据分析基础的读者通过对这些案例的学习,能够更快地跨越从理论到实战的鸿沟,从而使自身对软件工具的掌握和实战操作能力都得到真正的提升。
* 触类旁通:对资深的统计分析和数据挖掘人员而言,其对分析工具的应用早已超越了个别产品的层面,达到“不滞于物,草木竹石皆可为剑”的地步,但本书仍然具有很高的参考价值,因为软件仅仅是实现工具,其背后的统计思维、统计方法、基本原则等完全相同,但不同的人在面对相同问题时所采用的分析流程、处理方法等各有千秋,通过对书中案例的学习、参照和比较,分析人员能够举一反三,从而真正对实战操作达到“悟”的境界。
本书第1章由张文彤和钟云飞共同编写,第5章和第17~20章由钟云飞编写,第4章和第16章由王清华编写,其余各章由张文彤编写。
在本书的写作、出版、发行过程中,我们得到了IBM大中华区业务分析软件总经理缪可延、IBM大中华区业务分析软件技术经理周庆伟、IBM大中华区商业智能及预测分析软件销售经理刘海亮、IBM华西区市场经理邓宏等多位IBM领导与同事的鼓励、帮助与支持,人大经济论坛则为本书提供了试用软件的下载空间,这里一并表示由衷的感谢。
希望本书能够帮助读者更加深入地了解数据分析,进一步促进数据分析在国内的普及。也希望广大读者踊跃提出自己的宝贵意见和建议,使本书再版时能够更加完善。
编 者
所谓艺术,就是指如果只靠系统地学习既有知识体系,但自身不具备相当的天赋,或者没有经过长期实践以积累经验和激发灵感,始终难以登堂入室成为大师的那些学科;音乐、舞蹈、绘画等就是如此。大英百科全书就把统计学定义为:一门收集数据、分析数据,并根据数据进行推断的艺术和科学。显然,作为一门应用学科,统计学非常强调实战能力。一名出色的统计师需要通过经历各种各样的实战分析项目来吸取经验、教训以便持续成长。光靠操作教科书上那些标准案例,他只能成为工匠,而不能成为大师。
近年来,随着计算机技术的飞速发展,统计工具出现了日新月异的变化,大大提高了其可用性。统计学和数据库技术、人工智能技术的融合,更是进一步催生了数据挖掘这个目前炙手可热,也更强调实战能力的领域。具体到SPSS系列产品,随着IBM的并购,原先的SPSS软件已经成为IBM SPSS Statistics,它定位于标准的统计分析需求,而更贴近企业用户的数据分析与挖掘的需求则由IBM SPSS Modeler来满足。分析工具的高度易用性和实战需求的同步发展,使得各行各业对统计分析和数据挖掘人员的需求呈现爆炸性增长,远远超过了正常培养周期能够提供的数量,而广大统计分析人员也迫切希望能够得到的是一本讲解提高实战操作技能的书,而不是单纯以介绍某一种统计软件为目的的参考书,以便帮助自己迅速提升实战能力。因此,笔者便有了编写这样一本书的打算。
笔者先后于2000年、2002年和2004年编写过三轮SPSS教程/参考书,均获得了读者的好评。作为在数据分析领域从业十余年的统计专业人员,本书的作者深知在漫长的经验积累阶段所需要付出的努力和汗水,更能体会到编写一本实战案例书的市场价值。虽然作者从业以来经手的分析案例有上千个,但很多优秀案例都因涉及相应公司的业务机密而无法和读者分享。而且案例的复杂程度和代表性也颇费思量,过于复杂会牵扯太多的具体业务细节,影响案例的可读性,而案例过于简单,则无法展示实战分析中可能遇到的各种情况,参考价值不大。在反复讨论之后,笔者终决定编写此书,因为这件事情有利于推动数据分析行业的发展,非常值得去做。
本书定位为实战类书籍,分为4个部分,共20章(不包括附录部分),以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为准,完全从实际案例的分析需求出发,讲解各类方法的综合运用和实战操作,本书的具体特点如下。
* 行业实战:以案例集的方式提供医疗、电信、金融、零售、市场研究等行业的真实案例,完全从实际项目的分析需求出发,讲解各类方法的综合运用,使本书更贴近数据分析实战,更具参考价值。
* 内容全面:同样是从实战需求出发,不再拘泥于常规统计方法,也不再拘泥于IBM SPSS Statistics一个软件,而是基于实际应用的需求,随时使用各种SPSS软件中的新功能、新技巧,必要时进一步引入Modeler来解决各种数据挖掘的具体应用,从而在实际案例的背景下,使读者充分了解IBM SPSS系列产品的强大功能。
* 易学易用:以实用性为标准,结合笔者多年的统计教学经验和现在的商业应用经验,重点讲解实战分析应用,案例的安排顺序从简到繁,将软件操作的讲解自然融入案例分析过程中,使读者的学习过程更加自然流畅。
* 案例重现:本书附带光盘中包含书中涉及的完整案例数据、案例实现程序和Modeler数据流,并提供IBM SPSS Statistics和IBM SPSS Modeler试用软件的下载网址,读者可以在学习时利用试用软件同步完整重现所有的分析过程和结果,彻底避免纸上谈兵的尴尬。
对不同的读者群,他们可以从书中学到以下知识和技能。
* 软件入门:对IBM SPSS Statistics和IBM SPSS Modeler新用户而言,本书显然是的学习软件操作和实战技能的教科书。本书采用相应软件的较新版本,就统计分析和数据挖掘项目中的一些典型案例进行了深入浅出的介绍,读者只需要按照讲解顺序操作,就可以真正掌握相应的数据分析实战操作技能。
* 技能提升:对已经熟悉相应SPSS系列产品如何使用的老用户而言,本书则是读者渴望多年的专家教程。笔者在案例中真正展示的并非简单的软件操作,而是完整的统计思维和实战分析思路,已有数据分析基础的读者通过对这些案例的学习,能够更快地跨越从理论到实战的鸿沟,从而使自身对软件工具的掌握和实战操作能力都得到真正的提升。
* 触类旁通:对资深的统计分析和数据挖掘人员而言,其对分析工具的应用早已超越了个别产品的层面,达到“不滞于物,草木竹石皆可为剑”的地步,但本书仍然具有很高的参考价值,因为软件仅仅是实现工具,其背后的统计思维、统计方法、基本原则等完全相同,但不同的人在面对相同问题时所采用的分析流程、处理方法等各有千秋,通过对书中案例的学习、参照和比较,分析人员能够举一反三,从而真正对实战操作达到“悟”的境界。
本书第1章由张文彤和钟云飞共同编写,第5章和第17~20章由钟云飞编写,第4章和第16章由王清华编写,其余各章由张文彤编写。
在本书的写作、出版、发行过程中,我们得到了IBM大中华区业务分析软件总经理缪可延、IBM大中华区业务分析软件技术经理周庆伟、IBM大中华区商业智能及预测分析软件销售经理刘海亮、IBM华西区市场经理邓宏等多位IBM领导与同事的鼓励、帮助与支持,人大经济论坛则为本书提供了试用软件的下载空间,这里一并表示由衷的感谢。
希望本书能够帮助读者更加深入地了解数据分析,进一步促进数据分析在国内的普及。也希望广大读者踊跃提出自己的宝贵意见和建议,使本书再版时能够更加完善。
编 者
书摘插画
评论
还没有评论。