描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111689942丛书名: 数据科学与工程技术丛书
编辑推荐
本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案,并侧重于数据科学家的需求,提供了实用且强大、简单而富有洞察力的量化技术,其中大部分使用了受新机器学习影响改进的“旧”统计方法。 在这本畅销书的新版里,作者大幅修改并重新组织章节内容,新增了一些富有创意且用途广泛的机器学习数据挖掘技术方面的内容。简单而有针对性的量化处理方法使得本书在数据挖掘图书领域别具一格。
内容简介
本书是一本区分统计数据挖掘和机器学习数据挖掘的图书。它创造性地汇编了数据挖掘技术,解决了对经典和现代统计方法框架的扩展,用于预测建模和大数据分析。SM-DM为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案。它的展示侧重于数据科学家(通常被称为统计学家、数据采矿者和数据分析师)的需求,提供实用但又强大的、简单而又有洞察力的量化技术,其中大部分使用了新机器学习影响改进的“旧”统计方法。
目 录
第3版前言
第2版前言
致谢
关于作者
第1章 引论 1
1.1 个人计算机与统计学 1
1.2 统计学和数据分析 2
1.3 EDA简介 3
1.4 EDA范式 4
1.5 EDA的弱点 5
1.6 小数据和大数据 5
1.6.1 数据规模特征 6
1.6.2 数据规模:个人观点 7
1.7 数据挖掘范式 7
1.8 统计学和机器学习 8
1.9 统计数据挖掘 9
参考资料 9
第2章 数据处理相关学科:统计学和数据科学 11
2.1 引言 11
2.2 背景 11
2.3 统计学与数据科学的比较 12
2.4 讨论:统计学与数据科学的不同之处 18
2.5 本章小结 19
2.6 结语 19
参考资料 19
第3章 变量评估的两种基本数据挖掘方法 21
3.1 引言 21
3.2 相关系数 21
3.3 散点图 22
3.4 数据挖掘 24
3.4.1 示例3.1 24
3.4.2 示例3.2 24
3.5 平滑散点图 25
3.6 一般关联性检验 27
3.7 本章小结 28
参考资料 29
第4章 用于评估成对变量的基于CHAID的数据挖掘方法 30
4.1 引言 30
4.2 散点图 30
4.3 平滑散点图 31
4.4 CHAID入门 32
4.5 用更平滑的散点图进行基于CHAID的数据挖掘 33
4.6 本章小结 36
参考资料 37
第5章 校直数据的简单性和可取性对建模十分重要 38
5.1 引言 38
5.2 数据的直度和对称度 38
5.3 数据挖掘是高级概念 39
5.4 相关系数 39
5.5 (xx3,yy3)散点图 40
5.6 挖掘(xx3,yy3)关系 41
5.7 基于遗传算法的数据挖掘如何处理数据 43
5.8 校直多个变量 43
5.9 本章小结 44
参考资料 44
第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法 45
6.1 引言 45
6.2 量度范围 45
6.3 茎叶图 47
6.4 箱线图 47
6.5 排序数据对称处理方法的图示 47
6.5.1 示例1 48
6.5.2 示例2 50
6.6 本章小结 56
参考资料 56
第7章 主成分分析:多变量评估的统计数据挖掘方法 57
7.1 引言 57
7.2 EDA重新表述范式 57
7.3 关键点 58
7.4 PCA基础 58
7.5 示例详解 58
7.6 PCA的代数特征 59
7.7 一个不常见示例 60
7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61
7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果 61
7.8 用PCA构造准交互变量 62
7.9 本章小结 66
第8章 市场份额估算:一个特殊的数据挖掘案例 67
8.1 引言 67
8.2 背景 67
8.3 一个特殊的数据挖掘案例 68
8.4 构建RAL的YUM市场份额模型 69
8.4.1 市场份额模型的十分位分析 76
8.4.2 YUM_3mos市场份额模型的结论 76
8.5 本章小结 77
附录8.A 生成 PROMO_Code哑变量 77
附录8.B PROMO_Code哑变量的PCA 77
附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos 78
附录8.D 生成YUM_3mos_wo_PROMO_CodeEff 78
附录 8.E 将变量标准化为位于[0, 1]内 78
参考资料 79
第9章 相关系数在[-1, 1]内取值,是这样吗 80
9.1 引言 80
9.2 相关系数的基础知识 80
9.3 计算相关系数 81
9.4 重新配对 82
9.5 计算经调整的相关系数 84
9.6 重新配对的意义 84
9.7 本章小结 84
第10章 逻辑斯谛回归:回应建模方法 85
10.1 引言 85
10.2 逻辑斯谛回归模型 86
10.2.1 示例 86
10.2.2 为LRM打分 87
10.3 案例分析 88
10.4 logit值和logit散点图 89
10.5 校直数据的重要性 90
10.6 校直数据的重述 91
10.6.1 幂阶梯法 91
10.6.2 突起规则 91
10.6.3 测量校直数据 92
10.7 校直示例数据 92
10.7.1 FD2_OPEN的重述 93
10.7.2 INVESTMENT的重述 94
10.8 在突起规则不适用的情况下选用的技术 95
10.8.1 拟合logit值散点图 95
10.8.2 平滑预测值与实际值散点图 96
10.9 MOS_OPEN的重述 96
10.10 评估变量的重要性 99
10.10.1 计算G统计量 99
10.10.2 单变量的重要性 100
10.10.3 变量子集合的重要性 100
10.10.4 不同变量子集合的重要性比较 100
10.11 案例的重要变量 101
10.12 变量的相对重要性 102
10.13 案例变量的子集合 103
10.14 模型预测准确性的可视化指标 104
10.14.1 得分组的平滑残差散点图 104
10.14.2 基于十分位组的平滑预测与实际值散点图 106
10.
第2版前言
致谢
关于作者
第1章 引论 1
1.1 个人计算机与统计学 1
1.2 统计学和数据分析 2
1.3 EDA简介 3
1.4 EDA范式 4
1.5 EDA的弱点 5
1.6 小数据和大数据 5
1.6.1 数据规模特征 6
1.6.2 数据规模:个人观点 7
1.7 数据挖掘范式 7
1.8 统计学和机器学习 8
1.9 统计数据挖掘 9
参考资料 9
第2章 数据处理相关学科:统计学和数据科学 11
2.1 引言 11
2.2 背景 11
2.3 统计学与数据科学的比较 12
2.4 讨论:统计学与数据科学的不同之处 18
2.5 本章小结 19
2.6 结语 19
参考资料 19
第3章 变量评估的两种基本数据挖掘方法 21
3.1 引言 21
3.2 相关系数 21
3.3 散点图 22
3.4 数据挖掘 24
3.4.1 示例3.1 24
3.4.2 示例3.2 24
3.5 平滑散点图 25
3.6 一般关联性检验 27
3.7 本章小结 28
参考资料 29
第4章 用于评估成对变量的基于CHAID的数据挖掘方法 30
4.1 引言 30
4.2 散点图 30
4.3 平滑散点图 31
4.4 CHAID入门 32
4.5 用更平滑的散点图进行基于CHAID的数据挖掘 33
4.6 本章小结 36
参考资料 37
第5章 校直数据的简单性和可取性对建模十分重要 38
5.1 引言 38
5.2 数据的直度和对称度 38
5.3 数据挖掘是高级概念 39
5.4 相关系数 39
5.5 (xx3,yy3)散点图 40
5.6 挖掘(xx3,yy3)关系 41
5.7 基于遗传算法的数据挖掘如何处理数据 43
5.8 校直多个变量 43
5.9 本章小结 44
参考资料 44
第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法 45
6.1 引言 45
6.2 量度范围 45
6.3 茎叶图 47
6.4 箱线图 47
6.5 排序数据对称处理方法的图示 47
6.5.1 示例1 48
6.5.2 示例2 50
6.6 本章小结 56
参考资料 56
第7章 主成分分析:多变量评估的统计数据挖掘方法 57
7.1 引言 57
7.2 EDA重新表述范式 57
7.3 关键点 58
7.4 PCA基础 58
7.5 示例详解 58
7.6 PCA的代数特征 59
7.7 一个不常见示例 60
7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61
7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果 61
7.8 用PCA构造准交互变量 62
7.9 本章小结 66
第8章 市场份额估算:一个特殊的数据挖掘案例 67
8.1 引言 67
8.2 背景 67
8.3 一个特殊的数据挖掘案例 68
8.4 构建RAL的YUM市场份额模型 69
8.4.1 市场份额模型的十分位分析 76
8.4.2 YUM_3mos市场份额模型的结论 76
8.5 本章小结 77
附录8.A 生成 PROMO_Code哑变量 77
附录8.B PROMO_Code哑变量的PCA 77
附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos 78
附录8.D 生成YUM_3mos_wo_PROMO_CodeEff 78
附录 8.E 将变量标准化为位于[0, 1]内 78
参考资料 79
第9章 相关系数在[-1, 1]内取值,是这样吗 80
9.1 引言 80
9.2 相关系数的基础知识 80
9.3 计算相关系数 81
9.4 重新配对 82
9.5 计算经调整的相关系数 84
9.6 重新配对的意义 84
9.7 本章小结 84
第10章 逻辑斯谛回归:回应建模方法 85
10.1 引言 85
10.2 逻辑斯谛回归模型 86
10.2.1 示例 86
10.2.2 为LRM打分 87
10.3 案例分析 88
10.4 logit值和logit散点图 89
10.5 校直数据的重要性 90
10.6 校直数据的重述 91
10.6.1 幂阶梯法 91
10.6.2 突起规则 91
10.6.3 测量校直数据 92
10.7 校直示例数据 92
10.7.1 FD2_OPEN的重述 93
10.7.2 INVESTMENT的重述 94
10.8 在突起规则不适用的情况下选用的技术 95
10.8.1 拟合logit值散点图 95
10.8.2 平滑预测值与实际值散点图 96
10.9 MOS_OPEN的重述 96
10.10 评估变量的重要性 99
10.10.1 计算G统计量 99
10.10.2 单变量的重要性 100
10.10.3 变量子集合的重要性 100
10.10.4 不同变量子集合的重要性比较 100
10.11 案例的重要变量 101
10.12 变量的相对重要性 102
10.13 案例变量的子集合 103
10.14 模型预测准确性的可视化指标 104
10.14.1 得分组的平滑残差散点图 104
10.14.2 基于十分位组的平滑预测与实际值散点图 106
10.
前 言
第3版前言
大数据的预测分析法在本书第2版出版之后的四年来一直保持着稳定的热度。我之所以决定写作新版,不是因为第2版的成功,而是因为我收到的大量正面反馈(读者来信)。而且,重要的是,我需要分享解决问题的方法。这些问题还没有被人们普遍接受的、可靠的或者已知的解决方案。与上一版一样,约翰·图基(John Tukey)原则是推进统计学的发展以及提高灵活性、实用性、创新性和普遍性所必需的,是各章介绍的新分析法和建模方法论的试金石。
第3版的主要目标如下:
1)扩充核心内容,包括解决问题的策略和方法,它们来自预测分析学术会议和统计建模研讨会,以及我对Statistics on the Table [1]的一些想法。
2)重新编辑现有章节,提高写作质量;修改结尾部分,使内容更紧凑。
3)提供本书推荐的分析方法和建模的统计子程序。我使用Base SAS和STAT/SAS。这些子程序也可以从 http://www.geniq.net/articles.html#section9下载,代码很容易转换成用户喜欢的其他语言。
在第2版的基础上,本书新增了13章,它们穿插在原来的章节中间,以限度地保证内容的连贯性。新章节如下:
第2章介绍统计学与数据科学。如果人们不留意,可能就会按下删除键,删掉统计学和统计学家,代之以科学和数据科学家。我讨论了近期出现的术语—数据科学是否意味着统计学是一个发展更快的领域的子集合,或者数据科学是否掩盖了当前的统计学应用状况。
第8章介绍一个市场份额估算模型,其独特之处是不采用常规的基于抽样调研的市场份额情境分析,而是采用主成分分析(PCA)作为估算一个真实案例的市场份额的基础。我提供了构建这个案例研究的市场份额模型的SAS子程序。
第11章介绍无抽样调研数据预测钱包份额。这种预测钱包份额(SOW)的日常方法需要抽样调研数据。由于抽样调研工作耗时多、成本高,而且会出现不可靠数据,所以通常不采用。我提供了一种不需要数据就能预测SOW的两步法。步定义一个准SOW并通过模拟法对总金额进行估算。第二步采用分数逻辑斯谛回归法预测SOW_q,巧妙地将普通的逻辑斯谛回归用于比例或比率不变的因变量。我给出了详细的案例分析和SAS子程序,读者会发现这种方法很有价值。
第19章提出了一种基于模型的潜在类别分析(LCA)聚类方法。这种细分的创新型策略包含在时间序列数据的应用之中。时间序列LCA模型是一种完全不同的方法,可以作为处理截面数据集中的时间序列数据的模板。这种LCA法可以替代目前流行的基于数据的启发式k均值法。我提供了SAS子程序,数据挖掘人员可以用来执行与演示类似的市场细分工作。我还提供了一种将时间序列数据合并到其他截面数据集中的独特方法。
随后是第20章。文献通常会介绍各种可以用来进行市场细分的聚类方法,而有关如何解读细分结果的文献却寥寥无几。这一章提供了一种理解客户细分的便捷方法。我用一个常见的简单例子说明新方法,以充分展示这种方法的威力。本章提供了执行这种新方法所用的SAS子程序,数据挖掘人员可以将这个有价值的统计技术收入工具箱。
第21章是第20章的扩展。本章的目的是提供一种理解统计回归模型的简单方法,即普通小二乘法和逻辑斯谛回归(LR)模型。我用一个LR模型演示了这种方法,展示了这种方法的威力。这种方法含有补充信息,用于弥补一直以来人们需要依靠回归系数才能理解统计回归模型的不足。我提供了SAS子程序,可以作为其他统计方法的一个有价值的补充。
第23章介绍大数据建模,接在使用CHAID作为归因方法的章节之后。缺失的数据会警告统计学家:“除非你知道如何接纳我,否则你毫无胜算。”在大数据出现之前,用传统的基于数据的方法(完整案例分析)处理任何数据集都会出现问题。这些方法能否有效用于大数据分析令人怀疑。我提出了一个两步法,即先用完整的回应数据建模,然后用PCA对不完整的回应数据建模。这两个模型可以单独使用,也可以与具体任务目标结合使用。我提供了这种方法的SAS子程序,它会成为统计建模者的一个有用工具。
第24章高度融合了艺术、科学、数字和诗歌,它们都受到了埃及金字塔、达·芬奇和爱因斯坦的启发。这一章会引发你的思考。
第27章是对前一章的补充。营销人员使用十分位分析评估他们的回应模型相对于随机获得的回应的可预测优势。我定义了两种新指标,即回应模型十分位分析精确度和随机模型十分位精确度,可以让营销人员对回应模型的优缺点进行更深入的评估。我提供了构建这两种新指标的SAS子程序,这会成为市场营销统计学家的可靠工具。
第28章将评估回应模型的方法扩展到适当使用对照组(文献中使用诸如提升或净提升度模型这类名称),以替代第27章中讨论的随机模型。有关净提升度模型的文献有很多,有些相互矛盾而且容易引起混淆。我提供了另一种方法—T-C净提升度模型,这是一个简单、直观、可靠、易于实现和理解的模型,缓解了有关这个主题的文献之间的不相容情况。我提供了T-C净提升度模型的SAS子程序,统计学家可以用于建模,而不必购买昂贵的软件。
对于统计学家来说,当踏上数据处理旅程时,第34章会给
大数据的预测分析法在本书第2版出版之后的四年来一直保持着稳定的热度。我之所以决定写作新版,不是因为第2版的成功,而是因为我收到的大量正面反馈(读者来信)。而且,重要的是,我需要分享解决问题的方法。这些问题还没有被人们普遍接受的、可靠的或者已知的解决方案。与上一版一样,约翰·图基(John Tukey)原则是推进统计学的发展以及提高灵活性、实用性、创新性和普遍性所必需的,是各章介绍的新分析法和建模方法论的试金石。
第3版的主要目标如下:
1)扩充核心内容,包括解决问题的策略和方法,它们来自预测分析学术会议和统计建模研讨会,以及我对Statistics on the Table [1]的一些想法。
2)重新编辑现有章节,提高写作质量;修改结尾部分,使内容更紧凑。
3)提供本书推荐的分析方法和建模的统计子程序。我使用Base SAS和STAT/SAS。这些子程序也可以从 http://www.geniq.net/articles.html#section9下载,代码很容易转换成用户喜欢的其他语言。
在第2版的基础上,本书新增了13章,它们穿插在原来的章节中间,以限度地保证内容的连贯性。新章节如下:
第2章介绍统计学与数据科学。如果人们不留意,可能就会按下删除键,删掉统计学和统计学家,代之以科学和数据科学家。我讨论了近期出现的术语—数据科学是否意味着统计学是一个发展更快的领域的子集合,或者数据科学是否掩盖了当前的统计学应用状况。
第8章介绍一个市场份额估算模型,其独特之处是不采用常规的基于抽样调研的市场份额情境分析,而是采用主成分分析(PCA)作为估算一个真实案例的市场份额的基础。我提供了构建这个案例研究的市场份额模型的SAS子程序。
第11章介绍无抽样调研数据预测钱包份额。这种预测钱包份额(SOW)的日常方法需要抽样调研数据。由于抽样调研工作耗时多、成本高,而且会出现不可靠数据,所以通常不采用。我提供了一种不需要数据就能预测SOW的两步法。步定义一个准SOW并通过模拟法对总金额进行估算。第二步采用分数逻辑斯谛回归法预测SOW_q,巧妙地将普通的逻辑斯谛回归用于比例或比率不变的因变量。我给出了详细的案例分析和SAS子程序,读者会发现这种方法很有价值。
第19章提出了一种基于模型的潜在类别分析(LCA)聚类方法。这种细分的创新型策略包含在时间序列数据的应用之中。时间序列LCA模型是一种完全不同的方法,可以作为处理截面数据集中的时间序列数据的模板。这种LCA法可以替代目前流行的基于数据的启发式k均值法。我提供了SAS子程序,数据挖掘人员可以用来执行与演示类似的市场细分工作。我还提供了一种将时间序列数据合并到其他截面数据集中的独特方法。
随后是第20章。文献通常会介绍各种可以用来进行市场细分的聚类方法,而有关如何解读细分结果的文献却寥寥无几。这一章提供了一种理解客户细分的便捷方法。我用一个常见的简单例子说明新方法,以充分展示这种方法的威力。本章提供了执行这种新方法所用的SAS子程序,数据挖掘人员可以将这个有价值的统计技术收入工具箱。
第21章是第20章的扩展。本章的目的是提供一种理解统计回归模型的简单方法,即普通小二乘法和逻辑斯谛回归(LR)模型。我用一个LR模型演示了这种方法,展示了这种方法的威力。这种方法含有补充信息,用于弥补一直以来人们需要依靠回归系数才能理解统计回归模型的不足。我提供了SAS子程序,可以作为其他统计方法的一个有价值的补充。
第23章介绍大数据建模,接在使用CHAID作为归因方法的章节之后。缺失的数据会警告统计学家:“除非你知道如何接纳我,否则你毫无胜算。”在大数据出现之前,用传统的基于数据的方法(完整案例分析)处理任何数据集都会出现问题。这些方法能否有效用于大数据分析令人怀疑。我提出了一个两步法,即先用完整的回应数据建模,然后用PCA对不完整的回应数据建模。这两个模型可以单独使用,也可以与具体任务目标结合使用。我提供了这种方法的SAS子程序,它会成为统计建模者的一个有用工具。
第24章高度融合了艺术、科学、数字和诗歌,它们都受到了埃及金字塔、达·芬奇和爱因斯坦的启发。这一章会引发你的思考。
第27章是对前一章的补充。营销人员使用十分位分析评估他们的回应模型相对于随机获得的回应的可预测优势。我定义了两种新指标,即回应模型十分位分析精确度和随机模型十分位精确度,可以让营销人员对回应模型的优缺点进行更深入的评估。我提供了构建这两种新指标的SAS子程序,这会成为市场营销统计学家的可靠工具。
第28章将评估回应模型的方法扩展到适当使用对照组(文献中使用诸如提升或净提升度模型这类名称),以替代第27章中讨论的随机模型。有关净提升度模型的文献有很多,有些相互矛盾而且容易引起混淆。我提供了另一种方法—T-C净提升度模型,这是一个简单、直观、可靠、易于实现和理解的模型,缓解了有关这个主题的文献之间的不相容情况。我提供了T-C净提升度模型的SAS子程序,统计学家可以用于建模,而不必购买昂贵的软件。
对于统计学家来说,当踏上数据处理旅程时,第34章会给
评论
还没有评论。