描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111604075
内容简介
本书系统介绍了数据可视化分析的基本概念和实际应用。在理论层面,本书介绍了数据可视化分析的基本概念。在实际应用层面,本书介绍了SAS的可视化分析解决方案,如何使用SAS可视化分析解决方案进行数据可视化分析。
目 录
目 录?Contents
前言
第1章 可视化分析概论 1
1.1 可视化分析的意义 1
1.2 数据可视化分析兴起的背景 3
1.3 数据分析的可视化与分析的不同层次 4
1.3.1 数据获取与数据转换 4
1.3.2 高级分析与模型开发 5
1.3.3 分析结果展现与模型应用 5
1.4 可视化分析面临的挑战与应对 6
1.4.1 可视化分析面临的挑战 6
1.4.2 SAS的可视化分析实现 7
1.5 本章小结 9
第2章 SAS可视化分析技术概述 10
2.1 SAS数据可视化分析的平台基础 10
2.2 SAS可视化分析家族成员、主要功能和相互联系 11
2.2.1 SAS可视化分析 12
2.2.2 SAS 可视化统计 13
2.2.3 SAS 可视化调查 14
2.2.4 SAS可视化数据挖掘和机器学习 15
2.2.5 相互联系 16
2.3 SAS可视化分析功能概述 17
2.3.1 数据导入 17
2.3.2 数据处理 18
2.3.3 数据分析 18
2.3.4 基于Web的报表设计 22
2.4 SAS数据可视化分析的展望 24
2.5 本书内容概述 24
2.6 本章小结 24
第3章 SAS Visual Analytics的数据访问和准备 25
3.1 认识数据源 26
3.1.1 单一文件类型 26
3.1.2 数据库和大数据存储 27
3.2 使用Administrator管理LASR服务器 27
3.2.1 创建LASR服务器 29
3.2.2 创建并配置HDFS目录 32
3.2.3 启动LASR服务器 33
3.2.4 加载单一SAS数据集 34
3.2.5 加载HDFS数据 35
3.2.6 高级数据管理 38
3.3 准备数据的实践 39
3.4 如何使用Visual Data Builder准备数据 42
3.4.1 使用Visual Data Builder的场景 42
3.4.2 导入数据 43
3.4.3 表查询和表连接 46
3.4.4 导入Information Map查询 50
3.4.5 追加表 52
3.4.6 创建LASR星型表 53
3.5 本章小结 56
第4章 标准报表与定制化报表分析 57
4.1 SAS Visual Analytics Designer和Visual Analytics Graph Builder介绍 57
4.1.1 SAS Visual Analytics Designer 57
4.1.2 SAS Visual Analytics Graph Builder 57
4.2 创建标准报表 58
4.2.1 使用各类报表对象 58
4.2.2 在SAS Visual Analytics Designer中处理和分析数据 58
4.2.3 报表过滤,报表交互,报表链接 62
4.2.4 使用报表中的参数 68
4.3 创建定制化报表 71
4.4 共享报表 72
4.5 本章小结 74
第5章 钻取查询与仪表盘 75
5.1 创建钻取查询报表 76
5.1.1 创建层次,生成钻取查询报表 76
5.1.2 编辑层次,更新钻取查询报表 80
5.1.3 创建时间层次,生成钻取查询报表 82
5.1.4 从可视化图形中创建层次 82
5.2 创建仪表盘 83
5.3 本章小结 84
第6章 可视化统计分析与预测模型 85
6.1 SAS Visual Statistics介绍 85
6.2 SAS Visual Statistics用户界面以及架构 86
6.3 探索性数据分析 87
6.3.1 探索性数据分析简介 87
6.3.2 SAS Visual Statistics实现探索性数据分析 88
6.4 线性回归模型 90
6.4.1 线性回归模型简介 91
6.4.2 SAS Visual Statistics线性回归可视化分析 92
6.4.3 SAS Visual Statistics线性回归模型举例 95
6.5 逻辑回归 101
6.5.1 逻辑回归模型简介 101
6.5.2 SAS Visual Statistics逻辑回归可视化分析 103
6.5.3 SAS Visual Statistics逻辑回归模型举例 104
6.6 广义线性模型 107
6.6.1 广义线性模型简介 107
6.6.2 SAS Visual Statistics广义线性模型可视化分析 107
6.6.3 SAS Visual Statistics广义线性模型举例 108
6.7 决策树 110
6.7.1 决策树模型简介 110
6.7.2 SAS Visual Statistics决策树可视化分析 112
6.7.3 SAS Visual Statistics决策树模型举例 113
6.8 聚类 116
6.8.1 聚类分析简介 116
6.8.2 SAS Visual Statistics聚类可视化分析 117
6.8.3 SAS Visual Statistics聚类分析举例 117
6.9 模型比较和模型评分 120
6.9.1 模型比较 120
6.9.2 模型比较可视化界面 120
6.9.3 模型评分 122
6.10 本章小结 123
第7章 可视化调查 124
7.1 SAS Visual Investigator介绍 124
7.2 SAS Visual Investigator的主要功能和系统架构 125
7.3 SAS Visual Investigator在预防违规或犯罪领域的应用 126
7.3.1 从警报管理中发现高风险活动 127
7.3.2 通过实体分析发现风险活动的诱因 129
7.4 SAS Visual Investigator在金融欺诈及反洗钱领域的应用 136
7.4.1 生成警报信息 137
7.4.2 在警报控制台中发现风险 140
7.4.3 搜索实体并进行初步调查 141
7.4.4 在工作区中进行详尽调查 142
7.4.5 使用时间滑块进行深度挖掘 147
7.5 SAS Visual Investigator在法律、政府和社会管理方面的应用 151
7.5.1 基于汇总报告评估风险 152
7.5.2 持续的个案监控 155
7.6 本章小结 159
第8章 SAS可视化分析技术的企业级部署和应用 160
8.1 企业级部署 160
8.1.1 架构设计 161
8.1.2 大规模并行处理部署要点 175
8.1.3 后配置、验证、调优 186
8.2 企业级应用的管理和安全 199
8.2.1 管
前言
第1章 可视化分析概论 1
1.1 可视化分析的意义 1
1.2 数据可视化分析兴起的背景 3
1.3 数据分析的可视化与分析的不同层次 4
1.3.1 数据获取与数据转换 4
1.3.2 高级分析与模型开发 5
1.3.3 分析结果展现与模型应用 5
1.4 可视化分析面临的挑战与应对 6
1.4.1 可视化分析面临的挑战 6
1.4.2 SAS的可视化分析实现 7
1.5 本章小结 9
第2章 SAS可视化分析技术概述 10
2.1 SAS数据可视化分析的平台基础 10
2.2 SAS可视化分析家族成员、主要功能和相互联系 11
2.2.1 SAS可视化分析 12
2.2.2 SAS 可视化统计 13
2.2.3 SAS 可视化调查 14
2.2.4 SAS可视化数据挖掘和机器学习 15
2.2.5 相互联系 16
2.3 SAS可视化分析功能概述 17
2.3.1 数据导入 17
2.3.2 数据处理 18
2.3.3 数据分析 18
2.3.4 基于Web的报表设计 22
2.4 SAS数据可视化分析的展望 24
2.5 本书内容概述 24
2.6 本章小结 24
第3章 SAS Visual Analytics的数据访问和准备 25
3.1 认识数据源 26
3.1.1 单一文件类型 26
3.1.2 数据库和大数据存储 27
3.2 使用Administrator管理LASR服务器 27
3.2.1 创建LASR服务器 29
3.2.2 创建并配置HDFS目录 32
3.2.3 启动LASR服务器 33
3.2.4 加载单一SAS数据集 34
3.2.5 加载HDFS数据 35
3.2.6 高级数据管理 38
3.3 准备数据的实践 39
3.4 如何使用Visual Data Builder准备数据 42
3.4.1 使用Visual Data Builder的场景 42
3.4.2 导入数据 43
3.4.3 表查询和表连接 46
3.4.4 导入Information Map查询 50
3.4.5 追加表 52
3.4.6 创建LASR星型表 53
3.5 本章小结 56
第4章 标准报表与定制化报表分析 57
4.1 SAS Visual Analytics Designer和Visual Analytics Graph Builder介绍 57
4.1.1 SAS Visual Analytics Designer 57
4.1.2 SAS Visual Analytics Graph Builder 57
4.2 创建标准报表 58
4.2.1 使用各类报表对象 58
4.2.2 在SAS Visual Analytics Designer中处理和分析数据 58
4.2.3 报表过滤,报表交互,报表链接 62
4.2.4 使用报表中的参数 68
4.3 创建定制化报表 71
4.4 共享报表 72
4.5 本章小结 74
第5章 钻取查询与仪表盘 75
5.1 创建钻取查询报表 76
5.1.1 创建层次,生成钻取查询报表 76
5.1.2 编辑层次,更新钻取查询报表 80
5.1.3 创建时间层次,生成钻取查询报表 82
5.1.4 从可视化图形中创建层次 82
5.2 创建仪表盘 83
5.3 本章小结 84
第6章 可视化统计分析与预测模型 85
6.1 SAS Visual Statistics介绍 85
6.2 SAS Visual Statistics用户界面以及架构 86
6.3 探索性数据分析 87
6.3.1 探索性数据分析简介 87
6.3.2 SAS Visual Statistics实现探索性数据分析 88
6.4 线性回归模型 90
6.4.1 线性回归模型简介 91
6.4.2 SAS Visual Statistics线性回归可视化分析 92
6.4.3 SAS Visual Statistics线性回归模型举例 95
6.5 逻辑回归 101
6.5.1 逻辑回归模型简介 101
6.5.2 SAS Visual Statistics逻辑回归可视化分析 103
6.5.3 SAS Visual Statistics逻辑回归模型举例 104
6.6 广义线性模型 107
6.6.1 广义线性模型简介 107
6.6.2 SAS Visual Statistics广义线性模型可视化分析 107
6.6.3 SAS Visual Statistics广义线性模型举例 108
6.7 决策树 110
6.7.1 决策树模型简介 110
6.7.2 SAS Visual Statistics决策树可视化分析 112
6.7.3 SAS Visual Statistics决策树模型举例 113
6.8 聚类 116
6.8.1 聚类分析简介 116
6.8.2 SAS Visual Statistics聚类可视化分析 117
6.8.3 SAS Visual Statistics聚类分析举例 117
6.9 模型比较和模型评分 120
6.9.1 模型比较 120
6.9.2 模型比较可视化界面 120
6.9.3 模型评分 122
6.10 本章小结 123
第7章 可视化调查 124
7.1 SAS Visual Investigator介绍 124
7.2 SAS Visual Investigator的主要功能和系统架构 125
7.3 SAS Visual Investigator在预防违规或犯罪领域的应用 126
7.3.1 从警报管理中发现高风险活动 127
7.3.2 通过实体分析发现风险活动的诱因 129
7.4 SAS Visual Investigator在金融欺诈及反洗钱领域的应用 136
7.4.1 生成警报信息 137
7.4.2 在警报控制台中发现风险 140
7.4.3 搜索实体并进行初步调查 141
7.4.4 在工作区中进行详尽调查 142
7.4.5 使用时间滑块进行深度挖掘 147
7.5 SAS Visual Investigator在法律、政府和社会管理方面的应用 151
7.5.1 基于汇总报告评估风险 152
7.5.2 持续的个案监控 155
7.6 本章小结 159
第8章 SAS可视化分析技术的企业级部署和应用 160
8.1 企业级部署 160
8.1.1 架构设计 161
8.1.2 大规模并行处理部署要点 175
8.1.3 后配置、验证、调优 186
8.2 企业级应用的管理和安全 199
8.2.1 管
前 言
Preface?前 言比利时的佛兰芒族地理学家和地图学家亚伯拉罕·奥特柳斯,在研究了一个世纪以来环球旅行探险家们撰写的资料后,于1570年在比利时的安特卫普绘制了世界上张现代地图集《世界概貌》,即把各种地理上的复杂数据通过图示的方法展示给人们。26年后,奥特柳斯提出了“大陆漂移学说”的设想。后来,我们还可以在地图上显示人口分布数据,世界宗教分布,世界人民喜欢什么运动的分布,到今天的网民的分布,各国人民喜爱的网站分布,各种调研统计的数据分布,等等。
1812年夏,俄法战争爆发,拿破仑开始进攻俄国,在战争中遭受了灾难性损失,1813年以失败告终。法国工程师Charles Joseph Minard于1869年11月20日,在巴黎创作完成了一张在信息图界有里程碑地位的“拿破仑1812—1813年俄国大进军的人员损失图”。信息图以真实地图为背景,起于波兰–俄国边境,止于莫斯科。他在图中使用了6个变量的数据:拿破仑军队的数量、行军路线、气温、地理位置、行军到特定地点的时间和距离。线条宽度代表拿破仑的军队人数,黄色表示进攻路线,黑色表示撤退的路线。开始东征时有约42万大军,到达莫斯科时剩余约10万人,终返回约1万多人。图中下面部分的温度折线图描绘了撤退途中的温度变化,温度达到-37.5摄氏度。 对比军队规模在撤退途中的阶梯状锐减的转折点与对应的温度变化,排除了当地发生过战役事件后,我们可以直观地推断出撤退时导致士兵死亡的原因是气温。
这两张图是数据可视化的经典案例。通过一张图,就把无数的数据汇集在一起,将数据之间的各种联系直观地展示出来,从而揭示出了很多内在的含义。想象一下在当时的环境下,完全用手工的方式把如此多的代表不同维度的数据按照一定的构思汇集在一起,是何等烦琐、艰难、耗时。
20世纪60年代人类就实现了用计算机来做统计分析运算,但是到了80年代才实现了计算机的图形化显示、可视化的数据展示。这也仅仅是在数字列表的基础上增加了显示简单图形的功能。到了21世纪,计算机技术和互联网技术获得了长足的发展,各种应用也越趋广泛,特别是电子商务、社交媒体、移动应用和ERP的广泛应用,极大地促进了数据的增长,而且数据的种类繁多,非结构化的数据占主要分量,由此对数据分析的能力提出了前所未有的挑战。为了应对这些挑战,人们发明了存储这些数据的平台Hadoop, 处理大量数据的高性能分析技术,开发了新的模型和算法处理非结构化数据,用新的计算机图形学技术与模型来展示它们各种内在的关系。我们可以看到,今天我们对统计分析软件的要求与过去已经有了很大的区别。那么这些区别包括哪些内容呢?传统的统计分析软件主要是分析结构化的数据,这些数据都是存储在关系数据库、纯文本、Excel等文件中。今天数据种类以非结构化的数据偏多,而且过去的关系数据库已经无法存储这些数据,无论是存储数据量上,还是数据种类上都无法满足要求。Hadoop既支持分布式存储,又支持非结构化数据存储。因此,我们新的统计分析软件不但要支持传统的数据存储软件,也要支持Hadoop。
过去要分析的数据量相对来说都比较小,计算时间基本上是可以接受的(即使需要花费几个小时)。但是,今天的数据量有时候几天都不一定能计算出结果来。这就要求我们在计算技术上有新的突破。SAS使用了网格分布式计算技术,把计算步骤和数据都分成块,用不同的计算器件,不同的CPU多线程地进行计算,然后把结果合起来;用库内分析技术,把对数据的分析计算放到数据库内来进行,减少了对数据的提取和传输过程;用内存分析技术,把由硬盘读取和存放数据的过程改到了由内存读取和存放数据。这三项技术中的任何一项都可以极大地提高数据分析速度,三项技术合而为一,可以获得震撼性的效果,使得实时分析成为可能。过去的数据量小,很容易查看,了解数据属性。要查看今天的数据就要困难许多,我们将这一过程称为数据探索。探索的过程,不仅仅是翻看数据,还要试探性地做一些分析结果的展示,整个的探索过程要流畅,不能有明显的延迟。现在的高性能分析技术完全可以做到。
传统统计分析展示的图表通常都是饼图、直方图、折线图、散点图、柱状图、箱式图、仪表盘等。虽然这些图表也是人们经常会用到的图示,但是如今已经远远不够了。今天的可视化技术还可以展示流程图、衍生分支图、气泡图、矩形树图、面积图、树状图、各种地图、词云、瀑布图、漏斗图、网络结构图等种类繁多的图形,以满足不同的展示和分析需求。
SAS作为统计分析软件的领导者,早在2012年就发布了可视化分析软件“Visual Analytics”,简称VA。2016年,SAS又推出了Viya,新一代的云上数据分析平台,而VA成为所有在Viya上运行的行业解决方案的模板。VA是基于高性能分析技术的,支持Hadoop,其可视化功能涵盖了整个数据分析的全生命周期,并且简单、易用,给用户带来全新的数据分析体验。VA还提供了21种可视化视图和分析方法,支持对结构化、半结构化和非结构化数据的可视化分析,支持多用户的信息共享和移动技术。SAS在高级分析领域占有的领先地位,因此,VA不仅支持普通商
1812年夏,俄法战争爆发,拿破仑开始进攻俄国,在战争中遭受了灾难性损失,1813年以失败告终。法国工程师Charles Joseph Minard于1869年11月20日,在巴黎创作完成了一张在信息图界有里程碑地位的“拿破仑1812—1813年俄国大进军的人员损失图”。信息图以真实地图为背景,起于波兰–俄国边境,止于莫斯科。他在图中使用了6个变量的数据:拿破仑军队的数量、行军路线、气温、地理位置、行军到特定地点的时间和距离。线条宽度代表拿破仑的军队人数,黄色表示进攻路线,黑色表示撤退的路线。开始东征时有约42万大军,到达莫斯科时剩余约10万人,终返回约1万多人。图中下面部分的温度折线图描绘了撤退途中的温度变化,温度达到-37.5摄氏度。 对比军队规模在撤退途中的阶梯状锐减的转折点与对应的温度变化,排除了当地发生过战役事件后,我们可以直观地推断出撤退时导致士兵死亡的原因是气温。
这两张图是数据可视化的经典案例。通过一张图,就把无数的数据汇集在一起,将数据之间的各种联系直观地展示出来,从而揭示出了很多内在的含义。想象一下在当时的环境下,完全用手工的方式把如此多的代表不同维度的数据按照一定的构思汇集在一起,是何等烦琐、艰难、耗时。
20世纪60年代人类就实现了用计算机来做统计分析运算,但是到了80年代才实现了计算机的图形化显示、可视化的数据展示。这也仅仅是在数字列表的基础上增加了显示简单图形的功能。到了21世纪,计算机技术和互联网技术获得了长足的发展,各种应用也越趋广泛,特别是电子商务、社交媒体、移动应用和ERP的广泛应用,极大地促进了数据的增长,而且数据的种类繁多,非结构化的数据占主要分量,由此对数据分析的能力提出了前所未有的挑战。为了应对这些挑战,人们发明了存储这些数据的平台Hadoop, 处理大量数据的高性能分析技术,开发了新的模型和算法处理非结构化数据,用新的计算机图形学技术与模型来展示它们各种内在的关系。我们可以看到,今天我们对统计分析软件的要求与过去已经有了很大的区别。那么这些区别包括哪些内容呢?传统的统计分析软件主要是分析结构化的数据,这些数据都是存储在关系数据库、纯文本、Excel等文件中。今天数据种类以非结构化的数据偏多,而且过去的关系数据库已经无法存储这些数据,无论是存储数据量上,还是数据种类上都无法满足要求。Hadoop既支持分布式存储,又支持非结构化数据存储。因此,我们新的统计分析软件不但要支持传统的数据存储软件,也要支持Hadoop。
过去要分析的数据量相对来说都比较小,计算时间基本上是可以接受的(即使需要花费几个小时)。但是,今天的数据量有时候几天都不一定能计算出结果来。这就要求我们在计算技术上有新的突破。SAS使用了网格分布式计算技术,把计算步骤和数据都分成块,用不同的计算器件,不同的CPU多线程地进行计算,然后把结果合起来;用库内分析技术,把对数据的分析计算放到数据库内来进行,减少了对数据的提取和传输过程;用内存分析技术,把由硬盘读取和存放数据的过程改到了由内存读取和存放数据。这三项技术中的任何一项都可以极大地提高数据分析速度,三项技术合而为一,可以获得震撼性的效果,使得实时分析成为可能。过去的数据量小,很容易查看,了解数据属性。要查看今天的数据就要困难许多,我们将这一过程称为数据探索。探索的过程,不仅仅是翻看数据,还要试探性地做一些分析结果的展示,整个的探索过程要流畅,不能有明显的延迟。现在的高性能分析技术完全可以做到。
传统统计分析展示的图表通常都是饼图、直方图、折线图、散点图、柱状图、箱式图、仪表盘等。虽然这些图表也是人们经常会用到的图示,但是如今已经远远不够了。今天的可视化技术还可以展示流程图、衍生分支图、气泡图、矩形树图、面积图、树状图、各种地图、词云、瀑布图、漏斗图、网络结构图等种类繁多的图形,以满足不同的展示和分析需求。
SAS作为统计分析软件的领导者,早在2012年就发布了可视化分析软件“Visual Analytics”,简称VA。2016年,SAS又推出了Viya,新一代的云上数据分析平台,而VA成为所有在Viya上运行的行业解决方案的模板。VA是基于高性能分析技术的,支持Hadoop,其可视化功能涵盖了整个数据分析的全生命周期,并且简单、易用,给用户带来全新的数据分析体验。VA还提供了21种可视化视图和分析方法,支持对结构化、半结构化和非结构化数据的可视化分析,支持多用户的信息共享和移动技术。SAS在高级分析领域占有的领先地位,因此,VA不仅支持普通商
评论
还没有评论。