描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111569466
编辑推荐
内容简介
本书定义为“轻教材”,并结合国内先进的大数据公司的实战经验,帮助大数据从业人员熟悉大数据相关的基础知识、基本工具,帮助大数据企业的管理者建立数据驱动的文化和构建团队。此书将成为大数据从业人员、大数据企业管理人员以及大数据领域的投资者、监管者的参考书籍。
目 录
前言
篇 大数据基础知识
第1章 大数据的基本定义 / 2
1.1 大数据分析的出现 / 3
1.2 大数据如何发掘价值 / 3
1.3 大数据处理的关键——数据类型 / 5
1.4 大数据处理的微妙之处 / 6
1.5 大数据环境下的处理分析工具 / 7
1.6 智能数据时代到来 / 10
第2章 数据的艺术 / 12
2.1 评估可能性的艺术 / 12
2.2 了解现状 / 13
2.3 自我评估、完善度、信息架构 / 14
2.4 愿景部署 / 19
2.5 现在和将来的数据仓库 / 20
2.6 实时建议和操作 / 25
2.7 验证提出的愿景 / 26
第3章 大数据:有所为有所不为 / 28
3.1 大数据分析实践 / 28
3.2 从小做起 / 29
3.3 关注大局 / 30
3.4 避免差实践 / 30
3.5 步步为营 / 32
3.6 学会利用异常数据 / 34
3.7 速度与精度的抉择 / 35
3.8 内存计算 / 36
第二篇 大数据工具和技术
第4章 分布式世界中的设计 / 42
4.1 可见性 / 43
4.2 保持简单的重要性 / 44
4.3 组合 / 44
4.4 分布式状态 / 49
4.5 CAP原则 / 51
4.6 松耦合系统 / 53
4.7 速度 / 55
4.8 总结 / 58
第5章 大数据分析工具 / 59
5.1 Apache Hadoop / 59
5.2 Apache Spark / 69
5.3 NoSQL数据库 / 73
5.4 MongoDB / 89
第三篇 数据管理
第6章 大数据的类型 / 108
6.1 定义结构化数据 / 109
6.2 探秘结构化数据来源 / 109
6.3 关系数据库在大数据中扮演的角色 / 110
6.4 非结构化数据 / 111
6.5 内容管理系统在大数据管理中的作用 / 112
6.6 实时和非实时条件 / 113
6.7 大数据集成 / 114
第7章 大数据的新范式:我们想要从大数据系统中获得什么 / 116
7.1 稳定性和容错性 / 116
7.2 横向扩容 / 117
7.3 可扩展性 / 117
7.4 即席查询 / 117
7.5 小化维护 / 117
7.6 可调试性 / 118
7.7 完全增量式架构 / 118
7.8 操作复杂性 / 119
7.9 极其复杂地实现终一致性 / 119
7.10 人为容错的缺陷 / 121
7.11 Lambda架构 / 121
第8章 数据管理 / 125
8.1 数据管理成熟度评估 / 125
8.2 元数据管理 / 128
8.3 数据治理 / 130
8.4 数据质量管理 / 134
8.5 参考数据与主数据管理 / 137
第四篇 数据工程
第9章 理解数据业务流程 / 142
9.1 理解商业动机 / 142
9.2 调查计划 / 146
9.3 初步研究 / 146
9.4 专家咨询 / 146
9.5 识别关键成功因素 / 147
9.6 优先考虑早期路线图的执行 / 150
9.7 战略图谱 / 154
第10章 大数据和云计算 / 163
10.1 云计算的定义 / 163
10.2 私有云与公有云计算 / 165
10.3 IaaS典型平台——亚马逊云平台AWS / 165
10.4 PaaS典型平台 / 172
10.5 SaaS典型平台 / 176
第11章 数据收集 / 179
11.1 收集一切 / 179
11.2 为数据源设置优先级 / 181
11.3 关联单独的数据 / 182
11.4 如何收集数据 / 184
11.5 数据采购 / 186
11.6 数据保留 / 190
第12章 数据质量和数据预处理 / 191
12.1 数据质量:为什么要对数据做预处理 / 191
12.2 数据预处理的主要工作 / 192
第13章 数据安全和隐私 / 195
13.1 数据收集:了解隐私的前沿 / 195
13.2 策略考虑因素 / 196
13.3 实施考虑因素 / 200
13.4 总结 / 201
第五篇 数据科学
第14章 数据分析 / 204
14.1 什么是分析 / 205
14.2 分析的类型 / 206
第15章 数据探索 / 221
15.1 概要 / 221
15.2 数据探索的目标 / 222
15.3 数据集 / 222
15.4 描述性统计 / 225
15.5 数据可视化 / 229
15.6 数据探索路线图 / 240
第16章 大数据、数据科学和数据挖掘 / 242
16.1 先验知识 / 244
16.2 数据准备 / 246
16.3 建模 / 249
16.4 应用 / 253
16.5 总结 / 255
第六篇 构筑数据驱动型企业
第17章 建立数据驱动文化 / 258
17.1 数据收集 / 260
17.2 报告 / 261
17.3 警报 / 262
17.4 从报告到警报再到分析 / 263
17.5 数据驱动的标志 / 265
17.6 分析成熟度 / 267
第18章 构建大数据团队 / 271
18.1 数据科学家 / 271
18.2 团队挑战 / 272
18.3 不同的团队,不同的目标 / 272
18.4 别忘了数据 / 273
18.5 更多挑战 / 274
18.6 团队与文化 / 274
18.7 量化成就 / 275
第七篇 大数据实战
第19章 大数据使用实例 / 278
19.1 大数据的使用与意义 / 279
19.2 案例:大数据在金融领域的应用 / 283
19.3 案例:大数据在地产领域的应用 / 298
第20章 大数据分析和数据驱动决策的思维实战 / 309
20.1 无处不在的数据机会 / 309
20.2 数据科学、数据工程和数据驱动决策 / 312
20.3 数据处理和大数据 / 314
20.4 从大数据1.0到大数据2.0 / 314
20.5 数据和数据科学能力作为战略资产 / 315
20.6 数据分析思维 / 317
20.7 具
篇 大数据基础知识
第1章 大数据的基本定义 / 2
1.1 大数据分析的出现 / 3
1.2 大数据如何发掘价值 / 3
1.3 大数据处理的关键——数据类型 / 5
1.4 大数据处理的微妙之处 / 6
1.5 大数据环境下的处理分析工具 / 7
1.6 智能数据时代到来 / 10
第2章 数据的艺术 / 12
2.1 评估可能性的艺术 / 12
2.2 了解现状 / 13
2.3 自我评估、完善度、信息架构 / 14
2.4 愿景部署 / 19
2.5 现在和将来的数据仓库 / 20
2.6 实时建议和操作 / 25
2.7 验证提出的愿景 / 26
第3章 大数据:有所为有所不为 / 28
3.1 大数据分析实践 / 28
3.2 从小做起 / 29
3.3 关注大局 / 30
3.4 避免差实践 / 30
3.5 步步为营 / 32
3.6 学会利用异常数据 / 34
3.7 速度与精度的抉择 / 35
3.8 内存计算 / 36
第二篇 大数据工具和技术
第4章 分布式世界中的设计 / 42
4.1 可见性 / 43
4.2 保持简单的重要性 / 44
4.3 组合 / 44
4.4 分布式状态 / 49
4.5 CAP原则 / 51
4.6 松耦合系统 / 53
4.7 速度 / 55
4.8 总结 / 58
第5章 大数据分析工具 / 59
5.1 Apache Hadoop / 59
5.2 Apache Spark / 69
5.3 NoSQL数据库 / 73
5.4 MongoDB / 89
第三篇 数据管理
第6章 大数据的类型 / 108
6.1 定义结构化数据 / 109
6.2 探秘结构化数据来源 / 109
6.3 关系数据库在大数据中扮演的角色 / 110
6.4 非结构化数据 / 111
6.5 内容管理系统在大数据管理中的作用 / 112
6.6 实时和非实时条件 / 113
6.7 大数据集成 / 114
第7章 大数据的新范式:我们想要从大数据系统中获得什么 / 116
7.1 稳定性和容错性 / 116
7.2 横向扩容 / 117
7.3 可扩展性 / 117
7.4 即席查询 / 117
7.5 小化维护 / 117
7.6 可调试性 / 118
7.7 完全增量式架构 / 118
7.8 操作复杂性 / 119
7.9 极其复杂地实现终一致性 / 119
7.10 人为容错的缺陷 / 121
7.11 Lambda架构 / 121
第8章 数据管理 / 125
8.1 数据管理成熟度评估 / 125
8.2 元数据管理 / 128
8.3 数据治理 / 130
8.4 数据质量管理 / 134
8.5 参考数据与主数据管理 / 137
第四篇 数据工程
第9章 理解数据业务流程 / 142
9.1 理解商业动机 / 142
9.2 调查计划 / 146
9.3 初步研究 / 146
9.4 专家咨询 / 146
9.5 识别关键成功因素 / 147
9.6 优先考虑早期路线图的执行 / 150
9.7 战略图谱 / 154
第10章 大数据和云计算 / 163
10.1 云计算的定义 / 163
10.2 私有云与公有云计算 / 165
10.3 IaaS典型平台——亚马逊云平台AWS / 165
10.4 PaaS典型平台 / 172
10.5 SaaS典型平台 / 176
第11章 数据收集 / 179
11.1 收集一切 / 179
11.2 为数据源设置优先级 / 181
11.3 关联单独的数据 / 182
11.4 如何收集数据 / 184
11.5 数据采购 / 186
11.6 数据保留 / 190
第12章 数据质量和数据预处理 / 191
12.1 数据质量:为什么要对数据做预处理 / 191
12.2 数据预处理的主要工作 / 192
第13章 数据安全和隐私 / 195
13.1 数据收集:了解隐私的前沿 / 195
13.2 策略考虑因素 / 196
13.3 实施考虑因素 / 200
13.4 总结 / 201
第五篇 数据科学
第14章 数据分析 / 204
14.1 什么是分析 / 205
14.2 分析的类型 / 206
第15章 数据探索 / 221
15.1 概要 / 221
15.2 数据探索的目标 / 222
15.3 数据集 / 222
15.4 描述性统计 / 225
15.5 数据可视化 / 229
15.6 数据探索路线图 / 240
第16章 大数据、数据科学和数据挖掘 / 242
16.1 先验知识 / 244
16.2 数据准备 / 246
16.3 建模 / 249
16.4 应用 / 253
16.5 总结 / 255
第六篇 构筑数据驱动型企业
第17章 建立数据驱动文化 / 258
17.1 数据收集 / 260
17.2 报告 / 261
17.3 警报 / 262
17.4 从报告到警报再到分析 / 263
17.5 数据驱动的标志 / 265
17.6 分析成熟度 / 267
第18章 构建大数据团队 / 271
18.1 数据科学家 / 271
18.2 团队挑战 / 272
18.3 不同的团队,不同的目标 / 272
18.4 别忘了数据 / 273
18.5 更多挑战 / 274
18.6 团队与文化 / 274
18.7 量化成就 / 275
第七篇 大数据实战
第19章 大数据使用实例 / 278
19.1 大数据的使用与意义 / 279
19.2 案例:大数据在金融领域的应用 / 283
19.3 案例:大数据在地产领域的应用 / 298
第20章 大数据分析和数据驱动决策的思维实战 / 309
20.1 无处不在的数据机会 / 309
20.2 数据科学、数据工程和数据驱动决策 / 312
20.3 数据处理和大数据 / 314
20.4 从大数据1.0到大数据2.0 / 314
20.5 数据和数据科学能力作为战略资产 / 315
20.6 数据分析思维 / 317
20.7 具
前 言
大数据这个概念自诞生以来,已经经历了几次飞跃。时至今日,大数据这个名词频繁地与人工智能、DT、预测等词汇放在一起,看上去数据的发展已经成为与科技发展甚至整个社会发展平行的存在——?一切的颠覆都离不开数据。大数据是一种赋能工具,它的作用是帮助行业加速价值的流通,减少信息不对称,提高交易效率。
市面上大数据行业相关的书籍已经汗牛充栋,然而还没有这样一本书——全面地解析大数据、企业和人之间的关系,站在企业管理者的角度解答如何利用大数据加速发展、攫取更多的价值;更没有人全面告诉企业的管理者,如果想转型以适应当今智能数据时代,应该储备何种知识和人才。TalkingData作为大数据行业的领军企业,决定写这样一本书。
竞争环境:行业快速发展,传统行业加速转型根据IDC的数据显示,到2020年,全球大数据技术和服务市场预计将达到589亿美元,其中大数据基础设施占277亿美元,大数据软件占159亿美元,大数据服务占(包括专业和支持服务)153亿美元。相比于北美等发达地区,中国大数据产业虽然年轻,但是处于快速发展期。根据DT大数据产业创新研究院(DTiii)的预测,从现在到2025年,大数据产业的经济总量将呈指数级增长(如下图),覆盖的行业包括政府、金融、电信、交通、工业、能源、房地产、教育、商业服务、医疗、文娱、农业等。
2015—2025年中国大数据产业增长趋势图注:数据来源于DT大数据产业创新研究院(DTiii,2016)。
除了飞速发展的整个行业总量之外,大数据行业本身也带有快速颠覆迭代的特征。当今社会,对传统大数据中量的需求已经很容易达到,大数据的竞争转向了数据质量。那些深入在各种行业情境中、非结构化的、与业务流程直接相关的数据,成为高价值的数据类型。只有将这部分数据挖掘出来,企业才有可能基于自己的业务进行分析甚至预测。因此,大数据时代进入了一个新的纪元——智能数据时代。
数据和人工智能是智能数据时代的鲜明特征,但是只有数据和人工智能依然不足,还需要人类智慧的参与。数据、人工智能和人类智慧,成为智能数据时代的三大要素。
数据的积累可以为人类提供更多更细的洞察分析,人类经验得以增强,人类智慧得以增长。比如,通过更多来自于手机的用户行为分析,企业可以对自己的用户有更多了解,包括他们的生活喜好、消费习惯等,以此产生更多的营销机会。人工智能本身也需要人类智慧的介入,以引导人工智能的方向,提高人工智能的效率。比如,AlphaGo也需要不断地与人类围棋高手对战,依靠人类智慧的辅助,才能持续提升棋力。
缺乏人类智慧的持续介入,人工智能对数据的加成作用会随着数据的变化逐步弱化甚至失效;缺乏人工智能,人类无法依靠自身处理如此复杂而且快速变化的数据;缺乏数据,人工智能无法存在,人类智慧的积累也会放缓。数据、人工智能和人类智慧互相促进,组成一个正向的循环。比如情景感知领域,基于手机上体现姿态动作的传感器数据,经过人工智能的算法,可以判断手机用户的动作和姿态(包括走路、骑车、驾驶等)。如果判断不够准确,就需要人工介入,对数据再进行整理和增强、对算法进行优化,直到结果达到可用的程度。同时,具有情景感知能力的手机,可以给应用开发者提供更多的应用场景和体验,比如运动健身、金融风控、物流管理、娱乐体验等,相应地也会产生更多的数据——这些新的数据让人类智慧更快积累,也让人工智能更加强大。比如,通过情景感知数据,发现绝大部分用户在使用App的时候手机都是处于手持状态,那么非手持状态的使用场景是否意味着更大的金融风险?人工智能和人类智慧,让数据岂止“大”?智能数据时代的三大要素聚合裂变,已经产生难以想象的价值。
现实差距:人才缺口很多企业在智能数据时代举步维艰,但是也有一些新的企业脱颖而出,利用数据来增强自己的竞争力,在各个领域对传统企业形成巨大的冲击。据A16Z的2016移动互联网报告,以GAFA(谷歌、亚马逊、Facebook、苹果)为代表的数据巨头,已经在数据和技术领域建立起牢固的优势,在年收入规模上比Wintel同盟要大3倍。反过来,它们也在通过数据和技术改变传统行业的形态和模式,包括零售、媒体发行、汽车等。
这些新的数据和技术的先锋具有一些共同的特征:实现了业务数据化和数据资产化,能够用数据来驱动场景化的应用,高效地探索和转化商业价值。这样的企业,已经拥有数据驱动的文化,我们叫做智能企业(Smart Enterprise):
1.具有灵活的技术平台和数据科学能力,能支撑足够大的数据量级、足够多的数据维度、足够复杂的数据类型、足够灵活的数据格式、足够低的数据洞察延时等,提高各种数据应用场景的交付效率。
2.具有统一的数据管理策略,以管理跨企业的、一致的数据视图,能高效地汇聚数据(包括自有数据和第三方数据),也能高效地输出数据和数据服务。
3.具有端到端的数据工程能力,以支撑业务线的可管理的数据运营,形成数据闭环和持续的业务优化。
若
市面上大数据行业相关的书籍已经汗牛充栋,然而还没有这样一本书——全面地解析大数据、企业和人之间的关系,站在企业管理者的角度解答如何利用大数据加速发展、攫取更多的价值;更没有人全面告诉企业的管理者,如果想转型以适应当今智能数据时代,应该储备何种知识和人才。TalkingData作为大数据行业的领军企业,决定写这样一本书。
竞争环境:行业快速发展,传统行业加速转型根据IDC的数据显示,到2020年,全球大数据技术和服务市场预计将达到589亿美元,其中大数据基础设施占277亿美元,大数据软件占159亿美元,大数据服务占(包括专业和支持服务)153亿美元。相比于北美等发达地区,中国大数据产业虽然年轻,但是处于快速发展期。根据DT大数据产业创新研究院(DTiii)的预测,从现在到2025年,大数据产业的经济总量将呈指数级增长(如下图),覆盖的行业包括政府、金融、电信、交通、工业、能源、房地产、教育、商业服务、医疗、文娱、农业等。
2015—2025年中国大数据产业增长趋势图注:数据来源于DT大数据产业创新研究院(DTiii,2016)。
除了飞速发展的整个行业总量之外,大数据行业本身也带有快速颠覆迭代的特征。当今社会,对传统大数据中量的需求已经很容易达到,大数据的竞争转向了数据质量。那些深入在各种行业情境中、非结构化的、与业务流程直接相关的数据,成为高价值的数据类型。只有将这部分数据挖掘出来,企业才有可能基于自己的业务进行分析甚至预测。因此,大数据时代进入了一个新的纪元——智能数据时代。
数据和人工智能是智能数据时代的鲜明特征,但是只有数据和人工智能依然不足,还需要人类智慧的参与。数据、人工智能和人类智慧,成为智能数据时代的三大要素。
数据的积累可以为人类提供更多更细的洞察分析,人类经验得以增强,人类智慧得以增长。比如,通过更多来自于手机的用户行为分析,企业可以对自己的用户有更多了解,包括他们的生活喜好、消费习惯等,以此产生更多的营销机会。人工智能本身也需要人类智慧的介入,以引导人工智能的方向,提高人工智能的效率。比如,AlphaGo也需要不断地与人类围棋高手对战,依靠人类智慧的辅助,才能持续提升棋力。
缺乏人类智慧的持续介入,人工智能对数据的加成作用会随着数据的变化逐步弱化甚至失效;缺乏人工智能,人类无法依靠自身处理如此复杂而且快速变化的数据;缺乏数据,人工智能无法存在,人类智慧的积累也会放缓。数据、人工智能和人类智慧互相促进,组成一个正向的循环。比如情景感知领域,基于手机上体现姿态动作的传感器数据,经过人工智能的算法,可以判断手机用户的动作和姿态(包括走路、骑车、驾驶等)。如果判断不够准确,就需要人工介入,对数据再进行整理和增强、对算法进行优化,直到结果达到可用的程度。同时,具有情景感知能力的手机,可以给应用开发者提供更多的应用场景和体验,比如运动健身、金融风控、物流管理、娱乐体验等,相应地也会产生更多的数据——这些新的数据让人类智慧更快积累,也让人工智能更加强大。比如,通过情景感知数据,发现绝大部分用户在使用App的时候手机都是处于手持状态,那么非手持状态的使用场景是否意味着更大的金融风险?人工智能和人类智慧,让数据岂止“大”?智能数据时代的三大要素聚合裂变,已经产生难以想象的价值。
现实差距:人才缺口很多企业在智能数据时代举步维艰,但是也有一些新的企业脱颖而出,利用数据来增强自己的竞争力,在各个领域对传统企业形成巨大的冲击。据A16Z的2016移动互联网报告,以GAFA(谷歌、亚马逊、Facebook、苹果)为代表的数据巨头,已经在数据和技术领域建立起牢固的优势,在年收入规模上比Wintel同盟要大3倍。反过来,它们也在通过数据和技术改变传统行业的形态和模式,包括零售、媒体发行、汽车等。
这些新的数据和技术的先锋具有一些共同的特征:实现了业务数据化和数据资产化,能够用数据来驱动场景化的应用,高效地探索和转化商业价值。这样的企业,已经拥有数据驱动的文化,我们叫做智能企业(Smart Enterprise):
1.具有灵活的技术平台和数据科学能力,能支撑足够大的数据量级、足够多的数据维度、足够复杂的数据类型、足够灵活的数据格式、足够低的数据洞察延时等,提高各种数据应用场景的交付效率。
2.具有统一的数据管理策略,以管理跨企业的、一致的数据视图,能高效地汇聚数据(包括自有数据和第三方数据),也能高效地输出数据和数据服务。
3.具有端到端的数据工程能力,以支撑业务线的可管理的数据运营,形成数据闭环和持续的业务优化。
若
评论
还没有评论。