描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111576129丛书名: 数据科学与工程技术丛书
内容简介
数据虚拟化可以使商务智能系统的数据架构更简单、更便宜、更敏捷。本书讨论关于数据虚拟化的“是什么”“为什么”和“怎么办”,这些内容不限于特定的制造商或产品,而是全景呈现其基本原理、影响范围、优化技术、应用方法和管理策略。你将了解数据虚拟化技术与ETL等传统方法的不同,同时更加明晰这项技术自身的优劣,进而在开发和管理不同项目时做到有的放矢、事半功倍。此外,作者还分享了丰富的实战经验,十分适合从事数据管理、数据架构、数据分析等工作的专业技术人员参考。
目 录
目 录
序言
前言
作者简介
第1章 数据虚拟化导论1
1.1 引言1
1.2 商务智能世界正在改变1
1.3 虚拟化简介3
1.4 什么是数据虚拟化3
1.5 数据虚拟化与相关概念4
1.5.1 数据虚拟化与封装和信息隐藏4
1.5.2 数据虚拟化与抽象5
1.5.3 数据虚拟化与数据联合5
1.5.4 数据虚拟化与数据集成6
1.5.5 数据虚拟化与企业信息集成7
1.6 数据虚拟化的定义8
1.7 数据虚拟化的技术优势8
1.8 数据虚拟化的不同实现11
1.9 数据虚拟化服务器概述12
1.10 开放式与封闭式数据虚拟化服务器12
1.11 数据集成的其他方式13
1.12 数据虚拟化服务模型15
1.13 数据虚拟化的历史16
1.14 示例数据库:世界一流电影18
1.15 本书结构20
第2章 商务智能和数据仓库22
2.1 引言22
2.2 什么是商务智能22
2.3 管理层次与决策制定23
2.4 商务智能系统23
2.5 商务智能系统的数据存储24
2.5.1 数据仓库25
2.5.2 数据集市 27
2.5.3 数据中转区28
2.5.4 可操作数据存储29
2.5.5 个人数据存储30
2.5.6 不同类型数据存储的对比31
2.6 标准化模式、星形模式和雪花模式31
2.6.1 标准化模式32
2.6.2 非标准化模式32
2.6.3 星形模式33
2.6.4 雪花模式34
2.7 提取-转换-装载、提取-装载-转换和复制35
2.7.1 提取-转换-装载36
2.7.2 提取-装载-转换37
2.7.3 复制38
2.8 商务智能架构总览38
2.9 报告和分析的新形式39
2.9.1 运营报告和分析39
2.9.2 深度和大数据分析40
2.9.3 自助式报告和分析40
2.9.4 无限制的自组织分析40
2.9.5 360氨ǜ?1
2.9.6 探索性分析42
2.9.7 基于文本的分析42
2.10 传统商务智能系统的劣势43
2.11 总结46
第3章 数据虚拟化服务器:构造模块47
3.1 引言47
3.2 数据虚拟化服务器的高层架构47
3.3 导入源表和定义封装器48
3.4 定义虚拟表和映射50
3.5 虚拟表和映射的例子53
3.6 虚拟表和数据建模59
3.7 嵌套虚拟表和共享规范61
3.8 导入非关系数据62
3.8.1 XML和JSON文档62
3.8.2 Web服务66
3.8.3 电子表格66
3.8.4 NoSQL数据库68
3.8.5 多维数据集和MDX70
3.8.6 半结构化数据71
3.8.7 非结构化数据 74
3.9 发布虚拟表75
3.10 互联网数据模型80
3.11 可更新的虚拟表和事务管理82
第4章 数据虚拟化服务器:管理与安全85
4.1 引言85
4.2 影响度和线性分析85
4.3 源表、封装表和虚拟表的同步87
4.4 数据安全:认证与授权88
4.5 监控、管理和实施89
第5章 数据虚拟化服务器:虚拟表的高速缓存93
5.1 引言93
5.2 虚拟表的高速缓存93
5.3 什么时候使用高速缓存95
5.4 高速缓存与数据集市95
5.5 高速缓存保存在哪里96
5.6 刷新高速缓存97
5.7 完整刷新、增量刷新和动态刷新97
5.8 在线刷新与离线刷新98
5.9 高速缓存备份98
第6章 数据虚拟化服务器:查询优化技术100
6.1 引言100
6.2 查询优化的基本原理101
6.3 数据虚拟化服务器查询处理的10个阶段104
6.4 数据存储的智能等级105
6.5 通过查询替换进行优化106
6.6 下推优化107
6.7 查询扩展(查询注入)优化109
6.8 运送连接优化110
6.9 合并排序连接优化111
6.10 缓存优化111
6.11 数据优化与统计112
6.12 提示优化112
6.13 SQL覆盖优化113
6.14 处理策略的说明114
第7章 在商务智能系统上部署数据虚拟化115
7.1 引言115
7.2 基于数据虚拟化的商务智能系统115
7.3 部署数据虚拟化的优点116
7.4 部署数据虚拟化的缺点118
7.5 采用数据虚拟化的策略119
7.5.1 策略1:在现有的商务智能系统上引入数据虚拟化119
7.5.2 策略2:利用数据虚拟化开发新的商务智能系统123
7.5.3 策略3:开发新的结合源数据和转换数据的商务智能系统127
7.6 数据虚拟化的应用领域127
7.6.1 统一的数据访问127
7.6.2 虚拟数据集市128
7.6.3 虚拟数据仓库—基于数据集市130
7.6.4 虚拟数据仓库—基于生产数据库130
7.6.5 扩展数据仓库131
7.6.6 操作报告和分析131
7.6.7 操作数据仓库133
7.6.8 虚拟企业数据仓库133
7.6.9 自助服务报告和分析134
7.6.10 虚拟沙盒134
7.6.11 原型设计135
7.6.12 分析半结构化和非结构化数据135
7.6.13 一次性报告136
7.6.14 通过外部用户扩展的商务智能系统136
7.7 关于数据虚拟化的谬论138
第8章 数据虚拟化设计指南140
8.1 引言140
8.2 错误数据和数据质量140
8.2.1 错误数据的不同形式141
8.2.2 完整性规则和错误数据142
8.2.3 过滤、标记和恢复错误数据142
8.2.4 过滤错误数据的例子143
8.2.5 标记错误值示例145
8.2.6 恢复拼写错误数据示例146
8.3 复杂和不规则的数据结构148
8.3.1 没有名字的代码150
8.3.2 键值不一致150
8.3.3 重复组151
8.3.4 递归数据结构153
8.4 实现封装或映射中的转换155
8.5 分析错误数据155
8.6 不同的用户和不同的定义156
8.7 数据时间的不一致性157
8.8 数据存储和数据传输158
8.9 生产系统数据检索159
8.10 加入历史和业务数据1
序言
前言
作者简介
第1章 数据虚拟化导论1
1.1 引言1
1.2 商务智能世界正在改变1
1.3 虚拟化简介3
1.4 什么是数据虚拟化3
1.5 数据虚拟化与相关概念4
1.5.1 数据虚拟化与封装和信息隐藏4
1.5.2 数据虚拟化与抽象5
1.5.3 数据虚拟化与数据联合5
1.5.4 数据虚拟化与数据集成6
1.5.5 数据虚拟化与企业信息集成7
1.6 数据虚拟化的定义8
1.7 数据虚拟化的技术优势8
1.8 数据虚拟化的不同实现11
1.9 数据虚拟化服务器概述12
1.10 开放式与封闭式数据虚拟化服务器12
1.11 数据集成的其他方式13
1.12 数据虚拟化服务模型15
1.13 数据虚拟化的历史16
1.14 示例数据库:世界一流电影18
1.15 本书结构20
第2章 商务智能和数据仓库22
2.1 引言22
2.2 什么是商务智能22
2.3 管理层次与决策制定23
2.4 商务智能系统23
2.5 商务智能系统的数据存储24
2.5.1 数据仓库25
2.5.2 数据集市 27
2.5.3 数据中转区28
2.5.4 可操作数据存储29
2.5.5 个人数据存储30
2.5.6 不同类型数据存储的对比31
2.6 标准化模式、星形模式和雪花模式31
2.6.1 标准化模式32
2.6.2 非标准化模式32
2.6.3 星形模式33
2.6.4 雪花模式34
2.7 提取-转换-装载、提取-装载-转换和复制35
2.7.1 提取-转换-装载36
2.7.2 提取-装载-转换37
2.7.3 复制38
2.8 商务智能架构总览38
2.9 报告和分析的新形式39
2.9.1 运营报告和分析39
2.9.2 深度和大数据分析40
2.9.3 自助式报告和分析40
2.9.4 无限制的自组织分析40
2.9.5 360氨ǜ?1
2.9.6 探索性分析42
2.9.7 基于文本的分析42
2.10 传统商务智能系统的劣势43
2.11 总结46
第3章 数据虚拟化服务器:构造模块47
3.1 引言47
3.2 数据虚拟化服务器的高层架构47
3.3 导入源表和定义封装器48
3.4 定义虚拟表和映射50
3.5 虚拟表和映射的例子53
3.6 虚拟表和数据建模59
3.7 嵌套虚拟表和共享规范61
3.8 导入非关系数据62
3.8.1 XML和JSON文档62
3.8.2 Web服务66
3.8.3 电子表格66
3.8.4 NoSQL数据库68
3.8.5 多维数据集和MDX70
3.8.6 半结构化数据71
3.8.7 非结构化数据 74
3.9 发布虚拟表75
3.10 互联网数据模型80
3.11 可更新的虚拟表和事务管理82
第4章 数据虚拟化服务器:管理与安全85
4.1 引言85
4.2 影响度和线性分析85
4.3 源表、封装表和虚拟表的同步87
4.4 数据安全:认证与授权88
4.5 监控、管理和实施89
第5章 数据虚拟化服务器:虚拟表的高速缓存93
5.1 引言93
5.2 虚拟表的高速缓存93
5.3 什么时候使用高速缓存95
5.4 高速缓存与数据集市95
5.5 高速缓存保存在哪里96
5.6 刷新高速缓存97
5.7 完整刷新、增量刷新和动态刷新97
5.8 在线刷新与离线刷新98
5.9 高速缓存备份98
第6章 数据虚拟化服务器:查询优化技术100
6.1 引言100
6.2 查询优化的基本原理101
6.3 数据虚拟化服务器查询处理的10个阶段104
6.4 数据存储的智能等级105
6.5 通过查询替换进行优化106
6.6 下推优化107
6.7 查询扩展(查询注入)优化109
6.8 运送连接优化110
6.9 合并排序连接优化111
6.10 缓存优化111
6.11 数据优化与统计112
6.12 提示优化112
6.13 SQL覆盖优化113
6.14 处理策略的说明114
第7章 在商务智能系统上部署数据虚拟化115
7.1 引言115
7.2 基于数据虚拟化的商务智能系统115
7.3 部署数据虚拟化的优点116
7.4 部署数据虚拟化的缺点118
7.5 采用数据虚拟化的策略119
7.5.1 策略1:在现有的商务智能系统上引入数据虚拟化119
7.5.2 策略2:利用数据虚拟化开发新的商务智能系统123
7.5.3 策略3:开发新的结合源数据和转换数据的商务智能系统127
7.6 数据虚拟化的应用领域127
7.6.1 统一的数据访问127
7.6.2 虚拟数据集市128
7.6.3 虚拟数据仓库—基于数据集市130
7.6.4 虚拟数据仓库—基于生产数据库130
7.6.5 扩展数据仓库131
7.6.6 操作报告和分析131
7.6.7 操作数据仓库133
7.6.8 虚拟企业数据仓库133
7.6.9 自助服务报告和分析134
7.6.10 虚拟沙盒134
7.6.11 原型设计135
7.6.12 分析半结构化和非结构化数据135
7.6.13 一次性报告136
7.6.14 通过外部用户扩展的商务智能系统136
7.7 关于数据虚拟化的谬论138
第8章 数据虚拟化设计指南140
8.1 引言140
8.2 错误数据和数据质量140
8.2.1 错误数据的不同形式141
8.2.2 完整性规则和错误数据142
8.2.3 过滤、标记和恢复错误数据142
8.2.4 过滤错误数据的例子143
8.2.5 标记错误值示例145
8.2.6 恢复拼写错误数据示例146
8.3 复杂和不规则的数据结构148
8.3.1 没有名字的代码150
8.3.2 键值不一致150
8.3.3 重复组151
8.3.4 递归数据结构153
8.4 实现封装或映射中的转换155
8.5 分析错误数据155
8.6 不同的用户和不同的定义156
8.7 数据时间的不一致性157
8.8 数据存储和数据传输158
8.9 生产系统数据检索159
8.10 加入历史和业务数据1
前 言
前 言概述数据虚拟化是一种转化异构数据库集合和文件的技术,这种技术使得这些数据看起来像一种集成的数据。在用于商务智能系统时,它可以使数据架构更简单、更便宜,重要的是更敏捷。新的报告和分析需求可以更快实施,现有系统可以更容易改变。这就需要增加敏捷性:一方面,商务用户需要其系统提供更多的敏捷性,因为他们的世界已经开始改变;另一方面,商务智能的新形式,如运营报告、大数据分析、360氨ǜ妗⒆灾癖ǜ婧吞剿餍苑治觯际堑鼻暗男枨蟆1臼橹铝τ谑菪槟饣际跻约叭绾斡行У卦谏涛裰悄芟低持欣酶眉际酢R虼巳梦颐谴悠鸬憧迹有槟饣肌?在IT行业,我们已经进入了虚拟化时代。似乎这一行业中的任何东西都可以虚拟化,包括内存、外存、网络和数据中心。虚拟化技术很热门,比如云技术的普及也可以归类为虚拟化技术。虚拟化技术就是热点,并且在一段时间内都将是技术的焦点。
所有虚拟化技术和概念的共同点是它们封装了某个资源。任何虚拟化解决方案都隐藏了可用资源的数量、资源的位置以及获取资源所需的API等。但不要将虚拟化与一些电脑游戏所提供的虚拟世界混淆。这些游戏提供了一些虚拟的东西,但它们并没有封装特定的资源。
本书将解释一种特定形式的虚拟化:数据虚拟化。简而言之,数据虚拟化意味着将数据以集成的方式提供给应用程序,而不管所有数据是否分布在多个数据库中,是否以不同格式存储,是否可通过不同的数据库语言进行访问。数据虚拟化技术将这些不同的数据存储作为一个逻辑数据库呈现给应用程序。虽然数据虚拟化产品和技术已经存在了一段时间,但是大约在2009年,它才逐步得到了应有的关注。因为它对解决方案的影响—增加的敏捷性,所以越来越多的组织正在采用虚拟化技术,似乎可以认为21世纪的第二个十年将成为数据虚拟化的十年。
数据虚拟化可以部署在需要检索和操作数据的所有类型的信息系统中,例如经典数据输入系统、基于因特网的系统、面向服务的系统、主数据管理系统和商务智能系统。本书的重点是商务智能系统。数据虚拟化可用于整合来自各种数据源的数据,包括数据仓库、数据集市和生产型数据库。它有潜力改变我们开发商务智能系统的方式。数据虚拟化将成为大多数这类系统的心脏。
简而言之,数据虚拟化允许我们使用更简单和更灵活的架构构建商务智能系统。如果你想知道怎么做和为什么,本书就是为你而写的!本书将详细描述数据虚拟化产品的工作原理、技术应用、应该做什么和不做什么,以及在商务智能系统中应用它的好处。
谁应该阅读这本书?本书适合以下人群:
负责开发和管理数据仓库和商务智能环境的商务智能专家,以及那些想知道如何通过应用数据虚拟化技术来简化系统或实现更灵活的商务智能系统的人。
信息管理专家,想知道数据虚拟化对其职业的影响,以及数据虚拟化将如何影响信息管理、数据管理、数据库设计、数据清洗和数据分析等活动。
主数据管理专家,负责创建主数据管理系统,并希望了解如何从部署数据虚拟化中受益。
数据架构师,负责设计数据的整体系统架构,用来向特定组织的任何机构提供所需要的数据。
数据库管理员,必须了解数据虚拟化服务器的特性和限制,用于确定如何以及在何处可以有效且高效地应用此技术。
设计师、分析师和顾问,必须直接或间接处理数据虚拟化,以及想知道数据虚拟化所能做的和不能做的。
学生,想要学习数据虚拟化技术,以及理解数据虚拟化技术与其他数据处理相关技术的区别。
预备知识关于数据仓库、商务智能和数据库技术的一般性知识是必需的。
术语和定义遗憾的是,数据虚拟化和数据仓库领域中使用的所有术语并非都是明确定义的,这一点在本书中讲得很清楚。为了避免混淆,我们试图清晰地定义大多数术语。但是,我们不能保证本书中的定义与你的定义一致。
造成这种混乱的原因很多。个原因是,供应商纯粹为了区分自己的产品和竞争对手的产品而经常提出新的术语,但营销人员不定义术语,他们只使用这些术语并用一般术语来描述产品。在大家意识到这一点之前,我们都在使用那些定义不明确或根本没有定义的术语。第二个原因是,这个领域发展非常迅速,在较短的时间内就可能要为新思维创造某种术语,并提出权衡性定义。结果,我们可能会匆忙地选择一个术语,而经过仔细检查后才发现它并不合适。
写在后……对我来说,写一本书的感觉像是独自一人完成项目:坐在办公室里几个小时、几天、几个月,喝一杯茶,听喜欢的音乐。但这不是一个独奏项目,一本书通常需要很多人合作而成,本书当然也是如此。因此,我要感谢很多人对我的帮助,感谢他们为本书做出的贡献,提出的想法和意见,以及对我的支持和耐心。
感谢Jim Bean和Richard Hackathorn的技术审查。他们的意见可能比他们意识到的更有价值。在我还在写作本书的时候就得到了他们的反馈意见,这使得整个项目相当鼓舞人心。要是我以前的所有图书都有像他们一样好的技术审校者该多好。
感谢Claudia Imhoff女士。她是各种商务智能书籍的作者和合作者,企业
所有虚拟化技术和概念的共同点是它们封装了某个资源。任何虚拟化解决方案都隐藏了可用资源的数量、资源的位置以及获取资源所需的API等。但不要将虚拟化与一些电脑游戏所提供的虚拟世界混淆。这些游戏提供了一些虚拟的东西,但它们并没有封装特定的资源。
本书将解释一种特定形式的虚拟化:数据虚拟化。简而言之,数据虚拟化意味着将数据以集成的方式提供给应用程序,而不管所有数据是否分布在多个数据库中,是否以不同格式存储,是否可通过不同的数据库语言进行访问。数据虚拟化技术将这些不同的数据存储作为一个逻辑数据库呈现给应用程序。虽然数据虚拟化产品和技术已经存在了一段时间,但是大约在2009年,它才逐步得到了应有的关注。因为它对解决方案的影响—增加的敏捷性,所以越来越多的组织正在采用虚拟化技术,似乎可以认为21世纪的第二个十年将成为数据虚拟化的十年。
数据虚拟化可以部署在需要检索和操作数据的所有类型的信息系统中,例如经典数据输入系统、基于因特网的系统、面向服务的系统、主数据管理系统和商务智能系统。本书的重点是商务智能系统。数据虚拟化可用于整合来自各种数据源的数据,包括数据仓库、数据集市和生产型数据库。它有潜力改变我们开发商务智能系统的方式。数据虚拟化将成为大多数这类系统的心脏。
简而言之,数据虚拟化允许我们使用更简单和更灵活的架构构建商务智能系统。如果你想知道怎么做和为什么,本书就是为你而写的!本书将详细描述数据虚拟化产品的工作原理、技术应用、应该做什么和不做什么,以及在商务智能系统中应用它的好处。
谁应该阅读这本书?本书适合以下人群:
负责开发和管理数据仓库和商务智能环境的商务智能专家,以及那些想知道如何通过应用数据虚拟化技术来简化系统或实现更灵活的商务智能系统的人。
信息管理专家,想知道数据虚拟化对其职业的影响,以及数据虚拟化将如何影响信息管理、数据管理、数据库设计、数据清洗和数据分析等活动。
主数据管理专家,负责创建主数据管理系统,并希望了解如何从部署数据虚拟化中受益。
数据架构师,负责设计数据的整体系统架构,用来向特定组织的任何机构提供所需要的数据。
数据库管理员,必须了解数据虚拟化服务器的特性和限制,用于确定如何以及在何处可以有效且高效地应用此技术。
设计师、分析师和顾问,必须直接或间接处理数据虚拟化,以及想知道数据虚拟化所能做的和不能做的。
学生,想要学习数据虚拟化技术,以及理解数据虚拟化技术与其他数据处理相关技术的区别。
预备知识关于数据仓库、商务智能和数据库技术的一般性知识是必需的。
术语和定义遗憾的是,数据虚拟化和数据仓库领域中使用的所有术语并非都是明确定义的,这一点在本书中讲得很清楚。为了避免混淆,我们试图清晰地定义大多数术语。但是,我们不能保证本书中的定义与你的定义一致。
造成这种混乱的原因很多。个原因是,供应商纯粹为了区分自己的产品和竞争对手的产品而经常提出新的术语,但营销人员不定义术语,他们只使用这些术语并用一般术语来描述产品。在大家意识到这一点之前,我们都在使用那些定义不明确或根本没有定义的术语。第二个原因是,这个领域发展非常迅速,在较短的时间内就可能要为新思维创造某种术语,并提出权衡性定义。结果,我们可能会匆忙地选择一个术语,而经过仔细检查后才发现它并不合适。
写在后……对我来说,写一本书的感觉像是独自一人完成项目:坐在办公室里几个小时、几天、几个月,喝一杯茶,听喜欢的音乐。但这不是一个独奏项目,一本书通常需要很多人合作而成,本书当然也是如此。因此,我要感谢很多人对我的帮助,感谢他们为本书做出的贡献,提出的想法和意见,以及对我的支持和耐心。
感谢Jim Bean和Richard Hackathorn的技术审查。他们的意见可能比他们意识到的更有价值。在我还在写作本书的时候就得到了他们的反馈意见,这使得整个项目相当鼓舞人心。要是我以前的所有图书都有像他们一样好的技术审校者该多好。
感谢Claudia Imhoff女士。她是各种商务智能书籍的作者和合作者,企业
评论
还没有评论。