描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111611752
内容简介
大数据时代,数据的规模、速度、范围和结构对计算、存储和网络基础设施提出了更高的要求,如何构建更加高效的基础设施对于获得良好的大数据分析结果至关重要。本书从大数据分析中对高性能技术的需求讲起,分析了进行高性能大数据分析需要的网络基础设施、存储基础设施,如何使用高性能计算进行实时分析,高性能计算范型,大数据分析中的高性能集成系统、数据库和数据仓库,高性能大数据分析的可视化等内容。
目 录
译者序
序
前言
第1章 IT领域的变革以及未来趋势1
1.1 引言1
1.2 新兴的IT趋势1
1.3 数字化实体的实现与发展4
1.4 物联网/万物互联5
1.5 对社交媒体网站的广泛采用7
1.6 预测性、规范性、个性化分析时代7
1.7 用于大数据及分析的Apache Hadoop11
1.8 大数据、大洞见、大动作13
1.9 结论15
1.10 习题15
第2章 大数据/快速数据分析中的高性能技术16
2.1 引言16
2.2 大数据分析学科的出现17
2.3 大数据的战略意义18
2.4 大数据分析的挑战19
2.5 高性能计算范型19
2.6 通过并行实现高性能的方法21
2.7 集群计算22
2.8 网格计算24
2.9 云计算27
2.10 异构计算29
2.11 用于高性能计算的大型机31
2.12 用于大数据分析的超级计算32
2.13 用于大数据分析的设备32
2.13.1 用于大规模数据分析的数据仓库设备33
2.13.2 in-memory大数据分析35
2.13.3 大数据的in-database处理37
2.13.4 基于Hadoop的大数据设备38
2.13.5 高性能大数据存储设备41
2.14 结论42
2.15 习题42
参考文献43
第3章 大数据与快速数据分析对高性能计算的渴望44
3.1 引言44
3.2 重新审视大数据分析范型45
3.3 大数据和快速数据的含义47
3.4 用于精确、预测性、规范性洞见的新兴数据源48
3.5 大数据分析为何不俗50
3.6 传统的和新一代的数据分析案例研究51
3.7 为何采用基于云的大数据分析55
3.8 大数据分析:主要处理步骤57
3.9 实时分析58
3.10 流分析62
3.11 传感器分析63
3.11.1 大数据分析与高性能计算的同步:附加价值63
3.12 结论64
3.13 习题64
第4章 高性能大数据分析的网络基础设施65
4.1 引言65
4.2 当前网络基础设施的局限66
4.3 高性能大数据分析网络基础设施的设计方法68
4.3.1 网络虚拟化68
4.3.2 软件定义网络76
4.3.3 网络功能虚拟化78
4.4 用于传输大数据的广域网优化79
4.5 结论81
4.6 习题81
参考文献81
第5章 高性能大数据分析的存储基础设施82
5.1 引言82
5.2 直连式存储83
5.2.1 DAS的缺点84
5.3 存储区域网络85
5.3.1 块级访问85
5.3.2 文件级访问85
5.3.3 对象级访问85
5.4 保存大数据的存储基础设施需求86
5.5 光纤通道存储区域网络87
5.6 互联网协议存储区域网络88
5.6.1 以太网光纤通道88
5.7 网络附属存储89
5.8 用于高性能大数据分析的流行文件系统89
5.8.1 Google文件系统89
5.8.2 Hadoop分布式文件系统91
5.8.3 Panasas92
5.8.4 Luster文件系统94
5.9 云存储简介96
5.9.1 云存储系统的架构模型96
5.9.2 存储虚拟化98
5.9.3 云存储中使用的存储优化技术100
5.9.4 云存储的优点101
5.10 结论101
5.11 习题101
参考文献102
进一步阅读102
第6章 使用高性能计算进行实时分析103
6.1 引言103
6.2 支持实时分析的技术103
6.2.1 in-memory处理103
6.2.2 in-database分析105
6.3 大规模在线分析106
6.4 通用并行文件系统107
6.4.1 GPFS用例107
6.5 GPFS客户案例研究111
6.5.1 广播公司:VRT111
6.5.2 石油公司从Lustre迁移到GPFS113
6.6 GPFS:关键的区别113
6.6.1 基于GPFS的解决方案114
6.7 机器数据分析114
6.7.1 Splunk114
6.8 运营分析115
6.8.1 运营分析中的技术115
6.8.2 用例以及运营分析产品116
6.8.3 其他IBM运营分析产品117
6.9 结论117
6.10 习题118
第7章 高性能计算范型119
7.1 引言119
7.2 为何还需要大型机119
7.3 大型机中HPC是如何演化的120
7.3.1 成本:HPC的一个重要因素120
7.3.2 云计算中的集中式HPC120
7.3.3 集中式HPC的要求121
7.4 HPC远程模拟121
7.5 使用HPC的大型机解决方案121
7.5.1 智能大型机网格121
7.5.2 IMG的工作原理122
7.5.3 IMG架构122
7.6 架构模型125
7.6.1 具有共享磁盘的存储服务器125
7.6.2 没有共享磁盘的存储服务器125
7.6.3 无存储服务器的通信网络125
7.7 对称多处理126
7.7.1 什么是SMP126
7.7.2 SMP与集群方法126
7.7.3 SMP是否真的重要126
7.7.4 线程模型127
7.7.5 NumaConnect技术127
7.8 用于HPC的虚拟化127
7.9 大型机方面的创新127
7.10 FICON大型机接口128
7.11 大型机对手机的支持129
7.12 Windows高性能计算129
7.13 结论130
7.14 习题131
第8章 in-database处理与in-memory分析132
8.1 引言132
8.1.1 分析工作负载与事务工作负载的对比132
8.1.2 分析工作负载的演化133
8.1.3 传统分析平台135
8.2 in-database分析135
8.2.1 架构137
8.2.2 优点和局限138
8.2.3 代表性的系统138
8.3 in-memory分析140
8.3.1 架构141
8.3.2 优点和局限142
8.3.3 代表性的系统142
8.4 分析设备145
8.4.1 Oracle Exalytics145
8.4.2 IBM Netezza145
8.5 结论147
8.6 习题147
参考文献148
进一步阅读148
第9章 大数据/快速数据分析中的高性能集成系统、数据库和数据仓库149
9.1 引言149
9.2 下一代IT基础设施和平台的关键特征150
9.3 用于大
序
前言
第1章 IT领域的变革以及未来趋势1
1.1 引言1
1.2 新兴的IT趋势1
1.3 数字化实体的实现与发展4
1.4 物联网/万物互联5
1.5 对社交媒体网站的广泛采用7
1.6 预测性、规范性、个性化分析时代7
1.7 用于大数据及分析的Apache Hadoop11
1.8 大数据、大洞见、大动作13
1.9 结论15
1.10 习题15
第2章 大数据/快速数据分析中的高性能技术16
2.1 引言16
2.2 大数据分析学科的出现17
2.3 大数据的战略意义18
2.4 大数据分析的挑战19
2.5 高性能计算范型19
2.6 通过并行实现高性能的方法21
2.7 集群计算22
2.8 网格计算24
2.9 云计算27
2.10 异构计算29
2.11 用于高性能计算的大型机31
2.12 用于大数据分析的超级计算32
2.13 用于大数据分析的设备32
2.13.1 用于大规模数据分析的数据仓库设备33
2.13.2 in-memory大数据分析35
2.13.3 大数据的in-database处理37
2.13.4 基于Hadoop的大数据设备38
2.13.5 高性能大数据存储设备41
2.14 结论42
2.15 习题42
参考文献43
第3章 大数据与快速数据分析对高性能计算的渴望44
3.1 引言44
3.2 重新审视大数据分析范型45
3.3 大数据和快速数据的含义47
3.4 用于精确、预测性、规范性洞见的新兴数据源48
3.5 大数据分析为何不俗50
3.6 传统的和新一代的数据分析案例研究51
3.7 为何采用基于云的大数据分析55
3.8 大数据分析:主要处理步骤57
3.9 实时分析58
3.10 流分析62
3.11 传感器分析63
3.11.1 大数据分析与高性能计算的同步:附加价值63
3.12 结论64
3.13 习题64
第4章 高性能大数据分析的网络基础设施65
4.1 引言65
4.2 当前网络基础设施的局限66
4.3 高性能大数据分析网络基础设施的设计方法68
4.3.1 网络虚拟化68
4.3.2 软件定义网络76
4.3.3 网络功能虚拟化78
4.4 用于传输大数据的广域网优化79
4.5 结论81
4.6 习题81
参考文献81
第5章 高性能大数据分析的存储基础设施82
5.1 引言82
5.2 直连式存储83
5.2.1 DAS的缺点84
5.3 存储区域网络85
5.3.1 块级访问85
5.3.2 文件级访问85
5.3.3 对象级访问85
5.4 保存大数据的存储基础设施需求86
5.5 光纤通道存储区域网络87
5.6 互联网协议存储区域网络88
5.6.1 以太网光纤通道88
5.7 网络附属存储89
5.8 用于高性能大数据分析的流行文件系统89
5.8.1 Google文件系统89
5.8.2 Hadoop分布式文件系统91
5.8.3 Panasas92
5.8.4 Luster文件系统94
5.9 云存储简介96
5.9.1 云存储系统的架构模型96
5.9.2 存储虚拟化98
5.9.3 云存储中使用的存储优化技术100
5.9.4 云存储的优点101
5.10 结论101
5.11 习题101
参考文献102
进一步阅读102
第6章 使用高性能计算进行实时分析103
6.1 引言103
6.2 支持实时分析的技术103
6.2.1 in-memory处理103
6.2.2 in-database分析105
6.3 大规模在线分析106
6.4 通用并行文件系统107
6.4.1 GPFS用例107
6.5 GPFS客户案例研究111
6.5.1 广播公司:VRT111
6.5.2 石油公司从Lustre迁移到GPFS113
6.6 GPFS:关键的区别113
6.6.1 基于GPFS的解决方案114
6.7 机器数据分析114
6.7.1 Splunk114
6.8 运营分析115
6.8.1 运营分析中的技术115
6.8.2 用例以及运营分析产品116
6.8.3 其他IBM运营分析产品117
6.9 结论117
6.10 习题118
第7章 高性能计算范型119
7.1 引言119
7.2 为何还需要大型机119
7.3 大型机中HPC是如何演化的120
7.3.1 成本:HPC的一个重要因素120
7.3.2 云计算中的集中式HPC120
7.3.3 集中式HPC的要求121
7.4 HPC远程模拟121
7.5 使用HPC的大型机解决方案121
7.5.1 智能大型机网格121
7.5.2 IMG的工作原理122
7.5.3 IMG架构122
7.6 架构模型125
7.6.1 具有共享磁盘的存储服务器125
7.6.2 没有共享磁盘的存储服务器125
7.6.3 无存储服务器的通信网络125
7.7 对称多处理126
7.7.1 什么是SMP126
7.7.2 SMP与集群方法126
7.7.3 SMP是否真的重要126
7.7.4 线程模型127
7.7.5 NumaConnect技术127
7.8 用于HPC的虚拟化127
7.9 大型机方面的创新127
7.10 FICON大型机接口128
7.11 大型机对手机的支持129
7.12 Windows高性能计算129
7.13 结论130
7.14 习题131
第8章 in-database处理与in-memory分析132
8.1 引言132
8.1.1 分析工作负载与事务工作负载的对比132
8.1.2 分析工作负载的演化133
8.1.3 传统分析平台135
8.2 in-database分析135
8.2.1 架构137
8.2.2 优点和局限138
8.2.3 代表性的系统138
8.3 in-memory分析140
8.3.1 架构141
8.3.2 优点和局限142
8.3.3 代表性的系统142
8.4 分析设备145
8.4.1 Oracle Exalytics145
8.4.2 IBM Netezza145
8.5 结论147
8.6 习题147
参考文献148
进一步阅读148
第9章 大数据/快速数据分析中的高性能集成系统、数据库和数据仓库149
9.1 引言149
9.2 下一代IT基础设施和平台的关键特征150
9.3 用于大
前 言
一些行业趋势以及一系列强大的技术和工具无疑将导致大规模的数据爆炸。不经意间,数据已经压倒性地成为各行各业的战略资产。这些前所未有的数据包括以下值得注意的变化:设备生态系统随着人们不断变化的想象而持续扩展;随着智能仪器和互联技术的发展,机器变得智能,并且产生了高达PB乃至EB级的数据;个人及专业应用都支持服务,从而可以互相操作,进而实现有益的数据共享;社交网站每天产生TB级的数据;我们周围的普通物体都被精密地数字化,以不同的速度产生大量的多结构数据。另一方面,ICT基础设施和平台被高度优化和组织以进行有效的数据存储、处理和分析,具有适应性的WAN技术正在形成以加速数据的安全传输,新的架构模式被融入,过程也系统地变得更加灵活,等等,目的是使数据有意义。
仔细分析数据可以提供丰富的信息,这些信息能够彻底改变我们生活的方方面面。这个想法已经在当今IT领域演变成为游戏规则改变者,被人们称为大数据分析。考虑到数据的规模、速度、范围和结构,计算、存储和网络基础设施需要非常高效。大数据为IT带来了三个关键挑战:大数据的存储和管理,大数据分析,产生利用大数据分析的复杂应用。准确地说,大数据分析(BDA)正在迅速成为下一代高性能计算学科,学生、学者和科学家需要挖掘出有效的算法、模式、方法、实践、关键准则、评价指标等。
本书概要介绍这些技术。为了高效率地捕捉、获取、吸收、处理大数据,以便实现知识发现和传播,目前需要对网络和存储基础设施优化进行认真的分析。本书中还包含了大数据分析在各个行业中的应用案例,目的是使读者以简明的方式了解数据分析的重要性。
第1章:IT领域的变革以及未来趋势。本章列出了IT领域尤其是大数据和快速数据背景下的新变化。对ICT领域有前景的、潜在的技术及工具进行了特别介绍,目的是让读者了解本书中会涵盖哪些内容。
第2章:大数据/快速数据分析中的高性能技术。本章对高性能大数据及快速数据分析中代表性的技术进行了分类。
第3章:大数据与快速数据分析对高性能计算的渴望。本章解释了大数据和快速数据分析的本质,目的是强调高性能计算需求的重要性,从而能够从数据堆中获取可行的洞见。
第4章:高性能大数据分析的网络基础设施。本章总结了有效地传输大数据的网络基础设施要求。为了能够通过网络有效地进行大数据传输,需要对现有网络基础设施进行一些改动。可以使用的技术包括网络虚拟化、软件定义网络(SDN)、两层Leaf-Spine架构、网络功能虚拟化,本章对这些技术进行了详细的讨论。此外,还需要对现有的广域网基础设施进行优化,以有效地传输大数据。本章还讨论了一种名为FASP的技术,它能够有效利用TCP/IP协议传输大数据。FASP的一些实现方面的问题也包含在本章中。
第5章:高性能大数据分析的存储基础设施。本章总结了产生大数据的应用程序的存储基础设施需求。目前的存储基础设施没有对存储和处理大数据进行优化,现有存储技术的主要问题在于缺乏可扩展性,因此,设计一种能够有效处理大数据的新存储技术是当务之急。在本章中,首先介绍了现有存储基础设施以及它们对处理大数据的适合程度。之后,介绍了一些专门为处理大数据而设计的平台和文件系统,例如Panasas文件系统、Lustre文件系统、GFS、HDFS。
第6章:使用高性能计算进行实时分析。本章讨论了实时环境中的分析问题,涵盖了新近的实时分析解决方案,例如机器数据分析和运营分析。本章可以让读者了解数据是如何进行实时处理的,以及实时处理对我们更美好的未来生活的价值。
第7章:高性能计算范型。本章详细介绍了多年来高性能计算在大型机上的演变以及背后的原因。几年前,得出的结论是大型机将随着技术的发展而消失,但是像IBM这样的公司已经证明,大型机不会消失,而是通过提供曾经被认为完全不可能的解决方案继续发挥作用。
第8章:in-database处理与in-memory分析。本章阐明in-database分析技术以及in-memory分析技术。当业务系统大规模运行时,将数据移入或移出数据存储可能是非常令人畏惧且代价昂贵的。当我们将“处理”移动到“数据”的附近时,数据处理是在数据存储中完成的,这样做可以减少数据移动成本,并使用更大的数据集来挖掘数据。随着企业的发展,速度已经变得至关重要,此时就需要实时数据库来发挥作用。本章涵盖了in-database分析技术及in-memory分析技术的方方面面,并给出了适当的例子。
第9章:大数据/快速数据分析中的高性能集成系统、数据库和数据仓库。在即将到来的大数据时代,对新型数据管理系统有着独特的需求。本章清晰地介绍了新出现的集群SQL数据库、NoSQL数据库和NewSQL数据库,并对专用于大数据的数据仓库进行了解释。
第10章:高性能网格和集群。本章阐明了可用于支持大数据分析及数据密集型处理的技术和软件工具。全球的企业都面临着降低分析平台的TCO(总体拥有成本)的压力,同时还要在必要的水平上继续运行。使用这些高性能系统,企业能够满足所需的性能要求。本章介绍了集群和网格计算系统在大数据分析领域的不同用例。
第11章:高性能P2P系统。本章介绍了大数据分析领域
仔细分析数据可以提供丰富的信息,这些信息能够彻底改变我们生活的方方面面。这个想法已经在当今IT领域演变成为游戏规则改变者,被人们称为大数据分析。考虑到数据的规模、速度、范围和结构,计算、存储和网络基础设施需要非常高效。大数据为IT带来了三个关键挑战:大数据的存储和管理,大数据分析,产生利用大数据分析的复杂应用。准确地说,大数据分析(BDA)正在迅速成为下一代高性能计算学科,学生、学者和科学家需要挖掘出有效的算法、模式、方法、实践、关键准则、评价指标等。
本书概要介绍这些技术。为了高效率地捕捉、获取、吸收、处理大数据,以便实现知识发现和传播,目前需要对网络和存储基础设施优化进行认真的分析。本书中还包含了大数据分析在各个行业中的应用案例,目的是使读者以简明的方式了解数据分析的重要性。
第1章:IT领域的变革以及未来趋势。本章列出了IT领域尤其是大数据和快速数据背景下的新变化。对ICT领域有前景的、潜在的技术及工具进行了特别介绍,目的是让读者了解本书中会涵盖哪些内容。
第2章:大数据/快速数据分析中的高性能技术。本章对高性能大数据及快速数据分析中代表性的技术进行了分类。
第3章:大数据与快速数据分析对高性能计算的渴望。本章解释了大数据和快速数据分析的本质,目的是强调高性能计算需求的重要性,从而能够从数据堆中获取可行的洞见。
第4章:高性能大数据分析的网络基础设施。本章总结了有效地传输大数据的网络基础设施要求。为了能够通过网络有效地进行大数据传输,需要对现有网络基础设施进行一些改动。可以使用的技术包括网络虚拟化、软件定义网络(SDN)、两层Leaf-Spine架构、网络功能虚拟化,本章对这些技术进行了详细的讨论。此外,还需要对现有的广域网基础设施进行优化,以有效地传输大数据。本章还讨论了一种名为FASP的技术,它能够有效利用TCP/IP协议传输大数据。FASP的一些实现方面的问题也包含在本章中。
第5章:高性能大数据分析的存储基础设施。本章总结了产生大数据的应用程序的存储基础设施需求。目前的存储基础设施没有对存储和处理大数据进行优化,现有存储技术的主要问题在于缺乏可扩展性,因此,设计一种能够有效处理大数据的新存储技术是当务之急。在本章中,首先介绍了现有存储基础设施以及它们对处理大数据的适合程度。之后,介绍了一些专门为处理大数据而设计的平台和文件系统,例如Panasas文件系统、Lustre文件系统、GFS、HDFS。
第6章:使用高性能计算进行实时分析。本章讨论了实时环境中的分析问题,涵盖了新近的实时分析解决方案,例如机器数据分析和运营分析。本章可以让读者了解数据是如何进行实时处理的,以及实时处理对我们更美好的未来生活的价值。
第7章:高性能计算范型。本章详细介绍了多年来高性能计算在大型机上的演变以及背后的原因。几年前,得出的结论是大型机将随着技术的发展而消失,但是像IBM这样的公司已经证明,大型机不会消失,而是通过提供曾经被认为完全不可能的解决方案继续发挥作用。
第8章:in-database处理与in-memory分析。本章阐明in-database分析技术以及in-memory分析技术。当业务系统大规模运行时,将数据移入或移出数据存储可能是非常令人畏惧且代价昂贵的。当我们将“处理”移动到“数据”的附近时,数据处理是在数据存储中完成的,这样做可以减少数据移动成本,并使用更大的数据集来挖掘数据。随着企业的发展,速度已经变得至关重要,此时就需要实时数据库来发挥作用。本章涵盖了in-database分析技术及in-memory分析技术的方方面面,并给出了适当的例子。
第9章:大数据/快速数据分析中的高性能集成系统、数据库和数据仓库。在即将到来的大数据时代,对新型数据管理系统有着独特的需求。本章清晰地介绍了新出现的集群SQL数据库、NoSQL数据库和NewSQL数据库,并对专用于大数据的数据仓库进行了解释。
第10章:高性能网格和集群。本章阐明了可用于支持大数据分析及数据密集型处理的技术和软件工具。全球的企业都面临着降低分析平台的TCO(总体拥有成本)的压力,同时还要在必要的水平上继续运行。使用这些高性能系统,企业能够满足所需的性能要求。本章介绍了集群和网格计算系统在大数据分析领域的不同用例。
第11章:高性能P2P系统。本章介绍了大数据分析领域
评论
还没有评论。