描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787302348665
内容简介
“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。《实战大数据》在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。
《实战大数据》共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。
《实战大数据》适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。
《实战大数据》共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。
《实战大数据》适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。
目 录
第一篇 大数据基础篇
第1章 大数据介绍
1.1 大数据相关概念
1.1.1 大数据的历史
1.1.2 大数据的定义
1.2 大数据研究内容
1.3 人数据研究现状
1.3.1 学术界现状
1.3.2 产业界现状
1.3.3 政府机构现状
1.4 大数据的应用领域
1.4.1 大数据在制造业的应用
1.4.2 大数据在服务业的应用
1.4.3 大数据在交通行业的应用
1.4.4 大数据在医疗行业的应用
1.5 本章小结
第2章 数据存储技术
2.1 数据存储技术介绍
2.2 数据采集与存储技术研究现状
2.2.1 传统关系型数据库
2.2.2 新兴数据存储系统
2.3 海量数据存储的关键技术分析
2.3.1 数据划分
2.3.2 数据一致性与可用性
2.3.3 负载均衡
2.3.4 容错机制
2.3.5 海量数据存储的硬件支持
2.4 数据存储技术的实现与工具
2.4.1 集中式数据存储管理系统Bigtable
2.4.2 非集中式的大规模数据管理系统Dynamo
2.4.3 BigTable的开源实现HBase
2.4.4 MongoDB
2.4.5 CouchDB
2.4.6 Redis
2.4.7 Hypertabie
2.4.8 其他开源NoSQL数据库
2.5 本章小结
第3章 数据抽取和清洗
3.1 数据抽取和清洗技术介绍
3.1.1 数据抽取简介
3.1.2 数据清洗简介
3.2 数据抽取和清洗研究现状
3.3 数据抽取技术的实现
3.3.1 Web数据抽取
3.3.2 非结构化数据抽取
3.3.3 基于云计算的海量数据分析
3.4 数据清洗技术的实现
3.4.1 数据清洗流程
3.4.2 数据清洗框架
3.4.3 数据清洗相关技术
3.4.4 基天Hadoop的数据清洗方案
……
第二篇 大数据深入篇
第三篇 大数据应用篇
第1章 大数据介绍
1.1 大数据相关概念
1.1.1 大数据的历史
1.1.2 大数据的定义
1.2 大数据研究内容
1.3 人数据研究现状
1.3.1 学术界现状
1.3.2 产业界现状
1.3.3 政府机构现状
1.4 大数据的应用领域
1.4.1 大数据在制造业的应用
1.4.2 大数据在服务业的应用
1.4.3 大数据在交通行业的应用
1.4.4 大数据在医疗行业的应用
1.5 本章小结
第2章 数据存储技术
2.1 数据存储技术介绍
2.2 数据采集与存储技术研究现状
2.2.1 传统关系型数据库
2.2.2 新兴数据存储系统
2.3 海量数据存储的关键技术分析
2.3.1 数据划分
2.3.2 数据一致性与可用性
2.3.3 负载均衡
2.3.4 容错机制
2.3.5 海量数据存储的硬件支持
2.4 数据存储技术的实现与工具
2.4.1 集中式数据存储管理系统Bigtable
2.4.2 非集中式的大规模数据管理系统Dynamo
2.4.3 BigTable的开源实现HBase
2.4.4 MongoDB
2.4.5 CouchDB
2.4.6 Redis
2.4.7 Hypertabie
2.4.8 其他开源NoSQL数据库
2.5 本章小结
第3章 数据抽取和清洗
3.1 数据抽取和清洗技术介绍
3.1.1 数据抽取简介
3.1.2 数据清洗简介
3.2 数据抽取和清洗研究现状
3.3 数据抽取技术的实现
3.3.1 Web数据抽取
3.3.2 非结构化数据抽取
3.3.3 基于云计算的海量数据分析
3.4 数据清洗技术的实现
3.4.1 数据清洗流程
3.4.2 数据清洗框架
3.4.3 数据清洗相关技术
3.4.4 基天Hadoop的数据清洗方案
……
第二篇 大数据深入篇
第三篇 大数据应用篇
前 言
大数据时代已经到来,大数据处理已经成为当今信息处理的热点研究内容。不同于大规模数据,大数据具有自身鲜明的4V特征:Volume(规模性)、Variety(多样性)、Velocity(高速性)和Veracity(真实性)。大数据不仅规模大,更需要采取新的数据思维来应对,其必然导致理论和技术上的革新。因此,大数据分析也被认为是继实验、理论和计算之后的科学研究第四范式。大数据的出现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维方面都会对其带来革命性的变化。
2013年初,美国计算机协会数据库专家委员会联合研究界、产业界和政府部门的相关研究人员,发布了大数据研究白皮书,提出了大数据分析的5个重要阶段:数据获取和记录,数据抽取、清洗和注记,数据集成、聚集和表示,数据分析和建模,数据解释。在这5个阶段中需要考虑数据的异构性、规模、时效性、复杂性和隐私问题。本书以此为提纲进行内容组织,首先介绍了5个阶段中相关的科学与技术问题,然后以实际案例的形式详细介绍了数据采集、数据存储与检索、数据处理、数据访问与转换4个大数据领域的重要问题,最后以股票市场预测系统、海量视频检索系统和云文件系统3个大数据实际应用系统为例详细介绍如何进行问题分析、数据建模以及系统的设计与实现。本书强调理论联系实际,重点在于介绍如何利用现有技术解决实际的大数据问题。
目前市场上以大数据为主题的书籍较多,但经过作者调研,未见以“利用现有技术解决大数据问题”为主题的大数据实战类书籍。本书编写团队核心成员自2010年起陆续承担了一些与大数据采集、存储、处理、分析、挖掘和检索方面的研究与应用开发工作,具有丰富的项目实践经验。这些实际项目经验形成了本书最为核心的第6~12章的内容。通过项目实战,我们积累了一些解决大数据问题的宝贵经验,对大数据的核心技术有了较为深刻的理解,认为有必要将自己的经验和认识整理出来,以满足广大读者利用现有技术解决大数据实际问题的迫切需求与心情,这也是书名的由来。
本书适合不同层次的读者阅读,建议读者根据自己的兴趣和目的有选择性地阅读:希望了解大数据相关的基础理论与技术的读者,可以重点阅读第1~5章;对于大数据领域的初学者,可以重点阅读第1~9章;对于已经掌握大数据基础理论,具有一定的技术基础,想解决实际大数据问题的读者,可以重点阅读第10~12章。
除封面署名的作者之外,参与编写的还有李江、张翔、杨阳、王贺、刘凯、王学良、张静、周文琳、刘晓静、张艳华、王炎楠、黄鹏、高小青。还需要感谢阚传奇、蒋帆的大力帮助,感谢我的导师陈平教授在大数据科学研究方面对我的启发与悉心指导。
由于大数据涉及的学科面很广,研究问题纷繁复杂,相关资料目前还比较少,加之作者水平有限,时间紧迫,书中难免存在错误与不当,恳请读者批评指正。建议和意见请发至作者邮箱[email protected]。
2013年初,美国计算机协会数据库专家委员会联合研究界、产业界和政府部门的相关研究人员,发布了大数据研究白皮书,提出了大数据分析的5个重要阶段:数据获取和记录,数据抽取、清洗和注记,数据集成、聚集和表示,数据分析和建模,数据解释。在这5个阶段中需要考虑数据的异构性、规模、时效性、复杂性和隐私问题。本书以此为提纲进行内容组织,首先介绍了5个阶段中相关的科学与技术问题,然后以实际案例的形式详细介绍了数据采集、数据存储与检索、数据处理、数据访问与转换4个大数据领域的重要问题,最后以股票市场预测系统、海量视频检索系统和云文件系统3个大数据实际应用系统为例详细介绍如何进行问题分析、数据建模以及系统的设计与实现。本书强调理论联系实际,重点在于介绍如何利用现有技术解决实际的大数据问题。
目前市场上以大数据为主题的书籍较多,但经过作者调研,未见以“利用现有技术解决大数据问题”为主题的大数据实战类书籍。本书编写团队核心成员自2010年起陆续承担了一些与大数据采集、存储、处理、分析、挖掘和检索方面的研究与应用开发工作,具有丰富的项目实践经验。这些实际项目经验形成了本书最为核心的第6~12章的内容。通过项目实战,我们积累了一些解决大数据问题的宝贵经验,对大数据的核心技术有了较为深刻的理解,认为有必要将自己的经验和认识整理出来,以满足广大读者利用现有技术解决大数据实际问题的迫切需求与心情,这也是书名的由来。
本书适合不同层次的读者阅读,建议读者根据自己的兴趣和目的有选择性地阅读:希望了解大数据相关的基础理论与技术的读者,可以重点阅读第1~5章;对于大数据领域的初学者,可以重点阅读第1~9章;对于已经掌握大数据基础理论,具有一定的技术基础,想解决实际大数据问题的读者,可以重点阅读第10~12章。
除封面署名的作者之外,参与编写的还有李江、张翔、杨阳、王贺、刘凯、王学良、张静、周文琳、刘晓静、张艳华、王炎楠、黄鹏、高小青。还需要感谢阚传奇、蒋帆的大力帮助,感谢我的导师陈平教授在大数据科学研究方面对我的启发与悉心指导。
由于大数据涉及的学科面很广,研究问题纷繁复杂,相关资料目前还比较少,加之作者水平有限,时间紧迫,书中难免存在错误与不当,恳请读者批评指正。建议和意见请发至作者邮箱[email protected]。
编者
2013年12月
在线试读
在大数据管理领域,开展了包括AstroDB、Myria、Nuage、CQMS、DataEco$y$tem和SQLShare6个有代表性的研究项目,其中AstroDB是计算机科学与工程系2008年以来一直与华盛顿大学天文学系共同合作的项目,旨在构建能够存储、管理、分析和处理天文学领域大数据的系统。Myria项目主要关注构建一个快速、灵活的大数据管理系统,将系统以云服务的形式对外暴露。Nuage项目关注大数据与云计算相关的技术问题,特别关注科学应用问题。CQMS关注辅助大数据系统使用的相关工具。Eco$y$tem项目关注大数据市场以及数据管理和定价等方面的问题。SQLShare是一个基于云计算技术的数据库即服务平台,关注关系数据库自动化使用方面的相关问题,包括安装、配置、数据库模式设计、性能调优和应用构建等问题。在大数据可视化方面,主要通过设计交互式可视化分析工具,增强数据的分析和交流能力,该项目涉及可视化、交互技术和评估技术的研究与系统实现等方面的问题。
在大数据架构和编程方面,主要研究在计算机系统结构、编程和系统层面上对大数据的支持,主要包括基于PCM(Phase-ChangeMemory)的存储系统研究、大规模非规则并行计算(如图分析等)、硬件多线程系统,等等。
在大数据系统方面,主要研究超大规模内存机器、大规模并行系统中的可预测尾延迟(predictabletail-latency)技术等。
在Web大数据方面,主要研究Web范围内的信息抽取系统,该系统能够读取Web上的任意文本数据,抽取有意义的信息,并将其存储到一个统一的知识库中,便于后续的查询工作。在人才培养和教育方面,计算机科学与工程系于2013年9月开始招收数据科学的博士学位(特别关注大数据问题)。华盛顿大学将利用整个大学的资源,打造一个跨学科的大数据方面的博士学位。除此以外,华盛顿大学还开设一个关于数据科学方面的认证项目,提供相关的教育与培训服务。
2.国内学术界大数据研究现状
(1)中国科学院
英特尔公司与中国科学院自动化研究所联合成立“中国英特尔物联技术研究院”,计划未来5年投资2亿元人民币,着力攻克大数据处理技术、传输技术和智能感知等物联网核心技术。该研究院还将与国际国内一流科研院所、院校和企业合作,建立一个开放式的研究中心。中国科学院软件研究所2012年5月31日承办了“走进大数据时代研讨会”。国内众多知名大学教授,及行业代表围绕大数据的相关议题展开共同探讨。分析了当前大数据的行业现状,大数据的最新动态及发展趋势。“大数据”概念正在引领中国互联网行业新一轮的技术浪潮。
(2)清华大学
清华大学计算机科学与技术系、地球系统科学研究中心等机构一直从事大数据方向的研究,取得了一些成果,包括清华云存储系统、大数据存储系统、大数据处理平台、社交网络云计算和海量数据处理系统,等等。
……
在大数据架构和编程方面,主要研究在计算机系统结构、编程和系统层面上对大数据的支持,主要包括基于PCM(Phase-ChangeMemory)的存储系统研究、大规模非规则并行计算(如图分析等)、硬件多线程系统,等等。
在大数据系统方面,主要研究超大规模内存机器、大规模并行系统中的可预测尾延迟(predictabletail-latency)技术等。
在Web大数据方面,主要研究Web范围内的信息抽取系统,该系统能够读取Web上的任意文本数据,抽取有意义的信息,并将其存储到一个统一的知识库中,便于后续的查询工作。在人才培养和教育方面,计算机科学与工程系于2013年9月开始招收数据科学的博士学位(特别关注大数据问题)。华盛顿大学将利用整个大学的资源,打造一个跨学科的大数据方面的博士学位。除此以外,华盛顿大学还开设一个关于数据科学方面的认证项目,提供相关的教育与培训服务。
2.国内学术界大数据研究现状
(1)中国科学院
英特尔公司与中国科学院自动化研究所联合成立“中国英特尔物联技术研究院”,计划未来5年投资2亿元人民币,着力攻克大数据处理技术、传输技术和智能感知等物联网核心技术。该研究院还将与国际国内一流科研院所、院校和企业合作,建立一个开放式的研究中心。中国科学院软件研究所2012年5月31日承办了“走进大数据时代研讨会”。国内众多知名大学教授,及行业代表围绕大数据的相关议题展开共同探讨。分析了当前大数据的行业现状,大数据的最新动态及发展趋势。“大数据”概念正在引领中国互联网行业新一轮的技术浪潮。
(2)清华大学
清华大学计算机科学与技术系、地球系统科学研究中心等机构一直从事大数据方向的研究,取得了一些成果,包括清华云存储系统、大数据存储系统、大数据处理平台、社交网络云计算和海量数据处理系统,等等。
……
评论
还没有评论。