fbpx

[email protected]

购物车

 查看订单

  • 我的帐户
东东购 | EasternEast
  • 中文书店
    • 畅销排行榜
      • 小说 畅销榜
      • 童书 畅销榜
      • 外语畅销榜
      • 管理畅销榜
      • 法律畅销榜
      • 青春文学畅销榜
    • 热门分类
      • 社会小说
      • 成功/励志 畅销榜
      • 人物传记
      • 大陆原创
      • 绘本童书
      • 影视小说
    • 文学推荐
      • 文集
      • 戏剧
      • 纪实文学
      • 名家作品
      • 民间文学
      • 中国现当代随笔
    • 新书热卖榜
      • 小说 新书热卖榜
      • 青春文学 新书热卖榜
      • 童书 新书热卖榜
      • 管理 新书热卖榜
      • 成功/励志 新书热卖榜
      • 艺术 新书热卖榜
  • 精选分类
    • 小说
    • 保健养生
    • 烹饪/美食
    • 风水/占卜
    • 青春文学
    • 童书
    • 管理
    • 成功/励志
    • 文学
    • 哲学/宗教
    • 传记
    • 投资理财
    • 亲子家教
    • 动漫/幽默
    • 法律 Legal
    • 经济 Economics
    • 所有分类
  • 关于东东
  • 帮我找书
搜索
首页计算机/网络数据库数据清洗

数据清洗

本书是一本专门针对数据清洗工作的需要而编写的一本实操性非常强的一本技术参考书,本书给出了大量案例和实操步骤,使初学者很快能掌握数据清洗的方法,快速上手从事数据清洗工作。本书既是数据清洗初学者的自学教材

作者:刘鹏 张燕 李法平 陈潇潇 出版社:清华大学出版社 出版时间:2018年06月 

ISBN: 9787302493273
年中特卖用“SALE15”折扣卷全场书籍85折!可与三本88折,六本78折的优惠叠加计算!全球包邮!
trust badge

EUR €38.99

类别: 研究生/本科/专科教材, 数据库 SKU:5d84a1315f9849104541a6ef 库存: 有现货
  • 描述
  • 评论( 0 )

描述

开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302493273丛书名: 大数据应用人才培养系列教材

产品特色

编辑推荐
数据清洗是大数据技术不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,把“脏”的数据变为“干净”的数据。本书详细讲解了ETL技术方法和常用工具、常用的数据清洗工具、数据抽取、数据转换与加载、对Web数据的采集、对RDBMS数据的清洗操作。目前市面上此类书还很少,对数据清洗从业人员是一本不可多得的技术参考书,也可以作为应用型院校的课程教材。  
内容简介
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。
本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。
本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程教学,也适用于希望了解数据清洗的广大读者。
作者简介
李法平- 副教授/系统分析师,硕士,重庆电子工程职业学院软件学院移动应用开发教研室主任,主要从事高职软件类专业教学研究、教育信息化系统和企业信息化系统等应用技术研究。
目  录

第1章  数据清洗概述 1

1.1  数据清洗简介 1

1.1.1 
数据科学过程 1

1.1.2 
数据清洗定义 2

1.1.3 
数据清洗任务 3

1.1.4 
数据清洗流程 4

1.1.5 
数据清洗环境 5

1.1.6 
数据清洗实例说明 6

1.2  数据标准化 7

1.2.1 
数据标准化概念 7

1.2.2 
数据标准化常用方法 8

1.3  数据仓库简介 9

1.3.1 
数据仓库定义 9

1.3.2 
数据仓库组成要素 10

1.3.3 
数据仓库分类 11

1.3.4 
数据仓库相关技术 12

1.3.5 
常用工具简介 13

1.4  习题 14

第2章  数据格式与编码 16

2.1  文件文本格式 16

2.1.1 
常见文本格式 17

2.1.2 
xls及xlsx文件格式 18

2.1.3 
JSON文本格式 19

2.1.4 
HTML和XML文本格式 19

2.2  数据编码 20

2.2.1 
数据类型 21

2.2.2 
数据类型间转换 25

2.2.3 字符编码 26

2.2.4 
空值和乱码 28

2.3  数据转换 28

2.3.1 
电子表格转换 29

2.3.2 
RDBMS数据转换 30

2.4  习题 30

第3章  基本技术方法 31

3.1 
ETL入门 31

3.1.1 
ETL解决方案 31

3.1.2 
ETL基本构成 33

3.1.3 
ETL技术选型 35

3.2  技术路线 35

3.2.1 
文本清洗路线 35

3.2.2 
RDBMS清洗路线 36

3.2.3 
Web内容清洗路线 36

3.3 
ETL工具 37

3.3.1 
ETL功能 37

3.3.2 
开源ETL工具 38

3.4 
ETL子系统 39

3.4.1 
抽取 39

3.4.2 
清洗和更正数据 39

3.4.3 
数据发布 40

3.4.4 
管理ETL 41

3.5  习题 41

第4章  数据清洗常用工具及基本操作
42

4.1 
Microsoft Excel数据清洗基本操作 42

4.1.1 
Excel数据清洗概述 42

4.1.2 
Excel数据清洗 53

4.2 
Kettle简介及基本操作 57

4.2.1 
Kettle软件概述 57

4.2.2 
Kettle基本操作 60

4.2.3 
Kettle数据清洗实例操作 64

4.3 
OpenRefine简介及基本操作 68

4.3.1 
OpenRefine软件概述 69

4.3.2 
OpenRefine基本操作 70

4.3.3 
OpenRefine数据清洗实例操作 73

4.4 
DataWrangler简介及基本操作 80

4.4.1 
DataWrangler软件概述 80

4.4.2 
DataWrangler基本操作 81

4.4.3 
DataWrangler数据清洗实例操作 82

4.5 
Hawk简介及基本操作 86

4.5.1 
Hawk软件概述 86

4.5.2 
Hawk基本操作 88

4.5.3 
Hawk数据清洗实例操作 91

4.6  上机练习与实训 98

4.7  习题 103

第5章  数据抽取 104

5.1  文本文件抽取 104

5.1.1 
制表符文本抽取 107

5.1.2 
CSV文件抽取 111

5.2 
Web数据抽取 114

5.2.1 
HTML文件抽取 114

5.2.2 
JSON数据抽取 116

5.2.3 
XML数据抽取 120

5.3  数据库数据抽取 123

5.3.1 
数据导入导出 123

5.3.2 
ETL工具抽取 124

5.3.3 
SQL到NoSQL抽取 127

5.4  上机练习与实训 135

5.5  习题 143

第6章  数据转换与加载 144

6.1  数据清洗转换 144

6.1.1 
数据清洗 145

6.1.2 
数据检验 151

6.1.3 
错误处理 156

6.2  数据质量评估 161

6.2.1 
数据评估指标 161

6.2.2 
审计数据 163

6.3  数据加载 164

6.3.1 
数据加载的概念 164

6.3.2 
数据加载的方式 164

6.3.3 
批量数据加载 165

6.3.4 
数据加载异常处理 165

6.4  上机练习与实训 166

6.5  习题 173

第7章  采集Web数据实例 175

7.1  网页结构 175

7.1.1 
DOM模型 175

7.1.2 
正则表达式 178

7.2  网络爬虫 181

7.2.1 
网络爬虫简介 181

7.2.2 
网络爬虫异常处理 189

7.3  行为日志采集 190

7.3.1 
用户实时行为数据采集 190

7.3.2 
用户实时行为数据分析 193

7.4  上机练习与实训 195

7.5  习题 198

第8章  清洗RDBMS数据实例 199

8.1  准备工作 199

8.1.1 
准备待清洗的数据集 200

8.1.2 
搭建操作环境 200

8.1.3 
数据导入MySQL 201

8.2  数据库数据清洗 205

8.2.1 
缺失值清洗 205

8.2.2 
格式内容清洗 209

8.2.3 
逻辑错误清洗 214

8.2.4 
非需求数据清洗 217

8.3  数据脱敏处理 218

8.4  习题 222

参考文献 223

附录A  大数据和人工智能实验环境
224

附录B  Hadoop环境要求 234

附录C  名词解释 236

前  言
前  言      随着信息技术的发展和科技的进步,人类步入了大数据时代。作为当前高科技时代的产物,大数据由大量结构化、半结构化和非结构化数据组成,它需要经过采集、清洗、存储、分析、建模、可视化等过程加工处理之后,才能真正产生价值。数据清洗是大数据技术不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,把“脏”的数据变为“干净”的数据。本书共分8章,下面分别对每章内容进行简单介绍。第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等知识点。通过本章的学习,读者能够初步认识数据清洗、数据标准化及数据仓库。第2章为数据格式及编码,主要介绍Windows和类UNIX操作系统下的数据常规格式,如文本格式、xls及xlsx格式、JSON、XML、HTML等,并针对数据的类型、数据编码及字符集进行了阐述,后介绍格式间的相互转换,包括电子表格转换、数据库数据转换等。通过本章的学习,了解当前主流的数据格式、数据编码及格式间相互转换等知识。第3章为数据清洗基本技术方法。本章从ETL技术出发,介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等知识。通过本章的学习,进一步了解数据清洗的概念、技术路线及主要功能。第4章为数据清洗常用工具及基本操作。介绍了Microsoft Excel数据清洗操作步骤、Kettle安装使用及操作步骤、OpenRefine的安装使用及操作步骤、DataWrangler的安装使用及操作步骤、Hawk网页数据采集的方法及操作实例。通过本章的学习,掌握当前市面主流的数据清洗工具的使用,为后面进行数据清洗做必要的准备工作。第5章为数据抽取。本章以Kettle开源工具为载体,介绍文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等知识。通过本章的学习,能够掌握借助Kettle实现文本文件抽取、网页文本抽取、数据库数据的导入导出、关系数据库到NoSQL的抽取转换及增量抽取等。第6章为数据转换与加载。本章详细介绍数据清洗步骤、数据检验、错误处理、数据质量评估及数据装载等知识。通过本章的学习,掌握数据清洗具体方法和数据转换过程中的数据检验、错误处理等,以及数据加载和批量加载技术。第7章为采集Web数据实例,介绍了网页结构、网络爬虫、行为日志数据采集等知识。通过本章的学习,了解网络爬虫技术采集Web数据的方法以及行为日志分析方法。第8章为清洗RDBMS数据实例,介绍了RDBMS的数据清洗方法和数据脱敏处理技术,使读者进一步掌握关系型数据库清洗方法和敏感数据脱敏处理技巧。本书的编写和整理工作由数据清洗教材编写组和南京云创大数据科技股份有限公司完成,主要参与人员有王海涛、于澄、岳宗辉、徐佩锋、秦毅、葛斌、文华、朱堂勋、陈潇潇、付雯等。全体成员在近一年的编写过程中付出了辛勤的汗水,在此由衷感谢。本书的问世也要感谢清华大学出版社王莉编辑给予的宝贵意见和支持。尽管我们付出了的努力,但教材中难免存在不妥之处,欢迎各界专家和读者朋友提出宝贵意见,我们将不胜感谢。您在阅读本书时,如发现任何问题或不认同之处,可以通过电子邮件与我们联系。
 李法平   2017年12月
书摘插画
插图

插图

插图

插图

插图

插图

抢先评论了 “数据清洗” 取消回复

评论

还没有评论。

相关产品

加入购物车

基于Python的大数据分析基础及实战

EUR €43.99
评分 5.00 / 5
阅读更多
缺货

SQL必知必会(第4版)

EUR €20.99
加入购物车

MongoDB设计模式(影印版)

EUR €23.99
阅读更多
缺货

高性能MySQL(第3版)

EUR €73.99

东东购的宗旨是服务喜爱阅读中文书籍的海外人民,提供一个完善的购书平台,让国人不论何时何地都能沉浸在书香之中,读着熟悉的中文字,回忆着家乡的味道。


安全加密结账 安心网络购物 支持Paypal付款

常见问题

  • 货物配送
  • 退换货政策
  • 隐私政策
  • 联盟营销

客户服务

  • 联系东东
  • 关于东东
  • 帮我找书
  • 货物追踪
  • 会员登入

订阅最新的优惠讯息和书籍资讯

选择币别

EUR
USD
CAD
AUD
NZD
NOK
GBP
CHF
SEK
CNY
UAH
ILS
SAR
MXN
KRW
MYR
SGD
HUF
TRY
JPY
HKD
TWD
facebookinstagram
©2020 东东购 EasternEast.com

限时特卖:用“SALE15”优惠券全场书籍85折!可与三本88折,六本78折的优惠叠加计算。 忽略