描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111757016
数据资产化是大趋势,也是未来企业必须做的事情。而数据要想真正实现资产化,必须要有高质量的数据作为基础。数据血缘将成为高质量数据的最底层保障。数据血缘的重要性正在慢慢显现,建议所有数据相关的从业者都不要错过这波红利,也许这本书将为你的职业生涯打开新篇章。
这是一部可以帮助读者从0开始理解、建设并深度实践数据血缘及其系统的专业指导手册。全书所有内容均来自两位作者长期在世界500强企业从事数据相关工作的经验总结,书中不仅从原理层面带领读者深挖数据血缘本质,还有从实践层面对数据血缘的建设方法、核心技术、主流工具、在数据治理中的应用、典型行业应用案例进行了全方位剖析。本书得到了美国南卡罗来纳大学教授、DAMA大中华区主席、中国大数据技术标准推进委员会专家、招商蛇口数字化管理及运营负责人、PowerData社区主理人等多位业界专家的鼎力推荐。本书包括4篇14章,具体内容如下。概念篇从企业面临的主要数据问题入手,逐渐延伸到对数据血缘的相关定义、特征、价值,以及数据组成的深度解读。这部分是真正落地数据血缘项目的基础,只有充分理解了这部分内容,才知道如何与上下游沟通协作。建设篇先完整展示了一个可落地的数据血缘框架模型——“1355”框架模型,即1个周期、3种实体、5个类型、5个层级,这是数据血缘建设的基础模型;然后详细介绍了数据血缘实施路径,其中包括可能会面临的问题、具体建设方式和具体建设步骤。技术篇重点数据血缘相关技术和产品,以及数据血缘分析的主要应用场景——数据治理。其中,包括3大数据血缘应用场景、7大数据血缘核心技术、9款主流的数据血缘产品,以及数据血缘在数据治理中的深度实践。案例篇主要分享了互联网、服务、制造、零售快消等行业中数据血缘建设案例,帮助大家了解典型行业数据血缘的落地情况,以求获得一些启发。
目 录
前言
致谢
概念篇
第1章 走进数据血缘2
1.1 企业目前面临的问题与挑战2
1.1.1 互联网行业:数据安全面临
严峻挑战3
1.1.2 能源化工行业:数据共享互通能力待加强4
1.1.3 装备制造行业:产品数据采集难5
1.1.4 零售行业:数据分析势在必行5
1.1.5 建筑行业:大数据治理能力亟须提升6
1.1.6 从问题和挑战中找解决方案7
1.2 揭开数据血缘的面纱8
1.2.1 什么是数据和数据管理8
1.2.2 什么是数据血缘10
1.2.3 什么是数据血缘分析11
1.2.4 什么是数据血缘可视化14
1.2.5 数据血缘的特征16
1.2.6 与数据血缘相关的概念20
1.3 数据血缘分析是解决数据问题的灵丹妙药23
1.3.1 破除数据质疑23
1.3.2 数据变更影响范围快速评估24
1.3.3 数据资产价值评估度量工具25
1.3.4 为数据滥用加上一把“道德”
之锁26
1.4 本章小结27
第2章 数据血缘中的数据组成部分29
2.1 溯源血缘关系的重要依据—
元数据29
2.1.1 元数据的概念29
2.1.2 元数据的数据血缘特征31
2.2 确定血缘关系的黄金数据—
主数据32
2.2.1 主数据的概念32
2.2.2 主数据的数据血缘特征34
2.3 记录业务动态发生的数据—
业务数据35
2.3.1 业务数据的概念35
2.3.2 业务数据的数据血缘特征35
2.4 提供分析决策的重要成果—
指标数据36
2.4.1 指标数据的概念36
2.4.2 指标数据的数据血缘特征37
2.5 本章小结37
建设篇
第3章 数据血缘分析框架模型40
3.1 1个周期:数据全生命周期管理40
3.2 3种实体:数据血缘实体结构43
3.2.1 数据库血缘44
3.2.2 数据表血缘44
3.2.3 字段血缘46
3.3 5个类型:数据血缘分类48
3.3.1 逻辑血缘48
3.3.2 物理血缘48
3.3.3 时间血缘48
3.3.4 操作血缘48
3.3.5 业务血缘49
3.4 5个层级:构建基础平台,支撑
数据血缘分析49
3.4.1 血缘采集层50
3.4.2 血缘处理层52
3.4.3 血缘存储层52
3.4.4 血缘接口层53
3.4.5 血缘应用层53
3.5 本章小结57
第4章 数据血缘实施路径59
4.1 数据血缘实施过程中的问题与难点59
4.1.1 血缘质量不高59
4.1.2 实施路径不清晰61
4.1.3 数据血缘关系自动解析难62
4.2 数据血缘建设方式63
4.2.1 常见的3种建设方式的优劣势63
4.2.2 建设方式注意事项65
4.3 数据血缘建设步骤65
4.3.1 明确数据血缘目标66
4.3.2 制定数据血缘需求范围75
4.3.3 构建数据血缘系统77
4.3.4 完成数据血缘收集85
4.3.5 完成数据血缘初始化92
4.3.6 实现数据血缘的可视化93
4.4 本章小结98
技术篇
第5章 数据血缘分析应用100
5.1 数据开发应用场景100
5.2 数据资产应用场景102
5.3 数据安全应用场景103
5.4 本章小结106
第6章 数据血缘技术107
6.1 概述107
6.2 数据采集技术108
6.2.1 ETL技术应用108
6.2.2 SQL解析应用109
6.3 数据建模110
6.3.1 概念建模111
6.3.2 逻辑建模111
6.3.3 物理建模112
6.4 数据可视化技术112
6.4.1 数据可视化工具113
6.4.2 图形库和框架114
6.5 其他相关技术115
6.5.1 数据挖掘技术115
6.5.2 区块链技术116
6.5.3 人工智能技术117
6.5.4 大数据技术118
6.6 本章小结119
第7章 数据血缘产品121
7.1 国外主流数据血缘产品介绍121
7.1.1 开源的Apache Atlas平台121
7.1.2 社交网站LinkedIn的数据
平台123
7.2 国内主流数据血缘产品介绍126
7.2.1 马哈鱼数据血缘平台126
7.2.2 FineBI数据可视化工具129
7.2.3 亿信元数据管理平台129
7.2.4 飞算SoData数据机器人130
7.3 其他数据血缘产品介绍131
7.3.1 Informatica数据平台131
7.3.2 Alation数据平台131
7.3.3 Collibra数据平台132
7.4 本章小结133
第8章 数据治理中的数据血缘
应用134
8.1 数据治理体系简介134
8.1.1 数据管理、数据治理与数据
资产管理134
8.1.2 DAMA的数据治理体系136
8.1.3 DMM和DCMM138
8.1.4 华为的数据治理体系139
8.1.5 阿里的数据治理体系140
8.2 数据治理与数据血缘的关系140
8.3 数据血缘在数据治理中的应用141
8.3.1 数据血缘在数据质量提升中的
应用141
8.3.2 数据血缘在数据架构中的应用143
8.3.3 数据血缘在数据建模和设计
中的应用144
8.3.4 数据血缘在数据安全中的应用145
8.4 本章小结146
第9章 数据血缘的平
前 言
创作本书的初衷
我们发现,近年来,国内企业数字化程度节节高升。企业最初只是进行简单的数据线上化记录,后来发展到用数据做分析,用数据做决策,到现在用数据实现企业智能管理。随着技术的不断迭代更新,企业对数据有了更高的应用需求。越来越多的企业发现了数据潜在的巨大价值,加之数据被国家定义为新型的生产要素,这些都必然促使企业更加重视数据管理,追求更加准确完整的数据,以应对日益透明和激烈的市场竞争,提升企业的工作效率。要用好数据,就需要提高数据质量,而要提高数据质量,就必然会用到数据血缘分析。
数据血缘是近年来比较热的话题,从事数据相关工作的人员越来越注重数据血缘的价值和影响。但是数据血缘分析入门门槛较高,市面上相关的图书也比较少,这就导致很多从业者对数据血缘认知严重不足,比如我们经常看到有人会就数据血缘的定义、作用争吵不休,就更别提把数据血缘分析充分利用起来的方法论了。数据血缘的本质是什么?数据血缘的应用场景是什么?如何构建数据血缘分析系统?如何把数据血缘分析落地到数据管理工作中?这些成为当前急需解决的问题。作为多年的数据治理从业者,我们研究数据血缘很多年了,并且形成了自己的方法论。我们的方法论在多家公司进行过分享和实践,都取得了很好的效果。看到行业内存在上述痛点,我们产生了撰写这本书的想法。
读者对象
本书适合数据管理方向的从业者,包括数据治理人员、数据产品开发人员、数据资产/资源评估或管理人员、IT咨询顾问、数据架构师、系统分析师、商业智能架构师、信息化咨询顾问阅读。
本书亮点
要想真正做好数据血缘分析,并最终实现数据质量的提升,就必须从原理层面理解数据血缘的本质,掌握数据血缘分析的根本逻辑;要想真正把数据血缘分析落地到实际工作场景中,就必须给出可落地的数据血缘分析系统构建方法,给出落地到具体工作场景的具体指导,给出相关的工具。本书就是这样一本理论和实践兼备的图书。
原理层面,本书首先集中对数据血缘的本质、数据血缘的应用场景、数据血缘中的数据进行深度剖析,然后在后面的实践部分,也尽量先从原理层面对相应操作或产品进行本质分析;实践层面,本书不仅给出了数据血缘分析系统建设的方法论,还结合应用场景和典型案例对数据血缘分析落地方法进行了深入阐述。为了帮助初级读者快速把数据血缘分析用起来,本书甚至可以让读者按照书中的步骤操作,就搭建起自己的数据血缘分析系统。
本书主要内容
本书分为5篇,包括概念篇、建设篇、技术篇、案例篇和展望篇。全书采用由浅入深的介绍方式,从原理和实践两个角度对数据血缘及数据血缘分析进行深度剖析。其中概念篇主要带领读者整体认识数据血缘,揭开数据血缘的神秘面纱;建设篇重点介绍数据血缘分析系统的建设方法及步骤;技术篇介绍与数据血缘相关的技术及其应用方法,这是提升数据质量的关键,数据治理、数据资产管理相关人员需要重点关注这部分内容;案例篇对互联网、服务、制造、零售快消这几个具有代表性的行业的数据血缘落地案例进行深度解读,重点介绍优秀企业如何基于数据血缘进行数据管理;展望篇对数据血缘未来的价值和应用方向进行了预测。
致 谢
本书撰写历时整整3年,在这个过程中我们经历了开心、痛苦、迷茫……有时会因为灵感迸发感到兴奋,有时会因不知如何下笔感到苦恼,有时则会因要反复修改而感觉身心疲惫。当然,随着本书的出版,我们有的更多的是一种“怀胎十月”终于有了成果的幸福感、成就感。
在这里要感谢帮助我们完成本书的所有人。不知道有多少个夜晚,都有朋友在与我们通过语音或者视频讨论书中细节和内容的修改。如果没有大家的帮助和支持,就不会有本书的成功上市。
最后,也是最重要的,我要感谢我的父亲,感谢他对我的培养和无微不至的照顾,感谢他在本书写作过程中给予我的支持。当然,这本书也要献给我的母亲(汪惠玲),她是我最大的精神支柱。如果没有父母的鼓励,很难想象我能坚持完成本书的创作。希望我能成为你们的骄傲。
——成于念
关于本书,我最想说的应该是“感谢”,我想衷心感谢那些无私帮助我的领导和同事们。没有你们的鼎力支持,这本书就无法问世。
深深感谢我的搭档成老师。我们曾无数次讨论书中的内容,那些情景历历在目,为我留下了珍贵的回忆。感谢本书的编辑孙海亮老师,您的智慧和洞察力是本书的重要财富。
我还要衷心感谢那些无私支持我、为我付出的家人和朋友们。你们是我生命中的贵人,是我前进道路上坚实的支柱。没有你们的鼓励和理解,我无法完成本书的撰写工作。
在这本书中,我融入了自己多年的项目经验,希望我在数字化项目实践中获得的经验,能为那些坚守数字化工作的读者带来启发和指引。这些经验对我来说意义深远,如能对大家也有所帮助,我将万分高兴。
——赛助力
评论
还没有评论。