描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111728979
适读人群 :1.各种水平层次的专业运维人员。2.开发工程师、测试工程师、架构师等。本书认为运维能力是整体技术架构能力的体现,运维层面爆发的问题或故障,一定是整体技术架构中存在问题
(1)作者背景资深:嘉为科技是研发与运维一体化领域的头部企业,先后获得腾讯、红杉资本、钟鼎资本投资,腾讯蓝鲸战略合作伙伴。
(2)作者经验丰富:嘉为科技从事运维服务和研究20余年,为政府、金融、能源、交通、央国企、医疗、教育等行业的近千家客户提供服务。
(3)独创方法体系:以传统运维管理体系(PPTR)为基座,在融合数字化转型、ITIL4、DevOps、SRE以及敏捷精益思想的基础上,独创数字化运维管理体系 OPDM(Operation Process Data Measurement)。
(4)从零构建数字化运维一体化平台:详细讲解数字化运维一体化平台的8大要素和能力体系,及其建设路径和方法。
(5)13位运维专家力荐:工银科技副总侯志荣、腾讯蓝鲸创始人党受辉等13位运维专家高度评价并推荐。
这是一本能指导企业掌握数字化运维方法和构建数字化运维体系的著作。嘉为科技是运维领域的头部企业,在运维领域深耕20余年,本书既有嘉为科技实战经验和理论研究成果的总结,又有他们对未来数字化运维解决方案的新思考。
本书以传统运维管理体系(PPTR)为基座,在融合数字化转型、ITIL4、DevOps、SRE以及敏捷精益思想的基础上,首先提出了数字化运维管理体系 OPDM(Operation Process Data Measurement,平台化工具、高速化流程、数据化驱动、体系化度量),然后详细讲解了数字化运维一体化平台的建设路径和方法。
通过阅读本书,你将:
*深入理解“监”体系,全链路端到端的监控告警、可观测的服务感知体系。
*深入理解“管”体系,以应用为中心的CMDB配置管理方法论和数据闭环体系。
*深入理解“控”体系,通过自动化巡检、安全基线比对、补丁更新、应用发布、资源自动交付、多云管理等场景理解企业生产如何降本提效。
*深入理解“服”体系,从ITSM服务管理到ESM企业服务管理的逻辑演进。深入理解业务连续性保障能力建设,如灾备演练、应急服务、重保和护网服务等。
*深入理解“营”体系,运维度量指标体系到运营可视化展示的演进过程。
*深入理解“数”体系,通过运维大数据分析与治理能力建设,理解运维数据治理。
*深入理解“智”体系,探索智能运维体系的DAO模型,从数据管理、智能分析到场景服务,以及智能运维与生产场景的融合。
此外,书中给出的不同行业运维体系转型的真实案例,也为读者开展运维数字化转型工作提供了难得的参考和借鉴。
第1章 数字化时代的运维现状及挑战 1
1.1 国内外IT运维现状分析 1
1.1.1 国外IT运维现状分析 1
1.1.2 国内IT运维现状分析 3
1.2 数字化运维的价值重塑 5
1.3 数字化运维模式的挑战 7
第2章 数字化运维管理体系 9
2.1 传统运维管理体系模型 9
2.1.1 人员 10
2.1.2 流程 17
2.1.3 技术 20
2.1.4 资源 24
2.2 数字化运维管理体系模型 25
2.2.1 平台化工具 26
2.2.2 高速化流程 28
2.2.3 数据化驱动 31
2.2.4 体系化度量 34
2.3 数字化运维的建设思路 38
2.3.1 运维数字化转型的建设 38
2.3.2 运维组织的建设 40
2.3.3 运维服务管理的建设 41
2.3.4 运维工具的建设 42
2.3.5 数字化运维场景的演进 43
第3章 从运维管理到工具体系 45
3.1 从运维管理到工具体系的建设逻辑 45
3.1.1 运维管理和工具体系的关联分析 45
3.1.2 从运维管理到工具体系的拆解模型 47
3.1.3 运维工具体系的建设方法与原则 48
3.2 工具体系的平台化架构 49
3.2.1 单工具领域 49
3.2.2 组合工具领域 51
3.2.3 平台架构抽象 59
3.2.4 数据与AI加持 61
3.2.5 实践案例 65
第4章 数字化运维一体化平台 67
4.1 运维一体化平台的建设背景 67
4.1.1 业务与技术发展趋势 67
4.1.2 互联网中台建设浪潮 69
4.1.3 运维平台现状 70
4.2 运维一体化平台的能力要素 71
4.3 运维一体化平台的建设路径 73
4.3.1 平台建设的3个阶段 73
4.3.2 数据化和智能化 75
4.4 运维一体化平台的PaaS能力 76
4.4.1 PaaS的概念 76
4.4.2 PaaS的能力 76
4.4.3 iPaaS的能力 78
4.4.4 aPaaS的能力 79
第5章 可观测能力建设 81
5.1 可观测体系的发展 81
5.1.1 监控的发展历程 81
5.1.2 可观测理论 83
5.1.3 可观测价值驱动 88
5.2 可观测系统的建设方法 89
5.2.1 企业面临的可观测挑战 89
5.2.2 可观测系统的设计模式 90
5.2.3 可观测系统的建设路径 96
5.3 可观测系统落地实践 98
5.3.1 可观测工具体系设计 98
5.3.2 指标监控 104
5.3.3 日志建设 114
5.3.4 链路追踪 120
5.3.5 告警闭环 125
第6章 CMDB配置管理能力建设 137
6.1 传统CMDB建设方法剖析 137
6.1.1 CMDB的发展史 137
6.1.2 CMDB建设的失败原因 138
6.2 消费驱动的CMDB建设方法 139
6.2.1 CMDB的建设原则和实现方法 139
6.2.2 CMDB的建设目标与范围 140
6.2.3 与CMDB建设相关的角色和组织 141
6.2.4 CMDB模型管理 142
6.2.5 CMDB数据维护 151
6.2.6 CMDB运营与度量 159
6.2.7 CMDB工具选型 160
第7章 自动化运维能力建设 168
7.1 企业自动化运维现状与需求 168
7.1.1 企业自动化运维现状 168
7.1.2 企业自动化运维需求 172
7.2 自动化运维平台设计 175
7.2.1 自动化运维平台的设计理念 175
7.2.2 自动化运维平台的设计 176
7.2.3 常见的自动化运维场景设计 178
7.3 多云环境自动化运维 182
7.3.1 多云环境自动化运维的主要场景 182
7.3.2 多云环境自动化运维面临的挑战 183
7.3.3 多云环境自动化运维的要点 183
7.3.4 多云环境自动化运维的实践 186
第8章 敏捷ITSM能力建设 190
8.1 建设背景 190
8.1.1 VUCA时代的挑战 190
8.1.2 ITSM现状和挑战 191
8.2 关于敏捷 192
8.2.1 什么是敏捷 192
8.2.2 ITIL的发展 193
8.2.3 流程敏捷化的特性 194
8.2.4 敏捷流程打通组织的“经脉” 195
8.3 敏捷ITSM架构规划 196
8.3.1 业务设计 196
8.3.2 工具架构 197
8.3.3 关键能力 198
8.4 敏捷ITSM建设路径 199
第9章 统一运维门户能力建设 200
9.1 建设背景 200
9.2 一站式与个性化 201
9.3 架构规划 202
9.3.1 业务设计 202
9.3.2 工具架构 202
9.3.3 关键能力 203
9.4 实践案例 205
第10章 运维管理度量指标体系设计 207
10.1 度量指标体系概述 207
10.1.1 基本概念 207
10.1.2 建设原则 208
10.1.3 建设的必要性 208
10.1.4 度量指标体系要素 209
10.2 度量指标体系的设计 213
10.2.1 运维价值度量指标 213
10.2.2 运维服务体系度量指标 215
10.2.3 运维业务管理度量指标 218
10.2.4 运维工具建设成效度量指标 219
第11章 运维可视化能力建设 231
11.1 建设背景 231
11.2 工程可视化要求 233
11.2.1 实用性和高颜值 233
11.2.2 低成本和高效率 233
11.3 工具架构规划 233
11.3.1 业务设计 233
11.3.2 工具架构 233
11.3.3 关键能力 234
11.4 实践案例 238
第12章 运维数据治理能力建设 242
12.1 运维数据治理的背景与收益 242
12.1.1 运维数据治理的背景 242
12.1.2 运维数据治理的收益 243
12.2 运维数据治理的方法和技术落地 244
12.2.1 运维数据治理的方法 244
12.2.2 运维数据分析场景 248
12.2.3 运维数据治理的技术落地 250
12.3 运维数据治理体系建设 256
12.3.1 运维数据治理的管理模式 256
12.3.2 运维数据治理的组织架构 257
12.3.3 运维数据治理的管理流程 257
12.3.4 运维数据治理的技术平台 258
12.3.5 运维数据治理的质量管理 259
第13章 AIOps建设思路与场景应用 261
13.1 AIOps概述 261
13.1.1 AIOps的基本概念 261
13.1.2 AIOps的发展历程 262
13.1.3 AIOps成熟度模型 263
13.2 AIOps能力建设 268
13.2.1 AIOps整体建设思路 268
13.2.2 AIOps平台能力建设 269
13.2.3 AIOps场景能力建设 271
13.3 AIOps实践场景 274
13.3.1 单指标异常检测 274
13.3.2 日志聚类 277
13.3.3 日志异常检测 280
13.3.4 根因分析 285
13.3.5 告警关联分析 291
13.4 AIOps未来展望 294
第14章 业务连续性保障能力建设 296
14.1 IT应急管理能力建设 296
14.1.1 IT应急管理的相关理论 296
14.1.2 IT应急管理能力建设的挑战 299
14.1.3 IT应急管理的业务架构设计 300
14.1.4 IT应急管理平台设计 303
14.2 重保服务能力建设 308
14.2.1 重保专项活动的背景 308
14.2.2 重保组织与过程管控 309
14.3 护网服务能力建设 312
14.3.1 护网行动的背景 312
14.3.2 护网行动的主要工作及痛点分析 313
14.3.3 护网行动的应对方案 314
14.3.4 护网典型案例 315
第15章 运维管理体系转型落地的最佳实践 317
15.1 建设路径 317
15.1.1 自动化阶段 318
15.1.2 数据化阶段 322
15.1.3 智能化阶段 326
15.2 实践方法论 329
15.2.1 设定目标 329
15.2.2 实施步骤 333
15.2.3 实施注意事项 339
第16章 运维管理体系转型案例 344
16.1 某商业银行研运一体化建设案例 344
16.1.1 运维转型项目概述 344
16.1.2 绘制运维蓝图 345
16.1.3 权威的配置管理 347
16.1.4 统一的监控告警 348
16.1.5 运维能力服务化 348
16.2 某能源集团研运一体化建设案例 350
16.2.1 运维转型项目概述 350
16.2.2 建设统一运维平台 351
16.2.3 建设统一配置管理平台 353
16.2.4 实现运维的自动化 353
16.3 某高端制造企业研运一体化建设案例 355
16.3.1 运维转型项目概述 355
16.3.2 转型项目的量化指标 356
16.3.3 转型项目的建设内容 356
【为什么要写这本书】
数字化转型已经成为大势所趋,各行各业正朝着数字化方向转型,利用数字化转型方法论和前沿科学技术实现降本、提质、增效,从而提升竞争力。数字化转型是一项长期工作,包含的要素非常丰富,如数字化转型顶层设计、组织架构设计、领军人的数字化思想转型、前沿科技的应用、业务和技术的融合,真正做到流程打通、系统打通、数据打通和业务系统端到端联动融合。
如何实现业务与技术的融合?如何实现从业务到研发、运维、运营的全链路端到端数据闭环?传统烟囱式的研发系统、运维系统、运营系统已经无法满足当今数字化转型的需要,各行各业的运维人员都急需一套适用于数字化时代的运维管理方法论和一个数字化运维一体化平台。嘉为科技过去20年在数字化运维方面做了大量探索和尝试,形成了一套数字化运维管理方法论和一个数字化运维一体化平台,供大家学习和参考。
【读者对象】
各行业IT/科技部门管理人员,如CIO(首席信息官)、CTO(首席技术官)、总工程师、数据中心高管、运维总监、运维管理人员。
各行业从事运维工作的人员,如运维工程师、运维架构师等。
企业架构师、售前架构师、产品经理,以及运维管理体系的研究者和爱好者。
【主要内容】
本书共16章内容,具体介绍如下。
第1~3章介绍运维数字化转型的现状与挑战,并提出数字化运维一体化架构,基于传统的运维管理模型PPTR衍生出新一代数字化运维管理模型OPDM,同时介绍运维管理到工具体系的演进逻辑。
第4~12章着重介绍数字化运维一体化平台和八大能力中心的建设,包含可观测能力、CMDB配置管理能力、自动化运维能力、敏捷ITSM能力、统一运维门户能力、运维管理度量指标体系、运维可视化能力以及运维数据治理能力的建设。
第13、14章介绍数字化运维一体化平台的AIOps前沿技术和业务连续性保障能力。前沿技术包含AIOps的概念、能力建设、实践场景;业务连续性保障能力包含IT应急管理能力、重保服务能力、护网服务能力三大板块。
第15、16章介绍运维管理体系转型落地的最佳实践,以及运维管理体系转型案例,深度剖析了某商业银行、某能源集团、某高端制造企业在数字化运维管理体系落地后的效果。
这本书既有嘉为科技过去二十年行业服务经验和理论研究成果的总结,又有他们对未来数字化运维解决方案的新思考。
——侯志荣 工银科技有限公司副总经理
希望有更多像嘉为科技这样的乙方企业,基于研运一体化 PaaS 底座构建自己的产品体系,为各行业甲方提供质量、效率、成本、安全的维度提升。
——党受辉 腾讯IEG技术运营部助理总经理/腾讯蓝鲸创始人
本书是嘉为科技运维数字化转型实践的经验总结,不仅介绍了数字化运维的管理体系和工具体系,还从自动化、可观测、稳定性、数据治理、AIOps等多个方面详细阐述了相关能力建设的落地实践,是近年来能够体系化讲解运维领域知识的佳作。
——赵舜东(赵班长) 新运维社区发起人
本书站在运维架构师的视角,系统性地提出了运维数字化能力建设的底层逻辑和演进路线,以最佳实践应对最强挑战。
——姜超 人保集团人保科技数据中心平台管理处处长
本书的内容涵盖了IT运维技术的多个方面,包括数字化运维转型、建设CMDB方法论、ITSM服务能力、IT运维可视化建设等,描绘了一张完整的知识地图。
——韩斌 港华集团CIO
本书沉淀了嘉为科技在数字化运维一线的实践经验,从组织SRE转型、一体化工具建设、流程规范制定等方面提供了可行的落地指引。
——林恩华 中国移动云能力中心(苏研)南区支撑中心 总经理
本书基于传统运维体系基础模型 PPTR,提出了新一代数字化运维体系模型 OPDM,构建以业务为核心的一体化运维管理体系,最大程度降低企业的运营风险,提高企业的运维管理效率,并为企业高速推进数字化转型升级提供助力。
——孙杰 北京鸿雪信息科技有限公司CTO
—-
本书以嘉为科技在数字化运维建设方面的深入见解为基础,提出业务驱动、数据驱动的智慧运维机制,融合组织、人员、制度与流程要求,形成平台一体化架构与运维场景最佳实践的完整体系,能为运维人员提供IT运维架构建设的方法论与实用途径。
——董志国 广州市公共交通集团有限公司科信部部长/粤港澳自动驾驶秘书长
本书系统地介绍运维体系的构建和变化,从分散型运维到一体化运维,从传统关注流程、脚本、后台监控到数字化、平台化、可视化的运维,能帮助运维人员形成IT运维体系化思维和应变性素养,从容应对系统所有确定性和不确定性的挑战!
——汤成 广东联合电子服务股份有限公司 副总经理
本书融合了ITIL v4、DevOps、敏捷等先进的理念,提出了一个全新的数字化运维体系模型——OPDM,模型涉及从度量到工具建设,再延展到流程改进和持续运营,同时给出了不同发展阶段的定义,是一个宏大的框架。在这个框架模型的指导下,前面提到的运维管理困境或可以得到理想的解答。
——石鹏 美图公司高级运维经理
我在浙江移动的IT运维领域探索了20多年,也深刻体会到运维数字化转型必须充分发挥运维团队的技术要素和数据要素的优势,所以特别认同从平台化工具、高速化流程、数据化驱动、体系化度量四个维度来构建运维数字化体系的实践方法,也给我带来了很多新的启发。
——王晓征 中国移动首席专家
IT运维全面升级,数字化、工程化、一体化是必然的升级。在升级过程中,要建立统一管控体系能力,通过数据去驱动,不仅强调单项技术更要重视工程能力,最终目标是让数字化生产过程更加高效可靠。本书为建立这样的体系提供了全面指导,也介绍了很多实用的工具,读者拿来用或借鉴自研都是很好的参考。
——张观石 虎牙前SRE架构师/《SRE原理与实践:构建高可靠性互联网应用》作者
云原生时代,企业运维体系数字化转型至关重要,本书包含丰富的运维体系建设理论依据,以及运维平台化、监控、CMDB和运维自动化等方面的内容,还包括可度量、可视化、可治理方面的实践,推荐给需要建设企业运维体系及进行运维体系转型的小伙伴。
——张晋涛 API7.ai云原生技术专家/Apache APISIX PMC
评论
还没有评论。