描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121401336
从规划到建设再到应用,一站式助力应用智能运维。
本书介绍了应用智能运维系统建设涉及的技术、工具、流程、方法,系统地总结了应用智能运维系统的演进过程,对比了市场主流的应用运维产品,分析了关键智能化应用运维技术、相关开源软件工具的能力和真实行业用户建设案例。另外,本书通过提炼、总结大量不同行业用户建设应用智能运维系统的典型应用场景,全面透彻地介绍了相关项目的规划、开发、实施过程,对企业应对未来数字信息时代应用运维场景下智能运维系统的建设和改造有较高的参考价值。
目 录
第1章 应用运维 001
1.1 初识应用运维 001
1.2 应用运维,保障企业应用稳定运行的关键 002
1.3 演进过程 004
1.3.1 软件性能工程 004
1.3.2 应用性能管理 006
1.3.3 网站可靠性工程 007
1.3.4 业务流程性能监控管理 008
1.3.5 用户数字体验监控 008
第2章 智能运维 011
2.1 初识智能运维 011
2.2 智能运维,赋予企业运维更强悍的大脑 012
2.3 演进过程 013
2.3.1 IT运维分析 014
2.3.2 事件关联分析 015
2.3.3 自动化运维 015
2.3.4 人工智能运维 015
2.3.5 开发运维一体化 017
第3章 智能、互联时代的应用运维 019
3.1 应用演进趋势 020
3.2 技术演进趋势 026
3.3 应用智能运维系统:企业数字战略的关键支撑 028
3.4 商业价值评估(ROI分析) 030
3.5 系统关键能力 039
?
第4章 应用运维智能化的关键技术 044
4.1 异常检测:筛选时间序列数据,发现潜在风险 045
4.1.1 技术简介 045
4.1.2 深入浅出应用实践 047
4.1.3 应用案例 053
4.2 关联分析:实现全景化应用监控的基础 056
4.2.1 技术简介 056
4.2.2 深入浅出应用实践 056
4.3 数据统计:敏捷高效的信息提取手段 058
4.3.1 技术简介 058
4.3.2 深入浅出应用实践 062
4.4 预测分析:使应用性能风险防患未然 065
4.4.1 技术简介 065
4.4.2 深入浅出应用实践 065
4.5 因果推理:专家经验辅助决策支持 067
4.5.1 技术简介 067
4.5.2 深入浅出应用实践 069
4.6 自治控制:应用运维过程的自动化管理 072
4.6.1 技术简介 072
4.6.2 深入浅出应用实践 074
第5章 应用智能运维工具图谱 079
5.1 开源工具 080
5.1.1 业务流程巡检拨测 080
5.1.2 应用请求链路追踪 084
5.1.3 存储海量监控数据 089
5.1.4 机器数据检索分析 093
5.1.5 人工智能算法支撑平台 094
5.1.6 应用监控数据可视化 102
5.1.7 告警及风险智能管理 111
5.2 商业化产品 114
5.2.1 Dynatrace:软件智能平台 114
5.2.2 AppDynamics:思科的战略新方向 115
5.2.3 NewRelic:让应用运维随需即取 116
5.2.4 RealSight APM:全景化应用智能管理 118
5.2.5 Datadog:深度分析应用性能 119
5.2.6 BigPanda:AIOps算法驱动应用自动化运维 121
5.2.7 Numenta NuPIC:类脑计算践行异常检测 122
第6章 立足实际需求,规划系统落地方案 124
6.1 前期准备 125
6.1.1 需求准备:理解企业现有的应用运维过程 125
6.1.2 应用准备:为目标应用的运行状态准确画像 129
6.1.3 人员准备:组建技术和管理专家团队 132
6.1.4 技术准备:储备运维智能化的关键技术 133
6.2 规划设计 138
6.2.1 围绕运维现状,规划建设愿景 138
6.2.2 多部门协作,规划服务质量目标 141
6.2.3 制订监控策略,设计SLO计算算法 141
6.2.4 专注过程,规划有效的风险管理机制 142
6.3 概念验证 143
6.3.1 围绕核心业务,验证用户数字体验监控方案 144
6.3.2 验证应用全栈监控数据采集技术 145
6.3.3 验证业务流程监控的可行性 146
6.3.4 验证趋势预测算法的可行性 147
6.3.5 验证根源问题分析算法的可行性 148
第7章 从零开始搭建应用智能运维系统 152
7.1 目标应用场景的定义 152
7.1.1 目标应用介绍 153
7.1.2 建设愿景规划 153
7.1.3 应用运维现状 154
7.2 规划设计 157
7.2.1 逻辑架构 158
7.2.2 部署架构 159
7.3 应用全栈监控数据采集 160
7.3.1 用户侧用户数字体验数据采集 163
7.3.2 应用可用性数据采集 167
7.3.3 业务流程数据采集 174
7.3.4 应用运行环境状态数据采集 188
7.4 搭建数据湖,存储运维大数据 189
7.4.1 时间序列指标数据存储 191
7.4.2 应用代码链路数据存储 193
7.4.3 链路、拓扑图等关系数据存储 194
7.4.4 数据湖存储与检索能力融合 196
7.5 实现全景视图的监控数据可视化 199
7.5.1 业务优先的应用全景可视化仪表盘 200
7.5.2 定义级联可视化人机交互界面 202
7.5.3 选择监控指标,定义告警策略 204
7.6 算法驱动,实现应用风险态势感知 207
7.6.1 时间序列监控指标的趋势预测 207
7.6.2 建立实时智能的异常检测能力 208
7.6.3 通过因果推理分析定位风险根源 214
7.7 应用风险告警的智能化管理 219
7.7.1 搭建智能化的告警管理框架 221
7.7.2 遍在数据接入,随时回溯数据、解释告警 223
7.7.3 智能合并告警,有效管理风险 224
7.7.4 应用风险根源分析的智能化 228
7.7.5 手机端主动探伤检测,防患未然 236
第8章 典型应用场景实践 238
8.1 开发运维一体化场景 238
8.1.1 需求背景 238
8.1.2 解决方案 239
8.2 应用运行环境的稳定性性能保障 240
8.2.1 需求背景 240
8.2.2 解决方案 241
8.3 基于微服务架构的应用性能监控 243
8.3.1 需求背景 243
8.3.2 解决方案 245
8.4 基于大数据架构的应用运维智能化 249
8.4.1 需求背景 249
8.4.2 解决方案 250
8.5 遍在接入的云应用运维智能化 252
8.5.1 需求背景 252
8.5.2 解决方案 254
8.6 互联网应用的用户数字体验保障 255
8.6.1 需求背景 255
8.6.2 解决方案 256
8.7 物联网应用运维场景 260
8.7.1 需求背景 260
8.7.2 解决方案 261
8.8 车联网应用运维智能化 267
8.8.1 需求背景 267
8.8.2 解决方案 271
8.8.3 应用案例 274
8.9 应用运行环境的异常检测 275
8.9.1 需求背景 275
8.9.2 解决方案 276
8.10 应用网络质量的预测与分析 277
8.10.1 需求背景 277
8.10.2 解决方案 278
第9章 行业案例实践 280
9.1 网联汽车 280
9.1.1 建设背景 280
9.1.2 解决方案 280
9.1.3 建设效果 282
9.2 能源电力 283
9.2.1 建设背景 283
9.2.2 解决方案 284
9.2.3 建设效果 284
9.3 广电传媒 285
9.3.1 建设背景 285
9.3.2 解决方案 285
9.3.3 建设效果 286
9.4 数字医疗 287
9.4.1 建设背景 287
9.4.2 解决方案 288
9.4.3 建设效果 289
9.5 电子政务 290
9.5.1 建设背景 290
9.5.2 解决方案 291
9.5.3 建设效果 292
9.6 银行保险 293
9.6.1 建设背景 293
9.6.2 解决方案 294
9.6.3 建设效果 294
9.7 食品快消 295
9.7.1 建设背景 295
9.7.2 解决方案 296
9.7.3 建设效果 296
前 言
我们正处在第三次信息技术浪潮的青萍之末,如今,几乎所有企业都面临如何利用新一代信息技术对外提升企业客户价值、对内优化生产流程的问题。虚拟化、云计算、大数据、物联网、人工智能、区块链等新技术如雨后春笋,新一代信息技术在金融、汽车、医疗等各行业落地应用的案例也层出不穷。
以智能、互联为主要特征的第三次信息技术浪潮将在提升生产力的同时,改变应用及其运维方式。物联网(Internet of Things,IoT)、车联网(Internet of Vehicle,IoV)等新一代信息技术已经开始改变产品或服务的设计、生产、营销、交付和售后支持过程。哈佛商学院院长迈克尔·波特教授预言,第三次信息技术浪潮将“有潜力成为目前影响最深远的技术浪潮,相比前两次会激发更多的创新,获取更大幅度的生产收益增长和经济增长”。
然而,新一代信息技术在赋能数字信息系统应用数据处理、智能决策支持和态势感知等能力以大幅度提升企业生产力的同时,系统自身复杂度急剧上升,应用运维难度和成本快速增加。更严重的是,很多企业在规划设计应用系统,或者在做互联网化系统升级改造的过程中,往往忽视对应用运行期的状态监视、风险管理、容量规划等运维保障系统和过程的建设,系统故障和宕机频率快速升高,人工运维成本飙升。
在数字时代,一切都依赖于应用系统稳定可靠的运行,缺少匹配新型信息系统应用的应用智能运维系统的支撑,新技术将很难发挥其应有的价值。要解决新技术演进带来的应用运维问题,则需要通过新技术来升级应用运维系统。目前,大多数企业都缺少能够应对未来来自应用运行期稳定性和性能方面的挑战的运维系统。为了帮助更多企业建设新一代应用智能运维平台,解决应用系统运维管理问题,将先进信息技术转化为生产力,本书从实际需求出发,总结分享了作者十余年来从事企业信息系统建设和运维的经验,介绍了如何利用算法运维、开发运维一体化、运维大数据分析等新一代智能化相关技术构建支撑未来企业信息化建设的应用智能运维系统。本书分别从技术发展演进路线、关键技术、系统建设实践、关键场景和行业应用案例等方面详细阐述了应用智能运维系统的建设思路、方法与策略。
本书第1章和第2章分别从应用运维和智能运维角度出发,梳理了运维技术发展的来龙去脉,简述了具有里程碑意义的运维工具和方法;第3章围绕信息技术发展趋势,详细分析了未来应用运维场景的新需求,以及建设智能化算法辅助运维系统的必要性;第4章和第5章相对全面地介绍了建设应用智能运维系统需要用到的关键技术和工具;第6章从企业实际需求出发,详述了系统规划建设需要做的前期准备、设计规划和概念验证的详细过程;第7章围绕一个具体案例,展开介绍了如何从零开始搭建完整的应用智能运维系统;第8章和第9章分别从典型场景和行业角度出发,分析了物联网、车联网、开发运维一体化等特定场景下运维需求的特点,总结了能源电力、广电传媒、数字医疗等行业面向具有超高复杂度的新一代应用系统的智能运维平台建设的要点和价值。
本书介绍的实战经验全部来自一线项目团队和产品研发团队的积累,每个项目建设过程都历经艰辛,这些经验来之不易,汇总梳理这些经验也耗费了大量的心血。在此,特别感谢东软集团RealSight APM 应用智能运维产品研发团队的崔喜龙、王占、石子凡、邹康、刘长东等在关键技术和产品研发方面的贡献;感谢英特尔大数据技术全球CTO、大数据和人工智能创新院院长戴金权(Jason Dai)与该院方案架构师乐鹏飞提供的技术支持及项目经验;感谢给我们提供宝贵需求、项目实施经验和验证环境的客户(包括中国航空、宝马中国、蒙牛集团、中国移动等),是你们赋予了技术社会价值,让产品研发团队和项目团队的工作更有意义。最后,感谢电子工业出版社的米俊萍编辑对本书认真负责的审阅,她帮助我们甄别了书中大量的错误和表述问题,让我们这些不善表达的技术人员写出的东西更通俗易懂。希望本书能帮助企业、政府在建设应用智能运维系统时少走一些弯路,同时为未来中国软件企业研发世界领先的国产应用运维软件提供一些参考。
本书的出版得到了国家重点研发计划项目“智能工厂工业互联网系统理论与技术”(2018 YFB1700100)及国家自然科学基金项目(61471084)的资助,在此表示感谢。
作 者
2020年2月25日
评论
还没有评论。