描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302508779丛书名: 全国计算机技术与软件专业技术资格(水平)考试指定用书
全书共12章,主要介绍了信息系统运维与管理的基本概念,以及从信息系统设施、软件、数据和安全等方面论述了信息系统运维的主要内容和流程,通过应用案例介绍了物联网、云计算、银行、大型网站和智能工厂等典型信息系统的运维管理,另外还给出了信息系统开发的用户支持信息和标准化的相关基础知识。
本书既可以作为高等院校信息管理与信息系统、电子商务、计算机等相关专业的教材或者教学参考书,也可以作为信息系统运维技术人员与管理人员的参考用书。
目
录
第1章 信息系统运维概述… 1
1.1 信息系统概述… 3
1.1.1 信息的含义和类型… 3
1.1.2 信息系统… 7
1.1.3 信息系统的影响因素… 12
1.2 信息系统运维… 15
1.2.1 信息系统运维的概念… 15
1.2.2 信息系统运维的框架… 17
1.2.3 信息系统运维的要求… 21
1.3 信息系统运维的发展… 24
1.3.1 信息系统运维的发展现状… 24
1.3.2 信息系统运维的发展阶段… 26
1.3.3 信息系统运维的发展趋势… 28
1.4 常见的信息系统… 31
1.4.1 财务系统… 31
1.4.2 办公自动化系统… 33
1.4.3 业务处理系统… 35
1.4.4 生产管理系统… 37
1.4.5 ERP系统… 43
1.4.6 客户关系管理系统… 47
1.4.7 人力资源系统… 49
本章要点… 51
思考题… 51
第2章 信息系统运维的组织与管理… 52
2.1 信息系统运维的管理… 52
2.1.1 信息系统运维管理体系框架… 52
2.1.2 信息系统运维管理主要流程… 54
2.1.3 信息系统运维管理制度… 65
2.1.4 信息系统运维管理系统与专用
工具… 66
2.2 信息系统运维的组织… 66
2.2.1 信息系统运维的任务… 66
2.2.2 信息系统运维管理的职责… 73
2.2.3 信息系统运维人员的管理… 77
2.2.4 信息系统运行管理制度的建立
与实施… 79
2.2.5 信息系统的运维模式… 81
2.2.6 系统运行的文档管理… 82
2.2.7 系统运行的故障管理… 84
2.3 信息系统运维的外包… 96
2.3.1 信息系统运维外包的概念… 96
2.3.2 信息系统运维外包的模式… 97
2.3.3 信息系统运维外包的内容… 98
2.3.4 信息系统运维外包的风险管理… 100
2.4 信息系统运维管理标准… 102
2.4.1 ITIL. 103
2.4.2 COBIT. 104
2.5 信息系统运维管理系统与专用工具… 104
2.5.1 信息系统运维管理系统功能
框架… 104
2.5.2 运维管理系统… 112
2.5.3 运维管理专用工具… 113
2.6 信息系统运维管理的发展——
云运维管理… 115
2.6.1 云运维管理概述… 115
2.6.2 云运维管理的功能… 116
本章要点… 118
思考题… 118
第3章 信息系统设施运维… 119
3.1 信息系统设施运维的管理体系… 119
3.2 信息系统设施运维的环境管理… 121
3.2.1 计算机机房设计… 121
3.2.2 计算机机房的环境条件… 123
3.2.3 电气系统… 128
3.2.4 空调系统… 132
3.2.5 消防与安全系统… 133
3.2.6 系统支撑环境的参照标准… 134
3.3 信息系统设施运维的内容… 134
3.3.1 例行操作运维… 135
3.3.2 响应支持运维… 143
3.3.3 优化改善运维… 151
3.3.4 咨询评估运维… 154
3.4 信息系统设施的故障诊断与修复… 155
3.4.1 主要故障原因与现象… 156
3.4.2 故障排除步骤… 157
3.4.3 故障诊断方法… 159
3.4.4 故障诊断与修复原则… 160
3.4.5 故障诊断与恢复注意事项… 161
3.5 信息系统设施运维系统与专用工具… 162
3.5.1 信息系统设施运维管理系统功能… 162
3.5.2 典型信息系统设施运维典型
专用工具… 166
3.6 云环境下的信息系统设施运维… 171
3.6.1 云环境下信息系统设施运维的
优势… 171
3.6.2 云环境下信息系统设施运维的
挑战及要求… 172
本章要点… 173
思考题… 173
第4章 信息系统软件运维… 174
4.1 信息系统软件运维概述… 174
4.1.1 信息系统软件运维的概念… 174
4.1.2 信息系统软件的可维护性及
维护类型… 174
4.1.3 信息系统软件运维的体系… 176
4.1.4 信息系统软件运维的趋势
——DevOps. 178
4.2 信息系统软件运维的管理… 180
4.2.1 管理流程… 180
4.2.2 人员… 180
4.2.3 资源… 181
4.2.4 技术… 182
4.2.5 过程… 183
4.2.6 运维策划… 183
4.2.7 运维实施… 183
4.2.8 运维检查… 183
4.2.9 运维改进… 184
4.2.10 文档管理… 184
4.3 信息系统软件运维的过程… 185
4.3.1 日常运维… 185
4.3.2 缺陷诊断与修复… 189
4.3.3 配置管理… 192
4.3.4 变更管理… 194
4.3.5 系统恢复管理… 195
4.3.6 发布管理… 196
4.4 信息系统软件运维系统与专用工具… 197
4.4.1 信息系统软件运维系统的功能… 197
4.4.2 信息系统软件运维专用工具… 198
本章要点… 199
思考题… 200
第5章 信息系统数据资源维护… 201
5.1 信息系统数据资源维护体系… 201
5.1.1 数据资源维护的管理对象… 202
5.1.2 数据资源维护的管理类型… 202
5.1.3 数据资源维护的管理内容… 203
5.2 信息系统数据资源例行管理… 204
5.2.1 数据资源例行管理计划… 204
5.2.2 数据资源载体的管理… 205
5.2.3 数据库例行维护… 207
5.2.4 Oracle数据库监控… 211
5.2.5 SQL Server监控… 224
5.3 信息系统数据资源备份… 236
5.3.1 数据资源备份类型… 236
5.3.2 常用备份相关技术… 238
5.3.3 某公司数据备份管理制度实例… 242
5.4 云环境下的数据资源存储及维护… 245
5.4.1 云存储技术… 245
5.4.2 云环境下的数据资源维护… 246
5.5 信息系统数据资源的开发与利用… 247
5.5.1 数据仓库… 247
5.5.2 数据挖掘… 247
5.5.3 数据挖掘在电子商务中的应用… 248
5.5.4 数据挖掘在应用中面临的问题… 250
5.5.5 Web数据挖掘技术… 252
本章要点… 255
思考题… 255
第6章 信息系统安全… 256
6.1 信息系统安全概述… 256
6.1.1 信息系统安全的概念… 256
6.1.2 影响信息系统安全的因素… 257
6.1.3 信息系统安全等级保护
标准体系… 258
6.1.4 信息系统安全保护等级… 258
6.2 信息系统硬件的安全运维… 262
6.2.1 硬件安全运行的概念… 262
6.2.2 硬件安全运行的影响因素… 263
6.2.3 硬件安全运行的措施… 263
6.3 信息系统软件的安全运行… 265
6.3.1 软件安全运行的概念… 265
6.3.2 软件安全运行的影响因素… 266
6.3.3 软件安全运行的措施… 268
6.4 信息系统数据的安全… 272
6.4.1 数据安全的概念… 272
6.4.2 数据安全的影响因素… 273
6.4.3 保证数据安全的措施… 274
6.4.4 云环境下的数据安全… 276
6.5 信息系统安全管理… 278
6.5.1 信息安全管理体系… 278
6.5.2 灾难备份与灾难恢复… 287
6.5.3 涉密信息系统安全管理… 290
本章要点… 292
思考题… 292
第7章 物联网、云计算运维… 293
7.1 物联网运维… 293
7.1.1 物联网的概念及特征… 295
7.1.2 物联网的体系结构… 295
7.1.3 物联网RFID关键技术… 296
7.1.4 物联网WSN关键技术… 299
7.1.5 物联网运维系统体系结构… 300
7.2 云计算运维… 310
7.2.1 云计算的概念… 312
7.2.2 云计算体系结构… 312
7.2.3 云计算数据中心发展历史… 314
7.2.4 构架数据中心的关键技术… 317
7.2.5 不同实现层次上的虚拟化… 318
7.2.6 基于ITIL的数据中心运维的
实现一服务运营… 319
7.2.7 基础设施拓扑视图… 320
7.2.8 虚拟化管理… 320
7.2.9 银行卡组织云运维平台案例… 322
本章要点… 326
思考题… 327
第8章 银行信息系统运维… 328
8.1 银行信息系统… 328
8.1.1 银行信息系统目标… 328
8.1.2 银行信息系统功能… 329
8.1.3 银行信息系统结构… 330
8.2 某银行信息系统实例… 331
8.2.1 系统架构… 332
8.2.2 网络监控管理… 333
8.2.3 系统应用监控… 340
8.2.4 统一事件平台… 354
8.2.5 统一性能管理… 363
8.2.6 监控可视化… 364
8.2.7 综合管理… 366
8.2.8 系统接口与集成方案… 371
8.2.9 系统扩展性设计… 374
8.3 银行灾备体系… 376
8.3.1 灾备体系参考框架… 376
8.3.2 灾备体系建设步骤… 378
本章要点… 379
思考题… 379
第9章 大型网站运维… 380
9.1 大型网站概述… 380
9.1.1 大型网站分类… 380
9.1.2 大型网站的特点… 381
9.1.3 大型网站架构的演化… 382
9.2 大型网站运维背景知识… 389
9.2.1 大型网站运维的定义… 389
9.2.2 运维工作师需要什么样的
技能及素质… 390
9.2.3 运维关键技术点… 392
9.3 政府门户网站运维案例分析… 393
9.3.1 运维服务总则… 393
9.3.2 运维团队组织… 396
9.3.3 运维服务内容… 401
本章要点… 419
思考题… 420
第10章 智能工厂… 421
10.1 智能工厂的定义… 421
10.1.1 工业4.0提出的时代背景… 422
10.1.2 当前全球制造业面临的四大
挑战及应对方法… 422
10.1.3 工业4.0相关概念… 423
10.1.4 工业4.0的应用意义与逻辑… 423
10.1.5 西门子公司实例… 425
10.1.6 智能工厂的基本架构… 426
10.1.7 智能工厂管理需求… 427
10.1.8 智慧制造的特征… 427
10.2 智能工厂架构实例… 427
10.3 某重工智能工厂案例… 432
10.3.1 业务系统… 433
10.3.2 业务分析… 434
10.4 智能工厂车间生产案例… 437
10.4.1 项目目标… 437
10.4.2 适用规范标准… 438
10.4.3 功能简介… 439
10.4.4 系统解决方案… 443
10.4.5 系统运行环境… 447
10.4.6 系统技术架构… 447
思考题… 450
第11章 信息系统开发的用户支持信息… 451
11.1 用户支持信息系统建设的意义… 451
11.2 对系统分析工作的支持… 451
11.2.1 系统分析阶段的目标和任务… 451
11.2.2 系统用户对系统分析的支持… 452
11.3 对系统设计工作的支持… 456
11.3.1 系统设计阶段的目标和任务… 456
11.3.2 系统用户对系统设计的支持… 457
11.4 对系统测试工作的支持… 461
11.4.1 系统测试阶段的目标和任务… 461
11.4.2 系统用户对系统测试的支持… 463
11.5 对系统转换工作的支持… 466
11.5.1 系统转换的任务… 466
11.5.2 系统转换的方式… 466
11.5.3 系统转换的实施… 467
本章要点… 472
思考题… 472
第12章 标准化基础知识… 473
12.1 标准化及其体系结构… 473
12.1.1 标准化概念… 473
12.1.2 标准化学科… 474
12.1.3 标准化层级… 475
12.1.4 标准化系统… 476
12.1.5 现代标准化… 476
12.1.6 信息资源管理的标准化… 478
12.2 标准分类与分级… 479
12.2.1 标准分类… 479
12.2.2 我国的标准分级… 479
12.2.3 标准的代号与编号… 480
12.3 信息系统标准化… 483
12.3.1 信息系统代码标准化… 483
12.3.2 信息系统数据交换标准化… 484
12.3.3 信息系统开发标准化… 485
12.3.4 信息系统文档标准化… 485
12.3.5 信息系统安全标准化… 487
12.4 标准化机构… 487
12.4.1 国际标准化组织… 487
12.4.2 国际电工委员会… 488
12.4.3 国际电信联盟… 488
12.4.4 我国的标准化机构… 489
12.4.5 信息技术标准化组织… 490
本章要点… 491
思考题… 492
参考文献… 493
编 者 2018.4.8于河北大学
图3-1 信息系统设施运维的管理体系 1.信息系统设施运维的对象 信息系统设施运维的对象主要包括基础环境、硬件、网络、基础软件等。 (1)基础环境:主要包括信息系统运行环境(机房、设备间、配线室、基站、云计算中心等)中的空调系统、供配电系统、通信应急设备系统、防护设备系统(如消防系统、安全系统)等,能维持系统安全正常运转,确保机房环境满足信息系统运行要求的各类基础设施。 (2)网络:主要包括通信线路、通信服务、网络设备及网络软件。 通信线路即网络传输介质,主要有双绞线、同轴电缆、光纤等;通信服务即网络服务器,网络控制的核心是通过运行网络操作系统,提供硬盘、文件数据及打印机共享等服务功能;网络设备即计算机与计算机或工作站与服务器连接时的设备,主要包括网络传输介质互连设备(T型连接器、调制解调器等)、网络物理层互连设备(中继器、集线器等)、数据链路层互连设备(网桥、交换机等)、应用层互连设备(网关、多协议路由器等),以及跨层的入侵检测器、负载均衡器等;网络软件是指支撑网络设备运转的软件。 网络运维的四个对象是紧密关联的,例如,运维人员在面对用户反映“网络不通”问题的时候,往往会发现问题可能不是出在通信线路上,而是由通信服务、网络设备或网络软件引起的。网络运维中的关键不是针对具体设施对象的管理,而是能够满足网络运维需要的快速定位问题。 (3)硬件:主要包括服务器、安全设备、存储备份设备、音视频设备、终端设备及其他相关设备等,其中为关键的是服务器设施,包括Web服务器、应用服务器、邮件服务器、文件服务器、FTP服务器、DHCP服务器、DNS服务器、打印传真服务器、 数据库服务器、域服务器等。对于不同规模的信息系统其服务器的分布也不尽相同,例如,小型企业可能将Web服务器和应用服务器合二为一,大中型企业可能采取多个服务器集群完成文件服务器的任务或采用基于云计算的分布式服务器管理模式。 (4)基础软件:主要包括操作系统、数据库系统、中间件及其他支撑系统。《信息系统技术服务规范》中将硬件设备又划分为计算机系统设备和外围设备,其中计算机系统设备是指一套可独立完成信息处理的自动化数据处理系统(这里将网络专用服务器的计算机系统纳入网络设备范畴);外围设备指的是信息系统中除计算机主机外的其他设备,包括输入和输出设备,如打印机、磁盘驱动器、外置大容量存储设备等。 2.信息系统设施运维的内容 信息系统设施运维主要包括信息系统设施的例行操作运维、响应支持运维、优化改善运维和咨询评估运维等内容,具体内容参见3.2节。 3.信息系统设施运维的制度 信息系统设施运维应建立健全的制度体系并依照执行,具体制度按照运维对象主要有机房管理制度、网络基础设置管理制度、子网管理制度、数据存储设施管理制度、基础软件管理制度等;按照运维过程管理主要有设施运维人员和岗位职责管理制度、外来维护人员管理制度、运维记录管理制度、设备巡检、维护作业计划管理制度等。 4.信息系统设施运维的人员 信息系统设施运维的人员包括管理人员、技术支持人员和具体操作人员,对各类人员的岗位要求如表3-1所示。表3-1 信息系统设施运维人员的技术要求运维对象管理人员技术支持人员具体操作人员基础环境具有丰富的运维服务项目管理经验,并有IT服务管理相关的中、高级培训认证证书熟练掌握机房基础设施相关设备的安装、调试、配置和维护,拥有相关设备系统的中、高级培训认证证书熟练掌握相关设备系统的操作文档,并经过相关专业系统的操作培训和资格认证网络设备
熟练掌握相关网络设备、系统的安装、调试、配置和维护,拥有相关设备系统的中、高级培训认证证书熟练掌握网络及网络设备相关操作文档,并经过培训考核硬件设备
熟练掌握相关服务器、存储器的安装、调试、配置和维护,拥有相关设备系统的中、高级培训认证证书熟练掌握服务器及存储相关操作文档,并经过培训考核基础软件
熟练掌握相关软件的安装、调试、配置和维护,拥有相关软件的中、高级培训认证证书;熟悉数据产生、处理的关键环节,并了解数据输入、输出、处理的相关步骤熟练掌握基础软件相关操作文档,并经过培训考核3.2 信息系统设施运维的环境管理3.2.1 计算机机房设计 电子计算机系统是当前各种信息系统的基础运行环境,而计算机机房则是电子计算机系统的基础支撑环境。计算机机房是为计算机系统服务的,而计算机系统又是为某一应用目的而工作的,因此,计算机机房工程的设计既要满足计算机设备自身的要求,又要满足计算机应用目的的要求。为了确保信息系统稳定、安全、可靠地运行,以及充分保障信息系统运行管理工作人员有良好的工作环境,做到技术先进、经济合理、安全适用、确保质量,因此必须以科学化、标准化的思想进行电子计算机机房的设计和建设。 1.计算机机房的选址要求 电子计算机机房的地理位置一般应该选择水源充足,电力比较稳定可靠,交通通信方便,自然环境清洁的地点;要远离产生粉尘、油烟、有害气体以及生产或贮存具有腐蚀性、易燃、易爆物品的工厂、仓库、堆场等;要尽量远离强振源和强噪声源;要避开强电磁场干扰,远离电气铁道、高压线路、变电所、微波发射塔等强电强磁设施,如确实无法避开强电磁场干扰,为保障计算机系统的信息安全,应采取有效的电磁屏蔽措施。 计算机机房应选择坚固、宽敞、洁净、通风、有防雷击设施等条件较好的房间。如果是多层建筑或高层建筑物内宜设于第二、三层,应尽可能选用除顶层和底层以外的房间。要保证机房内有足够的空间安装所配设备并满足系统运行要求,一般使用面积少不低于60平方米。除主机房外,还应配有必要的附属用房,并有合理的结构。 2.计算机机房的布局要求 电子计算机机房的布局组成应按计算机系统运行特点及设备具体要求确定,一般应该由主机房、基本工作间、类辅助房间、第二类辅助房间、第三类辅助房间等组成。电子计算机机房的使用面积应根据计算机设备的外形尺寸布置确定。基本工作间和类辅助房间面积的总和,宜等于或大于主机房面积的1.5倍。上机准备室、外来用户工作室、硬件及软件人员办公室等可按每人3.5~4m2计算。 系统的各种设备宜采用分区布置,一般可分为主机区、存储器区、数据输入区、数据输出区、通信区和监控调度区等。具体划分可根据系统配置及管理而定。需要经常监视或操作的设备布置应便利操作。容易产生尘埃及废物的设备应远离对尘埃敏感的设备,并宜集中布置在靠近机房的回风口处。主机房内通道与设备间的距离应符合下列规定:① 两相对机柜正面之间的距离不应小于1.5m;② 机柜侧面(或不用面)距墙不应小于0.5m,当需要维修测试时,则距墙不应小于1.2m;③ 走道净宽不应小于1.2m。 3.计算机机房的建筑要求 电子计算机机房的建筑平面和空间布局应具有适当的灵活性,主机房的主体结构宜采用大开间大跨度的柱网,内隔墙宜具有一定的可变性。主机房净高,应按机柜高度和通风要求确定,宜为2.4~3.0m;机房的楼板荷载可按5.0~7.5kN/m2设计。电子计算机机房主体结构应具有耐久、抗震、防火、防止不均匀沉陷等性能,变形缝和伸缩缝不应穿过主机房。主机房中各类管线宜暗敷,当管线需穿楼层时,宜设技术竖井。室内顶棚上安装的灯具、风口、火灾探测器及喷嘴等应协调布置,并应满足各专业的技术要求。机房围护结构的构造和材料应满足保温、隔热、防火等要求。机房各门的尺寸均应保证设备运输方便。 电子计算机机房宜设单独出入口,当与其他部门共用出入口时,应避免人流、物流的交叉,入口至主机房应设通道,通道净宽不应小于1.5m。电子计算机机房宜设门厅、休息室和值班室。人员出入于机房和基本工作间应更衣换鞋。主机房和基本工作间的更衣换鞋间使用面积应按班人数的每人1~3m2计算;当没有条件单独设更衣换鞋间时,可将换鞋、更衣柜设于机房入口处。 电子计算机机房的耐火等级应符合现行国家标准《高层民用建筑设计防火规范》《建筑设计防火规范》及《计算站场地安全要求》的规定。主机房、基本工作间及类辅助房间的装饰材料应选用非燃烧材料或难燃烧材料。当计算机机房与其他建筑物合建时,应单独设防火分区。计算机机房的安全出口,不应少于两个,并宜设于机房的两端。门应向疏散方向开启,走廊、楼梯间应畅通并有明显的疏散指示标志。 4.计算机机房的室内装饰要求 主机房室内装饰应选用气密性好、不起尘、易清洁,并在温、湿度变化作用下变形小的材料,并应符合下列要求:① 墙壁和顶棚表面应平整,减少积灰面,并应避免眩光。② 应铺设活动地板,活动地板应符合现行国家标准《计算机机房用活动地板技术条件》的要求。敷设高度应按实际需要确定,宜为200~350mm。③ 活动地板下的地面和四壁装饰,可采用水泥砂浆抹灰。地面材料应平整、耐磨。当活动地板下的空间为静压箱时,四壁及地面均应选用不起尘、不易积灰、易于清洁的饰面材料。④ 吊顶宜选用不起尘的吸声材料,如吊顶以上仅作为敷设管线用时,其四壁应抹灰,楼板底面应清理干净;当吊顶以上空间为静压箱时,则顶部和四壁均应抹灰,并刷不易脱落的涂料,其管道的饰面,亦应选用不起尘的材料。 基本工作间、类辅助房间的室内装饰应选用不起尘、易清洁的材料。墙壁和顶棚表面应平整,减少积灰面。装饰材料可根据需要采取防静电措施。地面材料应平整、耐磨、易除尘。主机房和基本工作间的内门、观察窗、管线穿墙等的接缝处,均应采取密封措施。电子计算机机房室内色调应淡雅柔和。当主机房和基本工作间设有外窗时,宜采用双层金属密闭窗,并避免阳光的直射。当采用铝合金窗时,可采用单层密闭窗,但玻璃应为中空玻璃。当主机房内设有用水设备时,应采取有效的防止给排水漫溢和渗漏的措施。 机房应远离噪声源,当不能避免时,应采取消声和隔声措施。主机房内不宜设置高噪声的空调设备,当必须设置时,应采取有效的隔声措施。当第二类辅助房间内有强烈振动的设备时,设备及其通往主机房的管道,应采取隔振措施。3.2.2 计算机机房的环境条件 1.温度 计算机机房室内温度要适当并维持在稳定状态,温度过高或过低都会影响计算机系统的正常工作。如果工作环境温度过高,特别是在南方气候炎热的夏天,很容易造成系统内部元器件的温度过高,轻者计算机系统工作不正常、死机,重者将烧毁部件。如果工作环境温度过低,过低的室温会引起凝聚和结露现象,从而引起器件生锈,温度过低还会使绝缘材料变硬、变脆。 机房的温度应保持在15℃~35℃,安装空调来调节温度是解决此问题的办法。对于没有条件安装空调的单位来说,假如机器已超频的话,在炎热的季节就应该把频率降下来了。其次要注意机房的通风,上机时尽量开窗开门,并借助于电风扇进行通风。机房室内布局要合理,各个设备之间不应该靠得太挤,保持一定的距离以保证正常散热,并且尽量为CPU选用合格的功能强的风扇。 2.湿度 计算机机房室内湿度也要适当并维持在稳定状态,湿度过高或过低同样会影响计算机系统的正常工作。在计算机开关机和工作期间,若空气中的湿度过高,会引起电路板涨大变形,难以插拔;高温潮湿的条件还会使金属生锈、腐蚀而发生漏电、短路故障;湿度过高还会增加触点的接触电阻,影响机器的正常运行,使机器提前老化。若湿度过低,则极易产生静电,在低湿度的机房中,人在地板上行走、触摸设备、机械的摩擦部分等都会产生静电感应,对机器设备的正常工作带来不利影响。工作室里的湿度应保持在20%~80%为宜,在雨水季节要特别注意防水、防潮,对于长期间不使用的计算机要定期开机一段时间,以驱除机器内部的潮气,防止结露。为此计算机机房应配备湿度检测仪、除湿机、增湿机,定时测试空气中的湿度,以保证计算机在安全适宜的环境中工作。 电子计算机机房内温、湿度应满足下列要求,开机时主机房的温、湿度应执行A级,基本工作间可根据设备要求按A、B两级执行,其他辅助房间应按工艺要求确定。 (1)开机时电子计算机机房内的温、湿度,应符合表3-2的规定。表3-2 开机时电子计算机机房内的温、湿度项 目A级
B级
夏 季冬 季全 年 温度 (23±)℃ (20±2)℃ (18~28)℃ 相对湿度 45%~65% 45%~70% 温度变化率 <5℃/h 并不得结露 <10℃/h 并不得结露 (2)停机时电子计算机机房内的温、湿度,应符合表3-3的规定。表3-3 停机时电子计算机机房内的温、湿度项 目A级B级 温度 (5~35)℃ (5~35)℃ 相对湿度 40%~70% 20%~80% 温度变化率 <5℃/h 并不得结露 <10℃/h 并不得结露 (3)记录介质库的温、湿度应符合下列要求,常用记录介质库的温、湿度应与主机房相同,其他记录介质库的要求应按表3-4的规定。表3-4 记录介质库的温、湿度和磁场强度要求项 目介 质磁 盘磁 带
卡片纸带已记录数据未记录数据已记录数据未记录数据温度(5~40)℃
(18~28)℃(0~40)℃(18~28)℃(0~40)℃相对湿度30%~70%40%~70%20%~80%20%~80%磁场强度
<3200A/m<4000A/m<3200A/m<4000A/m 3.照明 计算机机房内要有足够的光照度,无眩光,亮度要均匀。照度是计算机机房环境设计中十分重要的环节,也是保证计算机操作人员工作环境的重要指标,照度标准应符合下列规定。 (1)主机房的平均照度可按200Lx、300Lx、500Lx取值。 (2)基本工作间、类辅助房间的平均照度可按100Lx、150Lx、200Lx取值。 (3)第二、三类辅助房间应按现行照明设计标准的规定取值。 照度的选择应符合表3-5的规定。表3-5 照度的选择 平均照度(Lx)机房类型200(100)300(150)500(200)间歇运行√
持续运行
√
连续运行
√无窗建筑
√√ 表中括号内的照度为类辅助房间照度取值。其他照度为主机房照度取值。第二、三类辅助房间按照现行照明设计标准的规定取值。工作区内一般照度的均匀度(照度与平均照度之比)不宜小于0.7,非工作区内一般照度的均匀度不宜小于0.2。计算机机房故障照明照度为一般照明的1/10,安全出口标志灯照度不低于0.5Lx。 计算机机房眩光是操作人员产生视觉疲劳的重要原因,对眩光的限制可以分为如表3-6所列的三级。表3-6 眩光限制等级划分眩光限制等级眩 光 程 度适 用 场 所Ⅰ 无眩光 主机房、基本工作间Ⅱ 有轻微眩光 类辅助房间Ⅲ 有眩光感觉 第二、三类辅助房间 主机房、基本工作间可以采用下列措施限制工作面上的反射眩光和作业面上的光幕反射。 (1)使视觉作业不处在照明光源与眼睛形成的镜面反射角上。 (2)采用发光表面积较大,亮度低,光扩散性好的灯具。 (3)视觉作业处家具和工作房间内应采用无光泽表面。 如果计算机机房照度等级以及眩光限制等级确定以后,参照下表3-7可以进行电光源的 选择。表3-7 电光源的选择光 源 种 类光源平均亮度 1(×10cd/m)眩光限制等级遮 光 角管状荧光灯1<20Ⅰ20°
Ⅱ、Ⅲ10°透明玻璃白炽灯1>500Ⅱ、Ⅲ20° 4.防尘 计算机机房要求环境清洁无尘,因为灰尘对计算机的危害极大,如果平时不注意计算机的保养,到一定时间后,机箱内肯定会积满积尘。由于计算机在运行的过程中会产生很多的热量,而计算机散热都是采用风冷方式,这样空气中的灰尘就乘虚而入了。显示器工作时内有高压,会吸引空气的尘埃。水分和腐蚀物质会随着灰尘进入机器内,吸附在电子元件上,一方面它会使电子元件散热能力下降,另一方面,由于灰尘中含有水分,电子元件会变得潮湿甚至发生腐蚀。灰尘吸附在电路板表面,会使相邻印制线间的绝缘电阻下降,影响电路的正常工作,严重的还会引起短路故障,烧坏电源、主板和其他部件。我国颁布的《电子计算机机房设计规范》中明确提出“主机房内的空气含尘浓度,在静态条件下测试,每升空气中大于或等于0.5μm的尘粒数,应少于18000粒”。 预防灰尘的主要措施有: (1)要注意保持微机房的清洁卫生,机房内应该设有吸尘器。 (2)不要在操作计算机时吸烟,烟脂对计算机的损坏是非常大的。 (3)使用完计算机后都要盖上防尘罩或者罩布。 (4)要定时清除计算机内的灰尘,可以先用吹风机将表面的灰尘吹尽,然后用无水酒精洗去上面较多的灰尘,对于一些很裸露的元器件好是用散热硅油,在其表面轻轻涂上一层。对于显示器进行清洁一定要注意先断开电源,用镜头纸由屏幕中心向外擦拭。 (5)清洁显示器内部,应由有关专业人员进行操作,以免破坏显像管,造成损失。 5.防静电 因为半导体设备对静电非常的敏感,电子元件可能受静电的影响而发生性能的下降和不稳定,从而引发各种故障。静电不仅会对计算机运行出现随机故障,而且还会导致某些元器件,如CMOS、MOS电路,双级性电路等的击穿和毁坏。此外,还会影响操作人员和维护人员的正常的工作和身心健康。 防止静电的措施主要有: (1)保持室内一定的湿度,防止静电荷聚集。 (2)室内地面可铺设耐磨地砖或活动防静电地板,切忌铺设一般胶地板、地毯。 (3)计算机外设与地线要保持良好的接触,设置符合防静电要求的接地装置,接地装置可利用可靠的自然接地物,也可专门埋设接地物。 (4)安装接插件或更换电子元器元件时,先用手接触金属,释放掉人体所带的静电电荷后再进行操作。 (5)操作计算机时不要穿尼龙化纤织品衣服。 6.防磁 磁场主要会对显示器和数据存储产生影响。在计算机机房中,首先要注意显示器防磁,一些磁性物体靠近显示器所形成的磁场反比地球磁场更有害,受到磁性不良影响的显示器可能会出现明显的屏幕晃动、水波纹、色斑、亮度不均匀、图形几何畸变等故障。所以显示器一定要注意远离磁性物体,如电话机、音箱、收录机、永久磁铁等等。 防磁的具体解决方案有: (1)避开电磁场,计算机应尽量安装在远离电话机、音箱、收录机、永久磁铁等地方。 (2)远离高压线。 (3)将计算机和其外部设备的金属外壳接地,以起到屏蔽作用。 (4)定期对显示器进行消磁。 7.防雷 由于机房通信和供电电缆多从室外引入机房,易遭受雷电的侵袭,机房的建筑防雷设计尤其重要。在中心机房所在的建筑物应当安装独立的避雷针、避雷网将整个中心机房所在的建筑物保护起来,将电流引入地下,现在有的建筑师把建筑物本身的钢筋作为雷电流引下线,这对于计算机通信设备较少的机房也是一种合理的方法,所有进入中心机房的金属管道,外壳,交换机柜,中心路电器应联成统一的电气整体,并与专门的统一地网相连。计算机通信电缆的芯线,电话线均应加装避雷器。 8.防强光、防有害气体 不要把计算机放在强光照射的地方,因为计算机的机身受阳光或强光照射,时间长了,容易老化变黄,而且计算机的显示屏幕在强烈光照下也会老化,降低发光效率。为了避免造成这样的结果,就必须把计算机摆放在日光照射较弱或者没有光照的地方;或者在光线必经的地方,挂块深色的布减轻它的光照强度;墙面应采用浅色装修,反射系数应控制在60%以内。另外,在使用的过程中,在用户允许的范围内应尽可能降低显示器的亮度。设置屏幕保护程序以防止荧光粉长期发光而提前老化。 大气中有各种腐蚀性、导电性气体及冶炼、化工等工业排出的有害气体。例如,二氧化氮、一氧化碳、硫化氢等,这些气体不仅对人体会造成极大的危害,而且对机器设备也有腐蚀作用。因此机房要远离有害的化学气体,在化工厂附近的,计算机机房应装有空气过滤设备。另外,机房内也会产生一些有害气体,因此平时还要注意机房的经常性通风。 9.防水 由于计算机机房内大多数是电子设备,必须注意防水。与主机房无关的给排水管道不得穿过主机房。主机房内的设备需要用水时,其给排水干管应暗敷,引入支管宜暗装。管道穿过主机房墙壁和楼板处,应设置套管,管道与套管之间应采取可靠的密封措施。机房内的给排水管道必须有可靠的防渗漏措施,暗敷的给水管道宜用无缝钢管,管道连接宜用焊接。主机房内如设有地漏,地漏下应加设水封装置,并有防止水封破坏的措施。机房内的给排水管道要采用难燃烧材料保温。机房应根据设备、空调、生活、消防等对水质、水温、水压和水量的不同要求分别设置循环和直流给水系统。循环冷却水系统应按有关规范进行水质稳定计算,并采取有效的防蚀、防腐、防垢及杀菌措施,循环冷却水管可采用工程塑料管或镀锌钢管。 10.防鼠 在计算机机房设计时也应充分考虑鼠害,因为一方面老鼠可能咬断电线电缆,损坏设备;另一方面,老鼠的残留,会导致机房不清洁,严重的还可能导致断路断电。鼠害的防治应从两方面进行: (1)计算机机房铺设线路时,应采用防鼠性能好的材料; (2)机房内应禁止放食品、饮料等,一旦发现鼠踪,应及时采用一些方法将其消灭。3.2.3 电气系统 1.电气系统基本要求 计算机机房的电气系统是信息系统运行支撑环境中的重要组成部分,伴随着生产自动化水平的逐渐提高以及计算机在工程中的广泛应用,对电气系统设计的要求也就越来越高。概括起来,其基本要求可以归结为以下四个方面。 (1)保证计算机系统运行的可靠性 计算机系统是由许多复杂的高密度组装的电子器件组成的中央处理机(CPU)以及高精密的外部设备组成的。由于其系统的复杂性决定了计算机系统的某一环节很难避免发生故障。因此计算机系统的可靠性问题成为影响计算机发展与应用的核心问题。而计算机机房工程的可靠性与机房环境、供配电、接地等因素是密不可分的,对供配电系统和接地系统而言,如果处理不得当,诸如电网过渡引发直流电源振荡将会使计算机在运行过程中,该为“0”的变成“1”,使软件出现“奇偶位错误”,影响计算机系统的可靠运行,诸如此类的例子不胜枚举。 (2)保证计算机系统的设计寿命 对计算机机房内静电的影响而言,静电可以通过人体、导体触及计算机可导电外壳时,有可能击穿其电子器件而使计算机出现偶然性故障及器件损坏。 (3)保证信息安全的要求 据有关资料介绍,大部分计算机运行时频率介于0.16~400MHz,如果供电电源质量没有保证,供电频率超出计算机要求的稳态频率偏移范围,将降低计算机抗干扰能力,辐射到空间的信息将面临有可能被干扰,被篡改,甚至被窃取的危险。 (4)保证计算机操作人员的工作环境 诸如计算机机房照明之类,如果处理得当,将会大大提高操作人员的工作效率,减缓操作人员的视疲劳程度,减少操作上的误动作。 在做计算机机房电气系统设计时,应该严格执行国家的有关规范和标准,如《电子计算机机房设计规范》GB50174—1993等。 2.供配电系统 由于供电网络和负载的复杂性以及自然界雷击、地电等的影响,供给负载的交流电并不是稳定的标准的正弦波,由此既可能引发键盘锁定、硬件老化等相对较轻的不良影响,也可能导致数据完全丢失(如突然断电导致)或主板燃烧等较大事故。因此计算机房设计时计算机电源应该使用专用的线路,不要与其他大功率电器一起使用。电子计算机机房的用电负荷等级和供电要求应满足《供配电系统设计规范》GB50052—1995,其供配电系统应采用电压等级220V/380V,频率工频50Hz或中频400~1000Hz的TN-S或TN-C-S系统,电子计算机的主机电源系统按设备的要求确定。电子计算机机房供配电系统应考虑系统扩展、升级的可能,并应预留备用容量。 电网的供电质量对计算机系统的正常运行具有十分重要的意义,而供电质量主要包括以下几个方面,根据电子计算机的性能、用途和运行方式(是否联网)等情况可以划分为A、B、C三级,如表3-8所示。表3-8 供电质量等级划分供 应 量等 级
ABC稳态电压偏移范围/(%)±2±5+7~13稳态频率偏移范围/Hz±0.2±0.5±1电压波形畸变率/(%)3~55~88~10允许断电持续时间/ms0~44~200200~1500三相电压不平衡度/(%)0.511.5 为了提高电网的供电质量,计算机机房的供配电系统设计应该注意以下事项。 (1)机房容量较大时,应设置专用电力变压器,容量较小时,可采用专用低压馈电线路供电。 (2)电子计算机电源设备应靠近主机房设置。 (3)机房内其他电器的电力负荷不得由计算机主机电源和UPS供电。主机房内为计算机设备宜设置专用动力配电箱,与其他负荷应分别供电。 (4)单相负荷应均匀地分配在三相上,三相负荷不平衡度应小于20%。 (5)计算机电源系统应限制接入非线性负荷,以保持电源的正弦性。 为提高计算机设备的供配电系统可靠性,当有下列具体要求情况时,理想的技术措施是在配电设备前端增加交流不间断电源系统UPS。 (1)对供电可靠性要求较高,采用备用电源自动投入方式或柴油发电机组应急自启动方式仍不能满足要求时。 (2)一般稳压、稳频设备不能满足要求时。 (3)需要保证顺序断电安全停机时。 (4)电子计算机系统实时控制时。 (5)电子计算机系统联网运行时。 不间断电源UPS(Uninterruptible Power Supply)具有稳频稳压的功能,而且具有抗干扰能力。配备UPS主要起到两个作用:一是为计算机系统提供备用电源,目的是防止电网供电突然断电时保持短时间的供电,让用户有时间来保存文件,然后正常关机,这对计算机和各种设备起到了很好的保护作用。二是消除电网供电上的“污染”(包括浪涌、波动、脉冲、噪声等),使计算机中的电子部件免受摧毁性损坏。 对于信息中心机房,为保证计算机系统连续运行,充分发挥UPS的作用,对市电电源供应采用一级供电,好用一路备用线路,保证计算机可以连续运行(因为UPS一般多只能维持7~8小时,如遇较长时间停电,则计算机系统无法运行,信息系统运行将发生停滞)。为确保电压恒定,好在入机房电源之间增加联络,以尽量减少停电时间。 UPS基本是由整流器、蓄电池、静态开关等组成。UPS的本机占地面积并不大,但需配有蓄电池组则占地面积就要扩大,另外它的自重较大,所以在安排机房时应特别予以考虑其重量因素(在UPS放置的位置要对地板要加固,在地板铺置的地方应予以考虑)。UPS因发热量较大,噪音也不小,其本身内部结构紧凑,清洁困难,服务器机房通风要好,还要注意防尘与 隔音。 3.设备选型 计算机机房内设备选型从形式上虽然没有具体要求,但根据《低压配电设计规范》GB50054—1995,并结合上述计算机设备的供配电特性,应注意以下几点。 (1)专用配电箱内保护和控制电器的选型应满足规范和设备的要求。 (2)专用配电箱应有充足的备用回路,用以计算机系统的扩容。 (3)专用配电箱进线断路器应设置分离脱扣器,以保证紧急情况下,切断所有用电设备 电源。 (4)专用配电箱设置电流、电压表以监测三相不平衡度。 (5)专用配电箱设置足够的中线和接地端子。 4.综合布线 由于计算机机房内部的各种电气设备很多,在进行综合布线时应该注意以下几点: (1)电子计算机机房的电源进线应按照《建筑物防雷设计规范》采取过电压保护措施,专用配电箱电源应采用电缆进线,不得不采用架空进线时,在低压架空电源进线处或专用电力变压器低压配电母线处装设低压避雷器。 (2)主机房活动地板下部的低压配电线路宜采用铜芯屏蔽导线或铜芯屏蔽电缆。 (3)主机房活动地板下部的电源线应尽可能地远离计算机信号线,避免并排敷设,应采取相应的屏蔽措施。 (4)照明布线:照明配线宜穿镀锌薄壁钢管保护。 5.接地系统 为了确保计算机正常运行,防止寄生电容耦合的干扰、保护设备及人身安全,在机房建设中要求有良好的地线系统。计算机机房的接地系统不仅对计算机运行的可靠性,而且对计算机系统的电气安全性都具有极大的影响。 电子计算机机房接地方式概括来讲,可以分成两类,一类是系统接地,还有一类是屏蔽接地。系统接地又可以细化成下面4种接地方式。 (1)交流工作接地(中性线),接地电阻不应大于4Ω。 (2)安全保护接地,接地电阻不应大于4Ω。 (3)直流工作接地(逻辑接地),接地电阻按照计算机系统具体要求确定,如IBM计算机要求接地电阻R?2Ω,而DEC公司、太极系列机则要求接地电阻R?1Ω,HP公司则只要求接地电阻R?3Ω就行。 (4)防雷接地,防雷保护地的接地电阻不应大于10Ω,一般应按照现行的《建筑物防雷设计规范》GB50057—1994设计。 接地是以接地电流量流动为目标,因此接地电阻越小越好。交流工作接地、安全保护接地、直流工作接地、防雷接地等四种接地宜共用一组接地装置,其接地电阻按其中小值确定;若防雷接地单独设置接地装置时,其余三种接地宜共用一组接地装置,其接地电阻不应大于其中小值,并应按现行国家标准《建筑防雷设计规范》要求采取防止反击措施。对直流工作接地有特殊要求需单独设置接地装置的电子计算机系统,其接地电阻值及与其他接地装置的接地体之间的距离,应按计算机系统及有关规范的要求确定。 计算机辅助设备中有许多静电屏蔽,如专用供电变压器的静电屏蔽层,局部空间或线路的屏蔽罩(设备外壳)。这些静电屏蔽的导体只有良好接地才能充分发挥作用。这就是所描述的屏蔽接地。系统接地和屏蔽接地宜共用一组接地装置,其接地电阻按照其中小值确定。当单独设置防雷接地时,应采取《建筑物防雷设计规范》中规定的防止反击措施。电子计算机接地系统应采用单点接地并宜采取多个计算机接地系统经铜排网和PE线接至同一接地干线的等电位措施。 安全保护地在计算机系统中的处理方法也分为计算机房内、外两种情况。计算机房内的安全保护地是将所有机箱的机壳,用一根绝缘导线串联起来,再用接地母线将其接地或接到配电柜的中线上。计算机房外使用的交流设备的机壳按有关电气规定进行接地。 接地方法主要有两种:一是接地棒法:接地棒的材料可用角钢、槽钢、钢管等,接地棒长度为两米五以上,接地棒之间的距离不应小于5m,接地棒多少应根据各地情况而定。实施方法:接地棒垂直埋入地下,水平埋入深度不小于0.6m,然后用扁钢相连。二是埋设铜板:将一块铜板埋入离地面一米深处作为接地电极,铜板面积约一平方米以上,厚1~2mm,铜板的周围放些木炭可吸收水分增加湿度,减小接地电阻。 防静电接地是电气设计中容易忽视但又不允许被忽视的组成部分,在生产和生活中有许多静电导致设备故障的事例,主机房内所有导静电地板、活动地板、工作台面和座椅垫套必须进行静电接地,不得有对地绝缘的孤立导体。静电接地可以经限流电阻及自己的连接线与接地装置相连,在有爆炸和火灾隐患的危险环境,为防止静电能量泄放造成静电火花引发爆炸和火灾,限流电阻值宜为1MΩ。3.2.4 空调系统 机房空调的任务是为保证计算机系统能够连续、稳定地运行,需要排出计算机设备及其他热源所散发的热量,维持机房内的恒温、恒湿状态并控制机房的空气含尘量,在进行机房空调系统设计时,应对计算机设备的功耗、发热量、设备的洁净度要求、设备进出口空气的温差以及机房内环境温湿度要求等有所了解,以便使机房的空调设计和整个机器设备的散热设计成为一个整体,使各级散热设计的效能得以更好地发挥。 一般情况下,主机房和基本工作间均应设置空气调节系统。当主机房和其他房间的空调参数不同时,宜分别设置空调系统。在空调系统设计时,首先应根据按产品的技术数据对计算机和其他设备的散热量进行热湿负荷计算。热湿负荷计算的内容包括:计算机和其他设备的散热;建筑围护结构的传热;太阳辐射热;人体散热、散湿;照明装置散热;新风负荷。 对于主机房和基本工作间空调系统的气流组织,应根据设备对空调的要求、设备本身的冷却方式、设备布置密度、设备发热量以及房间温湿度、室内风速、防尘、消声等要求,并结合建筑条件综合考虑。对设备布置密度大、设备发热量大的主机房宜采用活动地板下送上回方式。采用活动地板下送风时,出口风速不应大于3m/s,送风气流不应直对工作人员。 计算机机房空气调节控制装置应满足电子计算机系统对温度、湿度以及防尘对正压的要求。对于计算机机房要求配备空调系统的房间应该集中布置;对于室内温、湿度要求相近的房间,也应该相邻布置。主机房不宜设采暖散热器,如已经设置的散热器必须采取严格的防漏措施。计算机机房的风管及其他管道的保温和消声材料及其粘结剂,应选用非燃烧材料或难燃烧材料。冷表面需作隔气保温处理。采用活动地板下送风方式时,楼板应采取保温措施。风管不宜穿过防火墙和变形缝。如必须穿过时,应在穿过防火墙处设防火阀;穿过变形缝处,应在两侧设防火阀。防火阀应该既可手动又能自控。穿过防火墙、变形缝的风管两侧各2m范围内的风管保温材料,必须采用非燃烧材料。空调系统应设消声装置。主机房必须维持一定的正压。主机房与其他房间、走廊间的压差不应小于4.9Pa,与室外静压差不应小于9.8Pa。 空调系统的新风量应取下列3项中的值。 (1)室内总送风量的5%; (2)按工作人员每人400/h; (3)维持室内正压所需风量。 主机房的空调送风系统,应设初效、中效两级空气过滤器,中效空气过滤器计数效率应 大于80%,末级过滤装置宜设在正压端或送风口。主机房在冬季需送冷风时,可取室外新风作冷源。 空调设备的选择应该符合运行可靠、经济和节能的原则。空调系统和设备选择应根据计算机类型、机房面积、发热量及对温度、湿度和空气含尘浓度的要求综合考虑。空调冷冻设备宜采用带风冷冷凝器的空调机。当采用水冷机组时,对冷却水系统冬季应采取防冻措施。空调和制冷设备宜选用高效、低噪声、低振动的设备。对空调制冷设备的制冷能力,应留有15%~20%的余量。当计算机系统需要长期连续运行时,空调系统应配有备用装置。3.2.5 消防与安全系统 计算机机房在设计时,应该重点考虑机房的消防灭火系统设计。设计时可以根据消防防火级别来确定机房的设计方案,建筑物内首先应具备常规的消防栓、消防通道等,按机房面积和设备分布装设烟雾、温度检测装置、自动报警警铃和指示灯、自动/手动灭火设备和器材。 对于电子计算机用于非常重要的场所或发生灾害后造成非常严重损失的电子计算机机房,在工程设计中必须采取相应的技术措施。具体措施包括,主机房出口应设置向疏散方向开启且能自动关闭的门,并应保证在任何情况下都能从机房内打开。机房内存放废弃物应采用有防火盖的金属容器。存放记录介质应采用金属柜或其他能防火的容器,动力布线也要有防火及人身安全方面的考虑。 主机房、基本工作间应设二氧化碳或卤代烷灭火系统。凡设置二氧化碳或卤代烷固定灭火系统及火灾探测器的机房,其吊顶的上、下及活动地板下,均应设置探测器和喷嘴。对于设有卤代烷灭火装置的机房还应配置专用的空气呼吸器或氧气呼吸器。 有条件的计算机机房,应设置火灾自动报警系统,并应符合现行国家标准《火灾自动报警系统设计规范》的规定。主机房宜采用感烟探测器,当设有固定灭火系统时,应采用感烟、感温两种探测器的组合。报警系统和自动灭火系统应与空调、通风系统连锁。空调系统所采用的电加热器,应设置无风断电保护。当主机房内设置空调设备时,应受主机房内电源切断开关的控制。机房内的电源切断开关应靠近工作人员的操作位置或主要出入口。计算机机房火灾报警还要求在一楼设有值班室或监控点。 由于企事业单位实现信息系统自动化,绝大多数信息都存放在计算机系统中,一旦发生盗窃,后果非常严重,不仅造成重大经济损失,还会导致难以挽回的数据资源损失。因此对于计算机机房的安全设计,应符合现行国家标准《计算站场地安全要求》的规定。机房安全系统设计应注意防盗设施的安装,具体可采用加装防盗门、防盗锁,门窗加装防盗护栏,有条件的可以设置自动报警系统、门禁系统、闭路电视监控系统等,此外还可以根据主机房的重要性,设置警卫室或其他保安设施。3.2.6 系统支撑环境的参照标准 在进行信息系统支撑环境的构建过程中,可以部分参考下列标准进行。 1.国际标准 (1)IEEE802.3 Ethernet。 (2)IEEE802.5 TokenRing。 (3)EIA/TIA568 工业标准及国际商务建筑布线标准。 (4)ANSI X3T9.5。 (5)FDDI。 2.建筑部分参照标准 (1)国家标准《电子计算机机房设计规范》(GB50174—1993)。 (2)国家标准《计算站场地技术要求》(GB2887—1989)。 (3)国家标准《计算站场地安全技术》(GB9361—1988)。 (4)国家标准《计算机机房用活动地板的技术要求》(GB6650—1986)。 (5)部委标准《电子计算机机房施工及验收规范》(SJ/T30003)。 3.电力保障部分参照标准 (1)《低压配电设计规范》(GB50054—1995)。 (2)《电子计算机机房设计规范》(GB50714—1993)。 (3)《计算站场地技术要求》(GB2887—1989)。 (4)《供配电系统设计规范》(GB50052—1995)。 (5)《高层民用建筑设计防火规范》(GB50045—1995)。 (6)《电气装置安装工程接地装置施工及验收规范》(GB50169—1992)。 4.综合布线部分参照标准 (1)建筑与建筑群综合布线系统工程设计规范(GB/T50311—2000)。 (2)Lucent SYSTIMAX结构化布线系统设计总则。3.3 信息系统设施运维的内容 信息系统设施运维的内容可分为例行操作运维、响应支持运维、优化改善运维和咨询评估运维。3.3.1 例行操作运维 例行操作运维是指设施运维人员通过预定的(如巡检、监控、备份、应急测试、设备保养等)例行服务,以及时获取运维对象状态,发现并处理潜在的故障隐患,保证信息系统设施的稳定运行。例行操作运维过程中需要关注的要素及内容如表3-9所示。表3-9 例行操作运维过程中需要关注的要素及内容
关 注 要 素要 素 内 容1例行服务范围、内容根据运维对象的特点,制定例行服务的周期、范围、人员、内容和目标2例行服务指导手册编制例行服务的指导手册,并指定专人负责更新和完善。指导手册包括:(1)例行服务的任务清单(2)各项任务的操作步骤及说明(3)判定运行状态是否正常的标准 (4)运行状态信息的记录要求 (5)制定异常状况处置流程,包括角色定义、处置方法、流转过程和结束要求 (6)例行服务的报告模板3与其他服务内容的接口必要时创建与响应支持、优化改善和咨询评估服务的接口 例行操作运维过程将形成无形和有形两种形式的成果,如表3-10所示。表3-10 例行操作运维过程中的主要成果
成 果 类 型成 果 内 容1无形成果(1)运维对象当前运行状态(正常、异常、存在潜在风险等) (2)运行状态从异常到正常的状态恢复 (3)对潜在风险的消除2有形成果(1)运行状态信息记录 (2)运行状态异常处理记录 (3)趋势分析及可能的风险消除建议 (4)例行操作交付过程中的其他报告 例行操作作业包括设施监控、预防性检査和常规操作三种类型。 1.设施监控 设施监控是指通过各类工具和技术,对设备的运行状态进行记录和分析,从而及时发现 故障,以便于进行故障的诊断与恢复。设施监控的内容主要包括设备状态、运行状况和变化情况等。 1)基础设施的监控 基础设施监控的内容如表3-11所示。表3-11 基础设施监控的内容系 统监 控 内 容 空调系统 环境温度、湿度、出风温度、回风温度及告警情况等 供配电系统 电流、电压、功率因数、有功功率、无功功率等 发电机 启停情况,电流、电压、负载率、控制系统供电情况等 UPS系统 输入电流/电压、输出电流/电压、频率、功率因数、负载率、温度、告警情况等 消防系统 告警情况等 安全系统 告警情况、监控录像等 2)网络设施的监控 网络设施主要监控的内容如下。 (1)网络拓扑监控:在网络运维工作中,如果对网络的监控只是单点地针对设备进行观察及排错,或者仅有静态的逻辑拓扑图,均不利于运维人员对网络进行整体有效的认识或监控。网络运维需要能够反映网络中所有设备的工作状态、线路流量状态并能进行智能告警通知的拓扑图,我们称之为物理拓扑图。通过物理拓扑图能真实地反映网络设备的物理运行状态,运维人员可以及时地了解网络中的故障点和压力点,并对网络中的所有设备进行快速浏览及配置,提高工作效率。 (2)网络设备监控:监控网络整体运行状态、网络设备IOS版本、网络设备各硬件资源开销状况、网络设备CPU利用率、内存利用率、电源系统和通风系统运行状况、控制面板工作状况及数据面工作状态。 (3)网络链路监控:对物理链路连接状态进行监视和管理,监控端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端链路变化。通过运维平台可以对指定链路设定告警阈值,如链路带宽占用率阈值、链路速率阈值等。在链路连接发生故障或达到告警阈值时,链路以颜色的改变提醒运维人员,并产生相关告警。 (4) 网络设备端口监控:监控网络设置端口、ICMP连通性及SNMP监测等,其中以端口监测为关键,主要监测端口的数据流量,包括入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速等,如图3-2和图3-3所示,通过监测及时发现异常的网络流量。 通过网络端口丢包率监测能够监测端口通信链路的稳定性、抖动率,及时发现系统隐患,保证业务正常。 3)硬件设施的监控 硬件设施监控的重点是服务器及存储设备的运行状态、性能、资源使用分配情况,以便了解其是否满足运行要求。 监控的类型主要分为状态监控、性能监控和可用性监控。 (1)状态监控:主要监控和管理服务器状态,如风扇转速、湿度、电压、CMOS电池容量及电源与硬盘状态等。
图3-2 网络设备端口的数据流
图3-3 网络设备端口的实时流量图示例 (2)性能监控:主要监控服务器CPU负载、内存和磁盘使用量、并发会话数等性能指标和运行状态参数等。 (3)可用性监控:如对于Windows操作系统,可通过对WMI的支持监控Windows 服务器的事件日志、MS Exchange Server、SQLServer、LDAP、IIS等服务的可用性。 硬件设施监控的内容如表3-12所示。表3-12 硬件设施监控的内容系 统监 控 内 容服务器及存储设备 监控主机服务器LED面板运行错误码 监控服务器电源工作状态指示灯 监控服务器硬盘工作状态指示灯 监控服务器CPU使用比例情况 监控操作系统重要文件系统空间使用情况 监控服务器内存使用情况等 4)基础软件的监控 基础软件监控的重点是对基础软件的运行状态、运行性能、资源使用分情况进行监控,以便了解其是否满足运行要求,监控内容如表3-13所示。监控应当采用合适的装备与手段,分配专门人员定期或全时段进行手动或者自动监控,可以通过一些数据(如服务器的响应速度)来提前预知服务异常。表3-13 基础软件监控的内容系 统监 控 内 容数据库 监控数据库主要进程运行情况 监控数据库连接是否正常 监控数据库表空间使用情况 监控数据库日志是否有异常 监控数据库日常备份是否正常等中间件 监控中间件运行状态 监控主要进程运行状态 监控中间件通信网络连接情况 监控中间件日志是否有报错信息应用服务 监控应用服务运行状态 监控主要进程运行状态 监控应用通信网络连接情况 监控应用服务日志是否有报错信息 对于数据库监控、中间件监控和应用服务监控而言,具体的监控内容应包括下列几项。 (1)数据库监控:数据库监控主要监控包括数据库系统的性能、事务、连接等方面的数据,如数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读/写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等,如表3-14所示。表3-14 数据库监控的具体内容监 控 内 容监 控 说 明基础监控数据库是否装载,指定表或视图是否存在,制定指定表空间的使用率基本信总采集监测数据库服务器的基本信息,包括实例状态、主机名、DB名称、DB版本、位长、并行状态、例程名、例程开始时间、限制模式、归档模式、归档路径、只读模式、是否使用Spfile启动及启动路径表空间监测监测数据库服务器指定表空间的使用量、使用百分率、PSFI值、读/写时间、扩展次数、Next扩展大小数据文件监测监测指定文件大小及状态回滚段监测监测数据库服务器指定回滚段命中率、大小、压缩次数SGA配置监测监测数据库服务器SGA性能、高速缓冲区大小、重做日志缓冲区大小、共享池大小、数据字典缓存大小、共享库缓存大小、SQL缓存大小链接会话监测监测数据库服务器中会话的CPU时间、内存排序次数、提交次数、占用游标数、缓冲区命中率安全访问监测监测表空间使用率、连接会话数等资源锁定监测监测数据库服务器中指定资源的锁定时长命中率监测监测数据库服务器的高速缓存区命中率、共享库缓存区命中率、共享区字典缓存命中率、回滚段等待次数与获取字数比率、磁盘排序与内存排序比率数据空间监测监测指定数据空间数据库大小监测监测数据库实例当前大小 (2)中间件监控:中间件监控主要应监控中间件的各项运行状态参数,包括配置管理、连接池、线程队列、负载监测、通道情况监测等,具体如表3-15所示。表3-15 中间件监控的具体内容监 控 内 容监 控 说 明系统信息采集监测中间件的基本信息,包括操作系统、操作系统版本、当前可用堆栈及大小、当前目录、重启次数、开启线程数JVM使用监测监测JVM的堆栈大小和使用率JDBC连接池监测监测JDBC数据连接池资源分配情况JTA事务监测监测中间件中数据处理事务的活动情况线程池监测监测指定线程类的线程平均数、空闲线程平均数及线程吞吐量Servlet 监测监测指定Servlet的执行和调用情况EJB监测监测指定EJB激活次数、钝化次数、缓存个数、事务提交次数、事务回滚次数、事务超时次数、访问次数 续表监 控 内 容监 控 说 明通道情况监测监测MQ的通道情况,包括每秒接收字节、每秒发送字节、通道状态、发送间隔、事务数队列深度监测监测MQ服务的消息队列的队列深度Web应用监测指定Web应用中Session的当前个数、值及累积个数JMS队列深度监测监测中间件中JMS消息队列的活动情况Tuxedo负荷监测监测Tuxedo的机器状态是否被激活、每秒处理的队列服务数、每秒入队的队列服务数、当前客户端数、当前WorkStation客户端数TongWeb数据连接池监测国产中间件TongWeb数据库连接信息,如、小连接数,可用、创建、关闭、等待连接数等TongWeb应用性能监控主要监测系统线程情况、请求队列情况、吞吐量、发送/接收字节数等信息 (3)应用服务监控:应用服务监控通过对信息系统基础应用平台(如IIS、Apache等)的基础信息、连接测试、基本负载等重要信息的监测,有效、实时地分析HTTP/HTTPS、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题。 应用服务监控具体应包括的内容如表3-16所示。表3-16 应用服务监控的具体内容监 控 内 容监 控 说 明Web服务器可用性监测监测HTTP、HTTPS和Web Service服务器是否连接及是否正常运行,可以检测指定HTTP 的URL路径是否包含或不包含指定内容标准邮件服务器检测监测IMAP、POP3、SMTP邮件服务器是否连接及是否正常运行,可以监测具体的邮箱邮件数及邮箱使用量Active Directory (AD) 服务监测监测AD服务运行情况、请求的响应情况及服务复制列表情况等基础服务监测主要是对DNS、FTP、LDAP服务的监测,内容包括监测相关服务器是否连接,是否正常运行,以及连接时间等通用资源监测主要对TCP端口和SNMP进行监测,包括监测多个TCP端口,采集连接时间,可指定端口开启或关闭时告警和监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果,并可设定告警阈值 2.预防性检查 预防性检查是在信息系统设施监控的基础上,为保证信息系统设施的持续正常运行,运维部门根据设备的监控记录、运行条件和运行状况进行检查及趋势分析,以便及时发现问题并消除和改进。主要包括性能检查和脆弱性检查两个方面。 (1)基础设施的预防性检查:内容如表3-17所示。表3-17 基础设施的预防性检查系 统性能检查内容脆弱性检查内容空调系统高压压力、低压压力(风冷系统),冷冻水压力、温度,冷却水压力、温度(水冷系统),风机运行情况等机房热点情况、室内机漏水检查、室外风机运转情况、加湿罐阳极棒检查、过滤网检查等供配电系统接地电阻、零序电流、器件发热情况等导线、器件发热情况,防浪涌器件情况等发电机转速、发热情况等油位,吸气、排烟通道等UPS系统器件发热情况、电池情况(外观、液位、接线柱)等器件、导线发热情况,电池放电时间等消防系统钢瓶压力、有效期、探头污染等启动瓶、管道开关、气体压力等安全系统器件灵敏度、画面清晰度(不同照度情况下)器件灵敏度、监控死角问题等 (2)网络设施的预防性检查:内容如表3-18所示。表3-18 网络设施的预防性检查系 统性能检查内容脆弱性检查内容网络及网络设备检查网络设备非业务繁忙期CP使用峰值情况检查网络设备非业务繁忙期内存使用峰值情况检查设备板卡或模块状态使用情况检查设备机身工作使用情况检查主要端口的利用率检查链路的健康状态(包括IP包传输时延、IP包丢失率、IP包误差率、虚假IP包率)检查设备链路的冗余度要求安全事件周期性整理分析设备生命周期与硬件可靠性评估备件可用性、周期性检查 (3)硬件设施的预防性检查:内容如表3-19所示。 (4)基础软件的预防性检查:内容如表3-20所示。表3-19 硬件设施的预防性检查系 统性能检查内容脆弱性检查内容服务器及存储设备检查服务器非业务繁忙期CPU使用峰值情况检查服务器非业务繁忙期内存使用峰值情况检查操作系统重要文件系统空间使用情况检查服务器、存储I/O读/写情况检查数据流网络流量情况等检查服务器、存储关键硬件部件是否满足运行冗余度要求检查当前操作系统版本是否安装相关风险补丁检查重要业务数据文件或操作系统文件空间使用是否达到预定阈值检查关键机密系统数据安全防护设置是否满足要求检查系统使用资源是否超过预定阈值表3-20 基础软件的预防性检查系 统性能检查内容脆弱性检查内容数据库检查数据库业务CPU使用情况检查数据库业务内存使用情况检查数据库业务锁情况检查数据库业务会话数和操作系统进程数情况检查数据库buffer等命中率情况检查数据库业务等待事件情况检查当前数据库版本是否安装相关风险补丁检查表空间的使用是否达到了预定阈值检查数据库关键文件是否做了镜像检查数据库备份策略是否合理检查数据库是否存在异常用户中间件检查中间件服务器业务CPU使用峰值情况检查中间件服务器业务内存使用峰值情况检查中间件服务器业务会话连接数情况检查中间件服务器、存储关键硬件部件是否满足运行冗余度要求检查当前中间件版本是否安装相关风险补丁检查中间件的数据库连接密码配置文件是否存在明码检查相关重要运行程序是否有保留备份检查操作系统配置是否符合中间件运行的要求检查系统使用资源是否超过预定阈值等 3.常规操作 常规操作运维是对信息系统设施进行的日常维护、例行操作,主要包括定期保养、 配置备份等,以保证设备的稳定运行。 1)基础环境的常规操作 内容包括基础类操作、测试类操作和数据类操作三类。 (1)基础类操作:根据有关规定,执行基础环境的日常运行、维护和保养。 (2)测试类操作:根据有关规定,对基础环境各系统功能、性能进行测试。 (3)数据类操作:按事先规定的程序,对基础环境运行日志、记录等数据进行操作。基础环境常规操作的主要内容如表3-21所示。表3-21 基础环境常规操作的主要内容系 统基础类操作测试类操作数据类操作空调系统启/停机,清洗、更换滤网,清洗、更换加湿系统,清洁冷凝器等漏水报警测试等运行日志备份,告警记录备份、清除等供配电系统除尘、合闸、分闸等互投测试等
发电机更换三滤(燃油滤清器、机油滤清器、空气滤清器)、清洁等空载测试、带载测试、切换演练等运行日志备份,告警记录备份、清除等UPS系统旁路、清洁等旁路测试、电池放电测试等运行日志备份,告警记录备份、清除等消防系统探头清洗等启动测试、探头测试等告警记录备份、清除等 续表系 统基础类操作测试类操作数据类操作安全系统门禁授权等器件灵敏度、画面清晰度(不同照度情况下)、云台运行等出入记录导出、备份,监控图像记录备份、清除,告警记录备份、清除等 2)网络设施的常规操作 网络设施的常规操作主要包括网络设备操作系统软件备份及存档;网络设备软件配置备份及存档;监控系统日志备份及存档;监控系统日志数据分析与报告生成:网络配置变更文件的审核;网络配置变更的操作;网络配置变更的记录。 3)硬件设施的常规操作 硬件设施常规操作的主要内容如表3-22所示。表3-22 硬件设施常规操作的主要内容系 统常规操作内容服务器及存储设备 检查设备是否正常启动 检查硬件设备是否有运行告警灯或故障灯 检查设备运行日志是否有报错信息 检查业务系统运行是否正常(交易是否正常) 检查应用系统是否有运行错误日志 检查系统关键进程是否运行正常等 4)基础软件的常规操作 基础软件常规操作的主要内容如表3-23所示。 表3-23 基础软件常规操作的主要内容系 统常规操作内容数据库 检查数据库服务是否正常启动 检查数据库网络侦听是否正常 检查数据库运行日志是否有报错信息 检查数据库定时执行任务是否正常执行 检查数据库备份是否正常中间件 检查中间件相关进程是否已正常启动 检查中间件运行日志是否有报错信息 检查业务系统交易运行是否正常 3.3.2 响应支持运维 响应支持运维是运维人员针对服务请求或故障申报而进行的响应性支持服务,包括变更管理、故障管理等。响应支持运维过程中需要关注的要素如表3-24所示。表3-24 响应支持运维过程中需要关注的要素
关 注 要 素要 素 内 容1明确响应支持受理的渠道如电话、传真、邮件或Web方式2对响应支持的实施过程进行记录,甄别响应请求是否为有效的申请:对有效申请进行分类,并根据紧急程度、影响范围和重要程度判断优先级,然后分发给相应人员进行响应支持响应支持优先级一般划分为:(1)紧急程度——响应支持处理的时间要求,如不紧急、紧急和非常紧急(2)影响范围——响应支持涉及的运维对象规模,如个别对象、部分对象和全部对象(3)重要程度——响应支持涉及的运维对象在信息技术或业务系统中的重要性,如不重要、重要和非常重要3在响应支持处理过程中设置预警、告警机制及升级流程(1)预警——当响应支持在承诺时间即将到达时尚未结束,应提前预警或升级,以引起相关人员的关注,确保按时解决问题 (2)告警——当响应支持在承诺解决时间到达时尚未结束,应给予告警和升级,以通知相关人员关注,确保尽快解决问题(3)升级——响应支持处理的升级,包含将初始设定的优先级上调:通知预先设定好的上级管理者,以调动更多资源解决该事件:通知预先设定好的高级专家,以调动更专业的人员解决该事件4在响应支持处理过程中的各个关键环节将进展信息及时通知供需双方相关人员5与其他服务内容的接口必要时创建与例行操作、优化改善和咨询评估服务的接口 响应支持过程将形成无形和有形两种形式的成果,如表3-25所示。表3-25 响应支持过程中形成的主要成果
成 果 类 型成 果 内 容1无形成果(1)运行状态从异常到正常的状态恢复(2)运维知识的传递2有形成果(1)响应支持记录(2)响应支持关键指标数据记录(响应事件量、问题数、故障时间/次数)(3)重大事件(故障)的分析改进报告(4)满意度分析(5)响应支持交付过程中的其他报告 响应支持作业根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应。 1.事件驱动响应 事件驱动响应是指由于不可预测原因导致服务对象整体或部分功能丧失、性能下降,触发将服务对象恢复到正常状态的服务活动。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种。外部事件指为信息系统设施运行提供支撑的、协议获得的、不可控的、非自主运维的资源,如互联网、租赁的机房等由服务中断引发的事件;系统事件指运维标的物范围内的、自主管理和运维的系统资源服务中断引发的事件;安全事件指安全边界破坏、安全措施或安全设施失效造成的安全等级下降和用户利益被非法侵害的事件。 1)基础设施的事件驱动响应 主要包括以下内容。 (1)空调系统:故障排查,关闭部分机组以维持机房温/湿度指标等。 (2)供配电系统:故障排查,投入备用电源回路,关闭非重要回路等。 (3)发电机:启动发电机,油料补充。 (4)UPS系统:故障排查,旁路系统,关闭非重要输出等。 (5)消防系统:故障排查,系统启动,报警联动,疏散警示等。 (6)安全系统:手动开启或关闭门禁系统,检査告警或监视记录等。 2)网络设施的事件驱动响应 主要包括按预定义级别的网络通信相关故障发生所启动的响应支持,特定事件或时间所驱动的响应支持,信息系统变更所驱动的响应支持,信息系统故障所驱动的响应支持,灾难性事件所驱动的响应支持。 3)硬件设施的事件驱动响应 主要包括针对硬件设施故障引起的业务中断或运行效率无法满足正常运行要求等,例如: (1)设备电源硬件故障导致设备宕机。 (2)服务器通信模块故障导致业务通信中断(如网卡损坏)。 (3)服务器文件系统异常导致操作系统运行缓慢,从而引起业务交易超时。 (4)数据库软件异常导致数据库停止,从而引起业务交易中断。 (5)主机、存储光纤卡异常引起数据无法读/写,导致业务无法正常执行等。 4)基础软件的事件驱动响应 主要包括针对基础软件故障引起的业务中断或运行效率无法满足正常运行要求,例如: (1)数据文件坏块引起数据库异常。 (2)设备电源硬件故障导致数据库异常。 (3)主机、通信模块或网络设备故障导致数据库连接中断。 (4)主机硬盘、光纤卡或存储异常引起数据无法读/写,导致数据库宕机。 (5)主机CPU、磁盘、数据库表空间等资源耗尽导致数据库系统运行缓慢。 (6)数据库产生死锁。 (7)数据库配置变更导致数据库系统异常或运行缓慢。 (8)主机通信模块或网络设备故障造成软件异常。 (9)由于操作系统原因导致中间件软件异常。 (10)由于数据库原因导致中间件软件异常。 2.服务请求响应 服务请求响应是指由于各类服务请求引发的针对服务对象、服务等级做出调整或修改的响应型服务。此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等。 1)基础设施的服务请求响应 主要包括以下内容。 (1)空调系统:调整温度、湿度参数等。 (2)供配电系统:增减回路,增减供电类型(如直流、110V)等。 (3)发电机:为指定负载供电等。 (4)UPS系统:旁路操作,为指定负载供电等。 (5)消防系统:增减终端设备,检查及提供告警及监控记录,备份或清除记录等。 2)网络设施的服务请求响应 指对网络及网络设备的操作作业请求,如增加、降低网络接入的数量或速度,更改网络设备配置等进行的响应服务。 3)硬件设施的服务请求响应 指对硬件设施的操作作业请求,如启动、关闭端口或服务;更换、更新或升级设备硬件等进行的响应服务,如设备搬迁、设备停机演练、设备清洁维护、系统参数调整和文件系统空间扩容等。 4)基础软件的服务请求响应 指针对基础软件,根据信息系统软件运行需要或相关方的请求而进行的响应服务。如数据库版本升级、数据库灾难恢复、数据库调优、数据库数据移植、数据清理、中间件服务器更换、中间件参数调整和软件版本升级等。 3.应急响应 应急响应是指组织为预防、监控、处置和管理运维服务应急事件所采取的措施和行为。信息系统设施运维应急事件是指导致或即将导致信息系统设施运行中断、运行质量降低或需要实施重点时段保障的事件。当出现跨越预定的应急响应阈值的重大事件,或由于政府部门发出行政指令或对运维对象提出要求时,应当启动应急处理程序。 应急响应是信息系统设施运维中的一个重要组成部分,针对突发公共事件,国家和地方政府出台的各项总体预案和专项预案,从整体或专业角度,对预防与应急准备、监测与预警、应急处置与救援、事后恢复与重建等方面进行了规定。但在信息技术运维领域,与之相对应的应急响应规范尚未建立起来。 应急响应的管理是为了避免无序运维,提升应急状态下的运维响应能力,提前发现和解决问题,降低突发事件造成的不良影响,以合理的投入创造更大的效益。 应急响应过程包括应急准备、监测与预警、应急处置和总结改进四个主要环节,如图3-4所示。
图3-4 应急响应过程 每个环节中包括若干重点任务,这些任务覆盖了日常工作、故障响应和重点时段保障等不同类型的活动。应急响应的活动与任务如表3-26所示。表3-26 应急响应的活动与任务主 要 环 节重点任务日常工作故障响应重点时段保证 应急准备运维组织建立√
风险评估与改进√
事件级别划分√
预案制定√
培训与演练√
监测与预警日常监测与预警√√
记录与报告√
√ 核实与评估
√√ 预案启动
√√ 应急处置应急调度
√√ 排査与论断
√
处理与恢复
√
升级与信息通报
持续服务与评价
√√ 事件关闭
√√ 总结改进事件总结
√√
应急管理体系的保持
√√
应急准备工作的改进√√√ 1)应急准备 (1)建立应急管理的组织和制度:建立应急管理组织,确保组建合适的组织以满足日常运维和应急响应的服务要求,明确应急响应组织中的角色及关系。应急管理组织建立后对应的应急管理制度包括负责制定应急响应方针(应急响应原则、范围等),明确应急响应的范围、要求、等级等。 (2)风险评估与改进:风险评估与改进的目的是系统地识别运维服务对象及运维活动中可能出现的风险并提前改进,包括风险识别与评估、风险应对。 运维人员从系统的角度识别风险要素,如运维对象、运维内容、组织及流程接口等。根据风险要素,应急响应组织按照一个确定的方法和流程来实施风险评估,明确其在其运维过程中的关键活动、所需资源、限制条件及组织面临的各种威胁,明确当威胁演变为应急事件时所产生的影响和后果,以及业务中断可能带来的损失。分析评估后应形成《风险评估报告》,报告应包括与服务水平目标相比较的运维要求、现状及趋势信息、风险要素、不符合项及问题等,并据此提出纠正措施建议,确认后的《风险评估报告》将作为风险应对预案。 对于识别出的各种风险,制定明确的应对策略,包括风险规避、风险转嫁、风险降低、风险接受等。根据《风险评估报告》,形成《系统改进方案》以降低风险,包括降低风险转变为应急事件的可能性,缩短应急事件的持续时间,限制应急事件的影响范围。 (3)应急事件级别划分:应急事件分级的主要参考要素为信息系统的重要程度、紧急程度、系统损失和社会影响。相关负责人按照以上要素对可能发生的事件进行评估。确定应急事件的级别。包括以下内容。 灾难事件(I级):指由地震、火灾、恐怖袭击等原因造成主要IT设施毁灭性损坏,或者由于系统平台或业务数据遭受严重破坏,无法在短时间内恢复系统服务,造成核心业务服务中断超过48小时。 重大事件(II级):指造成核心业务服务中断超过24小时,或重要业务数据丢失,或业务数据需要后退到上一备份状态。 严重事件(III级):指造成核心业务服务中断超过12小时,或少量业务数据丢失。 一般事件(IV级):指造成核心业务服务中断超过4小时,或管理支撑系统服务中断超过24小时。 (4)预案制定:预案制定的目的是提供应对运维应急事件的操作性文件。 根据风险评估和事件级别划分制定《应急响应预案》。预案可以分为总体预案和针对某个核心系统的专项预案及其附则;预案中应该考虑到各种应急资源的调配和预置,主要包括人员、备品备件、资金、系统工具等。《应急响应预案》的内容包括应急响应预案的编制目的、依据和适用范围;具体的组织体系结构及人员职责;应急响应的监测和预警机制;应急响应的启动;应急响应的处置;应急响应的总结;应急响应的保障措施;应急预案的附则等。 经过评审确认的应急响应预案,由责任者或授权管理者负责预案的分发,同时建立预案的版本控制。 (5)培训与演练:培训需要制定应急响应培训计划,并组织相关人员参与,将应急响应预案作为培训的主要内容。培训应使得相关组织及人员明确其在应急响应过程中的责任范围、接口关系,明确应急处置的操作规范和操作流程。 应急响应演练的目的,一是为了验证预案是否能够真正满足实际的需求,二是为了 检验应急响应小组成员之间相互配合的默契程度和对运维事件应对步骤的熟练程度。演练的方式分为工具测试演练和场景模拟演练。 为了检验预案的有效性,同时使相关人员了解运维预案的目标和流程,熟悉应急响应的 操作规程,应急响应的演练应做到:预先制定演练计划,在计划中说明测试工具或演练的场 景;演练的整个过程有详细的记录,并形成报告;演练不能对业务运行造成负面影响;按照约定周期,进行完整演练(可以有被委托的第三方机构参与),周期建议可以设定为季度、一年或三年。 2)监测与预警 (1)日常监测与预警:日常监测与预警负责保障运维服务的可用和连续,及时发现运维服务应急事件并有效预警。结合运维服务级别协议和应急响应预案,开展日常监测与预警活动,主要包括设立服务台并保持运营;确定监测项、监测时间间隔与阈值;确定活动中的人员、角色和职责。可以采用运维工具与人工相结合的方式开展日常监测与预警活动。 (2)记录与报告:建立监测、预警信息登记和报告制度。对日常监测结果进行记录,发现运维服务应急事件时,应提交单独的报告,报告内容应包括故障或预警发生及发现的时间和地点;表象及影响的范围;原因初步分析;报告人等。对运维应急事件要保持持续性跟踪。 (3)核实与评估:核实与评估负责对出现的运维服务应急事件进行有效识别。其中核实是指接到报告的责任者应对报告内容进行逐项核实,以判别运维服务应急事件是否属实;事件级别评估是指负责人应参见应急准备活动中的事件级别划分,确定应急事件所对应的事件级别,同时将事件级别置于动态调整控制中。 (4)预案启动:确保以规定的策略和程序启动预案,并保持对应急事件的跟踪。 建立、审议预案启动的策略和程序,以控制预案启动的授权和实施。对预案启动可能造成的影响进行评估,在相关方之间就启动何种类型预案达成一致,过程包括一旦事件升级,与之相对应的预案调整的方式,同时记录预案启动的过程和结果。 信息通报内容包括预案启动的原因、事件级别、事件对应的预案、要求采取的技术应对或处置的目标、实现目标所应采取的保障措施,如人员、物资、环境、资金等;对应急处置过程及结果的报告要求,如报告程序、报告内容、报告频率等;信息通报的方式可以是电话、邮件、电视、广播和文件等。相关方对收到的通报信息进行确认和反馈。 应急响应人员根据调整后的状态开展监测与预警活动,并按一致约定的程序和监测范围、监测频率提供报告。 3)应急处置 (1)应急调度:在应急调度中明确应急调度手段,规范应急调度过程;在调度安排下,相关人员实施应急处置,责任者根据应急处置要求,对应急处置经费、应急处置人员、应急处置设施等统一调配和管理,并完成调度明细说明的整理和归档。应急调度的工作流程包括在规定时间要求内,迅速组织人员勘察、分析;通过网络、媒体、广播等多种手段快速获取应急事件的相关信息;及时组织并协调相关部门及人员召开应急处置工作会议;根据应急处置要求,对涉及应急处置组织下达调度命令;组织人员保护可追查的相关线索。 (2)排查与诊断:排查与诊断是基于已经启动的预案而开展的,在排查与诊断中,应建立多渠道的应急处置支持模式,如建立由服务商、供应商、生产制造商构成的应急处置支持模式。故障排查与诊断的流程包括:应急处置责任者调配处置人员进行现场故障排查;现场处置人员进行故障排查和诊断,必要时可寻求外协人员以现场或远程方式进行支持,在此过程中可借助各类排查、诊断、分析工具,如应用软件、电子分析工具、故障排查知识库等;现场处置人员应随时向处置责任者汇报故障排查情况、诊断信息、故障定位结果等;将排查与诊断的过程和结果信息进行整理与归档。 在实施应急处置过程中,各级责任者需要及时与相关利益方进行沟通,沟通的内容主要包括应急处置故障点、造成故障的原因、排查诊断等。及时完成对沟通信息及对应组织人员的核实与确认,同时对确认信息完成归档、上报、审批等事项。 (3)处理与恢复:负责对故障进行有效、快速的处理与恢复。应基于预案和知识库进行故障的处理与恢复,处理与恢复的原则应在满足相应服务级别协议要求的前提下,尽快恢复服务;采用的方法、手段不应造成新的事件发生。 必要时可启用备品备件、灾备系统等。对过程及结果信息进行记录,并及时告知相关方面和人员。责任者应组织对处理与恢复的结果进行初步确认。 (4)升级与信息通报:应急响应组织通过实施有效评审,实现对应急处置的升级与通报;故障处置责任者应组织相关人员对故障处置过程及结果情况进行评审;在评审中,参考服务级别协议中对事件处置内容情况的设定,同时结合应急故障处置的现场情况进行分析和比较。当应急故障现场处置的情况超过原应急预案中的事件处置级别要求时,应作为应急事件升级;建立、审议应急事件升级的策略和程序,以控制应急事件升级的授权和实施,就应急事件升级可能造成的影响进行评估;升级过程包含预案调整、人员调整、资金调整及相关设施调整,需要对应急事件升级的过程和结果信息进行整理与归档。信息通报内容包括事件升级的原因;事件升级后的级别;事件升级后与之对应的预案;根据升级事件处置的要求和目标,确定所需的技术应对措施;实现目标所应采取的保障措施,如人员、物资、环境、资金等;对升级事件处置过程及结果的报告,如报告程序、报告对象、报告内容、报告频率等;信息通报的范围和涉及接受者,信息通报的方式有电话、邮件、电视、广播和文件等形式。 (5)持续服务与评价:在完成对应急事件故障处置后,应组织运维人员提供持续性服务,同时应对持续性服务的效果进行评价。 (6)事件关闭:规范并明确应急处置的关闭流程,即申请关闭、核实、关闭通报。 关闭申请:建立、审议事件关闭的策略和程序,以控制事件关闭的授权和实施;对应急事件处置的过程文档和各评审/评价报告进行整理,由明确的责任者或授权管理者提出事件关闭申请,并提交相关文档资料。 关闭核实:接到事件关闭申请的责任者应逐项核实报告内容,以判别应急事件处置过程和结果信息是否属实。 关闭通报:建立、审议应急事件关闭通报制度,应急事件关闭的责任者向相关利益方通报信息,内容应包括应急事件的级别;事件对应的预案信息;应急事件处置的过程情况;事件的调整升级情况;持续性服务状况信息;事件处置评价信息;事件关闭申请 的处理意见;关闭通报的范围和涉及接受者。 4)总结改进 (1)应急事件总结:在事件关闭之后,组织相关人员对本次事件的原因、处理过程和结果进行分析,总结经验教训,并采取必要的后续措施。事件总结应包含事件发生的原因分析、应急事件的处理过程和结果;评估应急事件造成的影响;降低事件发生频率、减轻损害和避免再次发生的方法。 调查和收证:当一个事件涉及责任认定、赔偿或诉讼时,应收集、保留和呈递证据。 证据可用于内部问题分析;用做有关可能违反合同或规章要求的法律取证;与供应商或其他组织谈判赔偿事宜。 (2)应急体系的保持:为保证应急体系的有效性和时效性,需要对应急体系进行不定期及定期的维护和审核,以确保组织具有足够的应急响应能力。 体系维护主要是指当组织战略、业务流程、客户要求等发生重大变化时,对现有的应急体系,尤其是风险评估和应急预案进行修改。体系维护应该是不定期进行的,是由事件驱动的。 体系审核主要是指对组织当前的应急响应能力和管理模式进行评审,以确保它们符合预定的标准和要求,同时明确组织在应急响应方面的主要不足和改进方向。体系审核应该是定期进行的,组织应该至少一年进行一次体系审核。 体系维护:组织建立明确的应急体系维护计划,确保任何影响到组织应急管理的重大变更都能被识别出来,同时采取必要的措施对这些变更进行分析,并对应急管理体系做出相应调整,这种调整可能涉及应急管理的方针策略、流程、应急预案和资源配置。 体系维护流程的结果应包括关于应急体系维护活动的文档记录;确保应急响应的相关人员都已经明确应急体系的调整内容,并接受必要的培训;当需要对风险评估、组织架构、人员配备进行调整时,保留必要的文档记录。 体系审核:相关责任者按照预定的时间间隔对应急管理体系进行审核,以确保体系具有持续的适用性和有效性。体系审核包括评估体系不足和改进建议。同时,体系审核的结果应正式存档并通知给相关责任者。 体系审核的输入信息主要包括相关利益方的要求和反馈;组织所采纳的,用于支持应急响应的各种技术、产品和流程;风险评估的结果及可接受的风险水平;应急预案的测试结果及实际执行效果;上次体系评审的后续跟踪活动;可能影响应急体系的各种业务变更;近期在处置应急事件过程中总结的经验和教训;培训的结果和反馈。 体系审核的输出结果主要包括应急体系的改进目标;如何改进应急体系的有效性和效率;所需的各种资源,包括人员、软硬件、资金等。 (3)应急准备工作的改进:应急时间总结、体系维护和体系审核的结果将作为应急准备阶段的重要输入信息,组织应根据应急时间总结报告中给出的建议项和体系评审结果来调整应急准备及风险应对的策略。3.3.3 优化改善运维 优化改善运维是指运维人员通过提供调优改进,达到提高设备性能或管理能力的目的。优化改善运维的相关要素如表3-27所示。 优化改善运维过程将形成无形和有形两种形式的成果,如表3-28所示。表3-27 优化改善运维的相关要素关 注 要 素要 素 内 容优化改善方案方案中应包含优化完善的目标、内容、步骤、人员、预算、进度、衡量指标、风险预案和回退方案等对优化改善方案进行必要的评审包括内、外部评审安排试运行观察期
对遗留问题制定改进措施
在优化改善完成后进行必要的回顾总结
与其他服务内容的接口必要时创建与例行操作、响应支持和咨询评估服务的接口表3-28 优化改善运维形成的主要成果成 果 类 型 成 果 内 容无形成果 (1)设备和系统等运行性能的提升 (2)组织和流程等管理水平的提升有形成果 (1)优化方案及相关评审记录 (2)变更和发布报告 (3)优化改善交付过程中的其他报告 优化改善运维包括适应性改进、纠正性改进、改善性改进和预防性改进四种类型。 1.适应性改进 优化改善运维中的适应性改进是指在已变化或正在变化的环境中可持续运行而实施的改造。 1)基础设施的适应性改进 主要包括以下内容。 (1)空调系统:调整温/湿度参数等。 (2)供配电系统:回路调整等。 (3)发电机:调整启动方式等。 (4)安全系统:调整授权模式、告警模式、云台运转周期等。 2)网络设施的适应性改进 主要包括路由策略调整,设备或链路负载调整,安全策略调整,监控对象覆盖范围调整,局部交换优化,局部可靠性优化等。 3)硬件设施的适应性改进 针对服务器及存储设备而言,主要包括服务器交换区SWAP容量调整,操作系统内核参数调整,存储RAID保护级别调整,文件系统使用空间调整划分等。 4)基础软件运维的适应性改进 指根据信息系统软件的特点和运行需求,对软件进行调整,如相关操作系统参数调整,中间件参数配置优化,数据库参数调整,临时表空间、用户表空间调整,数据库重命名,数据库日期格式调整等。 2.纠正性运维 1)基础设施的纠正性运维 基础设施的纠正性运维主要包括以下内容。 (1)空调系统:调整温/湿度参数等,调整机组位置等。 (2)供配电系统:更换开关、导线以适配负载容量等。 (3)安全系统:调整终端位置,更换终端设备型号等。 2)硬件设施的纠正性运维 根据应用系统的特点和运行需求,分析服务器及存储设备的运行情况,调整服务器及存储设备不合理的初始容量配置、参数配置等,以满足信息系统的运行需求,如调整网卡通信速率模式,调整数据库表空间大小,调整数据库相关参数,调整操作系统相关内核参数等。 3.改善性运维 优化改善运维中的改善性改进是指根据信息系统或相关设备的运行需求或设计缺陷,采取相应改进措施,以增强安全性、可用性和可靠性。 1)基础设施的改善性运维 基础设施的改善性运维主要包括以下内容。 (1)空调系统:增减机组、APU单元等。 (2)供配电系统:增加回路、ATS设备。 (3)UPS系统:增加主机数量、电池数量等。 (4)安全系统:增加告警联动、终端数量、存储容量等。 2)网络设施的改善性运维 主要包括硬件容量变化(如网络设备硬件、软件升级、带宽升级等),整体网络架构变动,网络架构容量变化(如网络子系统的增减等),系统功能变化(如新增功能区、安全系统、审计系统等),路由协议应用及部署调整,整体安全策略收紧,交换优化,可靠性优化等。 3)硬件设施的改善性运维 指根据应用系统的特点和运行需求,通过对服务器及存储设备的运行记录、趋势的分析,对服务器及存储设备进行调整、扩容或升级等,包括存储磁盘容量增加,服务器 CPU个数增加,服务器内存容量增加,服务器本地磁盘容量增加,网卡升级等。 4)基础软件的改善性运维 指根据应用系统的特点和运行需求,通过对数据库的运行记录、趋势的分析,对数据库进行调整、扩容或升级,主要包括软件版本升级、打补丁;由于主机CPU个数、内存容量增加调整软件相应的参数;由于主机存储设备的增加调整数据库表空间容量等。 4.预防性运维 优化改善运维中的预防性改进是指监测和纠正系统运行过程中潜在的问题或缺陷,以降低系统风险,满足未来可靠运行的需求。 1)基础设施的预防性运维 主要包括以下内容。 (1)空调系统:调整机组位置,调整出/回风方式等。 (2)供配电系统:更换开关,更换导线,调整回路等。 2)网络设施的预防性运维 主要包括以下内容。 (1)配置参数优化(如关闭不必要的服务,打开默认的增强功能(CEF等),加快三层网络路由收敛速度,加快二层网络生成树收敛速度等)。 (2)安全优化(如密码加密,Telnet控制等)。 (3)提高软件配置命令可读性。 3)硬件设施的预防性运维 根据对服务器及存储设备的运行记录、趋势的分析结合应用系统的需求发现服务器及存储设备的脆弱点,有针对性地进行改进性作业,如删除垃圾数据,释放数据空间;增加数据文件空间使用范围;增加电源供电模块冗余;调整存储RAID数据保护级别等。 4)基础软件的预防性运维 根据信息系统的特点和运行需求,分析软件的运行情况,调整软件的不合理初始配置、参数配置等,以满足应用系统的运行要求,如连接池参数调整,关键配置文件定期备份,调整数据库备份策略,数据库配置参数调整,数据库资源使用调整,数据库执行SQL调整,主机操作系统内核参数调整。3.3.4 咨询评估运维 咨询评估运维指运维人员根据系统运行的需求,提供服务器及存储设备的咨询评估服务,并提出存在或潜在的问题和改进建议。咨询评估运维过程中需要关注的要素如表3-29所示。表3-29 咨询评估运维过程中需要关注的要素 关 注 要 素要 素 内 容在咨询评估开展前,制定咨询评估计划包括目标、内容、步骤、人员、预算、进度、交付成果和沟通计划等编写咨询评估报告包括现状评估、访谈调研、需求分析、咨询建议等制定报告的评审制度包括组织内部评审和外部评审,并进行记录持续跟踪咨询评估的落地执行情况咨询评估的落地执行具体情况 咨询评估运维过程将形成无形和有形两种形式的成果,如表3-30所示。表3-30 咨询评估运维过程中形成的主要成果成 果 类 型成 果 内 容无形成果(1)运维对象的衡量评价(2)运维对象的规划建议有形成果(1)咨询评估计划(2)咨询评估的方案和评审记录(3)咨询评估交付过程中的其他报告 具体来讲,咨询评估作业包括被动性咨询服务、主动性咨询服务。被动性咨询服务是根据需求,对服务对象进行现状调研和系统评估,识别出服务对象的运行健康状况和弱点,并提出改进建议;主动性咨询服务是根据应用系统的特点和运行需求,对服务对象的运行状况、运行环境进行分析和系统评估,提出改进或处理的建议和方案。 1)基础设施的咨询评估 主要包括以下内容。 (1)空调系统:机房环境指标分析及改进建议,机房热点分析及布置改进建议,机房送风、回风方式改进建议,辅助制冷单元配置建议等。 (2)供配电系统:机柜供电分析及改进建议,机房回路调整分析、调整建议,机房扩容建议等。 (3)发电机:发电机负荷分析及调整建议等。 (4)UPS系统:UPS运行分析及扩容建议等。 (5)安全系统:图像监控系统分析及改进建议(如增加存储设备、增加摄像头等),报警系运行分析及改进建议等。 2)网络设施的咨询评估 主要包括以下内容。 (1)网络实际负荷与承载能力分析。 (2)网络预期负荷与承载能力分析与建议。 (3)网络架构变动分析与建议。 (4)网络路由策略变动分析与建议。 (5)网络安全策略变动分析与建议。 (6)网络配置调优分析与建议等。 3)硬件设施的咨询评估 指通过对服务器及存储设备的运行记录、趋势分析,发现服务器及存储设备存在或潜在的问题,提出改进或处理的建议和方案。3.4 信息系统设施的故障诊断与修复 设施故障是一个令人头痛而又不得不面对的难题,也是运维人员直接面对的问题,并需要做到快速定位问题、合理分析故障成因、找出排查方案,本节主要介绍信息系统设施的常见故障排除过程、诊断方法及故障诊断的原则和注意事项。信息系统设施常见故障按照区域大致可以分为机房内故障和机房外故障。机房内故障主要包括网卡断线或降速故障、网线断线或降速故障、交换机整体故障/单口故障或VLAN 故障、机柜级联故障等,机房外故障主要包括区城行网络故障和DNS解析故障等。按照故障性质则可分为链路故障、配置故障、协议故障和服务器故障四类。链路故障通常由接插件松动或设备硬件损坏所致,而其他故障则往往由人为的设置所致。在检查和定位故障时,必须认真考虑可能出现故障的原因,以及应当从哪里开始着手,一步一步进行追踪和排除,直至后恢复设施的正常运行。3.4.1 主要故障原因与现象 虽然故障现象千奇百怪,故障原因多种多样,但总的来讲都可以归纳为硬件问题和软件问题,即连接性问题、配置文件和选项问题、网络协议问题及网络拓扑问题等。 1.网络链路 网络链路是故障发生后首先应当考虑的原因。链路的问题通常是由网卡、跳线、信息插座、网线、交换机等设备和通信介质引起的,其中,任何一个设备损坏,都会导致网络连接中断。 链路通常可采用软件和硬件工具进行测试验证,如当某一计算机不能浏览Web时,首先想到的就是网络链路的问题。到底是不是呢?这要通过测试进行验证——FTP可以登录吗?看得到网上邻居吗?可以收发电子邮件吗?用Ping 命令可得到网络内同一网段的其他计算机吗?只要其中一项回答为“Yes”,那就不是链路问题。当然,即使回答为“No”,也不能表明链路肯定有问题,而是可能会有问题,因为如果计算机网络协议的配置出了毛病也会导致上述现象的发生。另外,看一看网卡和交换机的指示灯是否闪烁及闪烁是否正常。 当然,如果排除了由于计算机网络协议配置不当而导致故障的可能之后,接下来要做的事情就比较麻烦了,需要查看网卡和交换机的指示灯是否常,测量网线是否通畅,检查交换机的安全配置和VLAN配置,直至后找到影响网络链路的原因。 2.配置文件和选项 所有的交换机和路由器都有配置文件,所有的服务器、计算机都有配置选项,而其中任何一台设备的配置文件和配置选项设置不当,都会导致网络故障。如路由器的访问列表配置不当会导致Internet连接故障;交换机的VLAN 设置不当会导致VLAN间的通信故障,彼此之间都无法访问,更不用说访问Internet了;服务器权限设置不当,会导致资源无法共享或无法获得足够权限的故障;计算机网卡配置不当,会导致无法连接的故障等。因此在排除硬件故障之后,就需要重点检查配置文件和选项的故障了。 当某一台计算机无法接入网络,或无法与连接至同一交换机的其他计算机通信时,应当检查接入计算机的配置;当某台接入层交换机无法连接至网络时,应当检查该交换机级联端及汇聚层交换机的配置;当同VLAN或几个VLAN内的交换机无法访问时,应当检查接入、汇聚或核心交换机的配置;当所有交换机都无法访问Internet 时,就应当检查路由器或代理服务器的配置;当个别服务无法实现时,应当检查提供相应服务的服务器配置。 3.网络协议 网络协议是在网络设备和计算机网络中彼此“交谈”时所使用的语言。网络协议的配置在网络中有着举足轻重的地位,决定着网络能否正常运行。任何一个网络协议配置不当,都有可能导致网络瘫痪,或导致某些服务被终止,从而出现网络故障。 4.服务故障 服务故障主要包括三个方面,即服务器硬件故障、网络操作系统故障和网络服务故障。所有的网络服务都必须进行严格的配置或授权,否则就会导致网络服务故障。例如,服务器权限设置不当,会导致资源无法访问;主目录或默认文件名指定错误,会导致Web网站发布错误;端口映射错误,会导致无法提供某种服务等。 因此,当排除硬件故障之后,就需要重点检查配置文件和选项;当网络内所有的服务都无法实现时,应当检查网络设备的配置,尤其是连接网络服务器的交换机的配置;如果只有个别服务无法实现,则应当检查提供相应网络服务的相关配置。3.4.2 故障排除步骤 在开始动手排除故障之前,应当养成一种良好的习惯,即进行故障排除时就开始做好记录,而不是在事情做完之后才来记录,认真而翔实的记录不仅有助于一步一步地记录问题、跟踪问题并终解决问题,而且也为自己或其他运维人员以后解决类似问题提供了完整的技术文档和帮助文件。 1.识别故障现象 识别问题是排除故障的关键。运维人员在排除故障之前,必须确切地知道网络上到底出了什么毛病,是不能共享资源,还是不能浏览Web 页,或是不能使用QQ 等。对一名优秀运维人员的基本要求,就是能够对问题进行快速定位。为了与故障现象进行对比,必须非常清楚网络的正常运行状态,即了解网络设备、网络服务、网络软件、网络资源在正常状态下的表现方式,了解网络拓扑结构,理解网络协议,掌握操作系统和应用程序,都是故障排除必不可少的理论和知识准备。识别故障现象时,应该询问以下几个问题。 (1)故障的表现是什么? 无响应? 报错? (2)故障是什么时候发现的? (3)故障是否可重现? (4)有没有出现的规律(如每小时出现一次)? (5)故障影响的特定用户群是什么样的(已登录的、退出的、某个地域的……)? (6)后一次对整个平台进行更新的内容是什么(代码、服务器等)? (7)当被记录的故障现象发生时,正在运行什么进程? (8)这个进程以前运行过吗? (9)以前这个进程的运行是否成功? (10)这个进程后一次成功运行是什么时候? (11)基础架构(物理的、逻辑的)的文档是否能找到? (12)是否有监控平台? 是否可用? (13)是否有日志可以查看? 2.对故障现象进行详细描述 在处理由用户报告的问题时,对故障现象的详细描述显得尤为重要。例如,运维人员接到用户电话,说无法浏览Web网站,那么仅凭这些信息,恐怕任何人都无法做出明确的判断。这时,就要亲自到现场去试着操作一下,运行一下程序,并注意出错信息。例如,在使用Web浏览器进行浏览时,无论输入哪个网站都返回“该页无法显示”之类的信息;或者使用ping程序时,无论ping哪个IP地址都显示超时连接信息等,诸如此类的出错消息会为缩小问题范围提供许多有价值的信息。注意每一个错误信息,并在用户手册中找到它们,从而得到关于该问题更详细的解释,是解决问题的关键。另外,亲自到故障现场进行操作,也有机会检查用户操作系统或应用程序是否运行正常,各种选项和参数是否被正确地设定。如果在操作时没有任何问题,那就可能是操作者的问题了。不妨让用户再试一次,认真监督他的每一步操作,以确保所有的操作和选项都被正确地执行和设置。当然,在亲自操作时,应当对故障现象做出详细的描述,认真记录所有的出错信息,并快速记录所有有关的故障迹象,制作详尽的故障笔记。分析这些究竟表明了什么,这些故障现象是否相互联系,在寻找问题答案的过程中,很有可能又导致更多的故障现象产生。所以在开始排除故障之前,应按以下步骤执行。 (1)收集有关故障现象的信息。 (2)对问题和故障现象进行详细的描述。 (3)注意细节。 (4)把所有的问题都记下来。 3.列举可能导致错误的原因 接下来要做的就是列举所有可能导致故障现象的原因了。运维人员应当考虑,导致无法用Web 浏览器的原因可能有哪些,是网卡硬件故障、网络设备故障,还是TCP/IP协议设置不当等。在这个阶段不要试图去找出哪一个原因就是问题的所在,只要尽量多地记录下自己所能想到的,而且是可能导致问题发生的原因就可以了,也可以根据出错的可能性把这些原因按优先级别进行排序,不要忽略其中的任何一个细节。 4.缩小搜索范围 运维人员必须采用有效的软硬件工具,从各种可能导致错误的原因中一一提出非故障因素。对所有列出的可能导致错误的原因逐一进行测试,而且不要根据一次测试就断定某一区域的网络是运行正常还是不正常。另外,当确定了一个错误后也不要自以为是地停下,而不再继续测试。因为此时既可能是搞错了,也可能是存在的错误不止一个,所以,应该使用所有可能的方法来测试所有的可能性。 除了测试之外,还要注意以下几件重要的事情。 (1)检查网卡、交换机和路由器面板上的LED指示灯。通常情况下,绿灯表示连接正常;红灯表示连接故障;不亮表示无连接或线路不通;长亮表示广播风暴;指示灯有规律地闪烁才是网络正常运行的标志。 (2)检查服务器、交换机或路由器的系统日志,因为在这些系统日志中往往记载着产生的错误及错误发生的全部过程。 (3)利用网络管理软件检查问题设备。如Cisco Works、HP OpenView 等网管软件,具有图形化的用户界面,交换机各端口的工作状态可以一目了然地显示在屏幕上。更进步,许多网络管理软件还具有故障预警和告警功能,从而使在缩小搜索范围时省下不少的力气。 当然,在这一步骤中要及时记录下所有的观察及测试的手段和结果。 5.定位错误 运维人员经过反复的测试,明确故障源,假设可能是计算机出错,则首先检查该计算机网卡是否安装好,TCP/IP协议是否安装并设置正确,Web浏览器的连接设置是否得当等一切与已知故障现象相关的内容。然后就是排除故障。在排除之前需要对发生的故障有充分的了解,这样故障排除也就变得简单了。但是,不要就此匆忙地结束工作,因为还有更重要的事情——故障分析。 6.故障分析 故障处理完之后,作为运维人员必须搞清楚故障是如何发生的,是什么原因导致了故障的发生,以及如何避免类似故障的发生,应拟定相应的对策,采取必要的措施,制定严格的规章制度。 对于一些对于非常简单明显的故障,上述过程看起来可能会显得有些烦琐。但对于一些复杂的问题,这却是必须遵循的操作规程。 后,记录所有的问题,保存所有的记录。另外,经常回顾曾经处理过的故障也是种好的习惯,这不仅是一种经验的积累,便于以后处理类似故障,而且还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。3.4.3 故障诊断方法 信息系统设施的故障多种多样,不同的故障有不同的表现形式。在分析故障时要透过各种现象灵活运用诊断方法,如排除法、对比法、替换法等。在实际应用中,要根据不同的故障现象使用不同的方法,或者几种方法综合使用。 1.排除法 排除法主要是根据所观察到的故障现象,尽可能全面地列举出所有可能导致故障发生的原因,然后逐一分析、诊断和排除。 使用排除法虽然可以应付各种各样的设施故障,但要求运维人员拥有深厚的理论功底、丰富的实践经验和较强的逻辑思维能力,且全面了解、掌握并灵活运用各种网络测试工具和管理工具软件,善于分析问题和解决问题。同时,由于导致故障现象发生的因素比较复杂,往往是一因多果或一果多因,因此,在解决和排除故障时会耗费较多的时间。由此可见,应当仔细观察故障现象,并根据经验依次排列可能的故障原因,先从可能导致故障的原因开始调查,从而缩短故障定位和解决问题所用的时间。归根到底,其他所有故障排除方法都是从排除法演变而来的,包括对比法和替换法,只是对比法和替换法在某些场合中比排除法更具有针对性而已。 2.对比法 顾名思义,就是对比故障设备和非故障设备之间的“软”“硬”差异,从而找出可能导致故障的原因。可用于对比的内容包括网络设备、端口、线卡、系统配置和系统映像。 使用与所怀疑发生故障的网络设备完全相同的设备进行替换,或者使用相同的端口、插槽或模块进行替换,并对两台设备或端口的不同连接进行对比,在对比结果中找出故障点并进行排除。这种方法虽然简单有效,但有时可能出现故障的设备不止一台,那么排除起来就可能非常麻烦了。 3.替换法 “替换法”从某种意义上来说与“对比法”是相同的,都是使用已知正常的设备或设备部件进行替换,并找出故障的部件进行排障。替换法主要用于设备硬件故障的诊断,需要注意的是,替换的部件必须是相同品牌、相同型号的同类网络设备。同时,替换法还是平时维修计算机的一种方法,该方法在硬件维护方面的应用非常广泛。3.4.4 故障诊断与修复原则 在排除设备故障时,决不能没有目的地乱碰运气,而应当遵循应有的规则和策略,只有如此,才能有条不紊地以快速度定位和排除故障。 1.先易后难 排除网络设备故障应当和平时工作一样,先从简单、有可能的导致故障的原因开始,逐一进行排除。运维人员应将导致某种故障的所有原因一一列出,然后从中挑选出发生概率、可能性且易于诊断和排除的原因,并由此入手,这样才能提高故障排查的速度。 例如,当某个端口所连接的计算机发生通信故障时,应当先使用网络管理软件,或者远程登录至该网络设备,查看故障端口的工作状态,或许故障原因就是端口由于某种原因宕掉了。这样,只需“enable”该端口,即可恢复该端口的连接。 当使用“enable”无法解决问题时,再查看网络设备的配置,看是否有访问列表或其他设置影响到该计算机的访问。 确认配置没有错误后,到发生故障的网络设备处,将发生故障的跳线连接到其他同类型和配置的端口,查看故障是否恢复。 如果故障仍未恢复,再查看用户计算机网卡工作状态是否正常,驱动是否正确安装,IP 地址信息设置是否正确。 如果客户端确认无误,再测试故障计算机整体链路(包括水平布线、信息插座至计算机的跳线、配线架至网络设备的跳线)的连通性。 2.先软后硬 所谓“软”,就是指应当先借助网络管理工具软件,远程查看设备的各种配置(包括层路由配置、访问列表配置、端口属性配置、VLAN和VLANTrunk配置等)、客户端的IP地址信息、端口的工作状态、网络设备的性能(CPU和内存占用情况等)和运行状态,确认是否由系统软件和系统配置等“软”因素导致了网络设备故障。然后,再用视图修改系统配置文件,升级系统软件,重新激活端口或VLAN的方式,修复网络设备的“软”故障。 所谓“硬”,是指在“软”的手段不能奏效,进而怀疑端口、模块、板卡甚至网络设备本身,以及网络链路发生故障时,以替换相应硬件或链路的方式,修复网络设备的“硬”故障,恢复正常通信。 3.先边缘后核心 所谓先边缘后核心,是指在诊断和隔离网络故障时,应当先从边缘的客户端开始,向接入层、汇聚层和核心层进行,进而定位发生故障的位置,判断发生故障的设备,分析发生故障的原因。 4.先链路后设备 通常情况下,网络设备发生故障的可能性比较小。与之相对应,网络链路由于接插件比较多,而任何一个接插件的松动或故障都可能导致物理链路的中断。因此,在发生网络故障时,如果确认是物理硬件故障,则应当先检查链路的完整性,然后再查看端口或设备是否发生故障。3.4.5 故障诊断与恢复注意事项 故障排查是一项压力极大的工作,但完成之后却能帮助IT运维团队积累宝贵的处理经验。相对于日常运维来说,故障排查会给运维人员带来极大的恐慌感。此外,压力的存在还可能导致愚蠢的低级失误,这就更加需要运维人员以有条不紊的方式逐一开展尝试。故障诊断与修复工作还应特别注意以下两个方面。 (1)应保证所有修复操作可恢复:为了保障全部具有潜在价值的数据,需要备份当前配置、保存虚拟机或SAN快照、留存也许会丢失或被覆盖的日志文件副本等,将可能受到影响的数据复制到正常系统当中,以便应对故障修复工作可能带来的进一步恶化的情况,或在故障修复成功后进一步针对原始故障数据研究分析,从而找出故障的深层次原因。 (2)重视记录:运维人员需要详细记录故障观察结果及尝试过的故障排查操作步骤,这样能够防止运维人员一再尝试无效的修复工作,或便于进一步针对故障现象和修复措施进行统计分析。3.5 信息系统设施运维系统与专用工具3.5.1 信息系统设施运维管理系统功能 设施运维管理系统的功能主要包括资源管理、监控管理及故障预警管理功能,具体功能如下。 1.资源管理 1)设施快照 运维人员通过设备快照功能以图形化的形式实时获取设备当前的基本管理信息,包括设备名称、IP地址、网络掩码、类型、分类、系统描述、所运行的服务名称、服务的状态、服务占有的端口、服务响应的时间、接口的基本信息及主机资源参数的基本信息等。 2)设施视图 以图形方式呈现信息系统相关设施的信息,能够动态实时显示各类资源的运行状态了解资源的分布与状态信息,以及对网络中的资源进行监控。系统一般支持以下几方面的视图。 (1)网络拓扑图:以地理视图、层次图等方式显示物理、逻辑网络拓扑结构。 (2)机房平面图:提供机房内设备物理摆放位置的视图。 (3)机架视图:提供设备在机架上物理摆放位置的视图。 (4)设备面板图:对被管理的设备应以与设备同样的物理构成直观进行显示,设备面板图应同时可以显示正面面板和背面面板。 通过设备面板管理实现对于交换机运行状态、端口流量、端口丢包率等性能参数的监视与管理,以及对交换机端口的操作,如交换机端口的管理与取消管理,对于端口的开启和关闭等。 设备面板图包括真实面板和仿真面板两种视图方式。 视图管理能够将拓扑视图与故障、性能等功能关联,能够在拓扑图上直观地显示被管理资源的运行状态,并且支持告警的传递显示。 3)设备活动及安装软件信息 该功能既可作为运维人员管理服务器、关键主机等设备的一个管理对象,同时也可以作为网络或设备发生异常时,辅助运维人员进行故障分析的一种手段。比如,一台关键服务器的流量异常增大,产生告警,运维人员可以通过对其活动进程的查看初步了解该服务器目前正在运行的进程,以初步确定造成流量异常增大的可能原因等。设备活动进程信息列表如图3-12所示。 4)网络设备端口分布 对于网络设备(路由器、交换机等),用户通过双击设备图标,获悉该网络设备端口分布管理的详细情况。 5)交换机端口分布 交换机端口分布管理是针对用户在日常管理维护工作中,需要实时查看某一台交换机的所有端口或某几台交换机的所有端口的进出流量等信息而提供的一个参考分析的功能。例如,用户感觉网络堵塞,想快捷明了地获悉究竟是哪台交换机、哪个端口所连的设备流量较大,可以通过此功能将所有交换机的所有端口进出流量进行排序,从而及时得到一个准确的结果。 2.监控管理 通过设施的监控及数据的采集和分析,能够及时对影响服务器运行性能的故障事件发送警告,并采取相应的故障处理措施,保证设施的正常安全运行。 1)基础环境监控 主要包括机房温度、空调工作状态及UPS监控等。 2)网络设备监控 主要包括网络设备监控、网络设备端口丢包监控、ICMP连通性监控等,以及时发现隐患,具体内容参见3.3.1节。 3)硬件设备监控 对硬件设备的CPU、内存、硬盘、网卡等硬件的关键运行参数进行分类扫描监测,如CPU性能监控、内存占用监测等,具体内容参见3.3.1节。 (1)CPU性能监测:及时了解硬件CPU 资源占用情况,如图3-5所示。
图3-5 硬件CPU资源占用情况 (2)内存占用监测:及时了解硬件内存资源占用情况,如图3-6所示。
图3-6 硬件内存资源占用情况 4)基础软件监控 对软件和应用程序的进程、服务、端口等的运行状况进行分类扫描监控,具体内容参见3.3.3节。 (1)基础应用监控:监测基础软件进程的性质,CPU、内存的使用情况,分析进程的安全状态,监测制定服务的状态。对应用进程运行状态的监测如图3-7所示。
图3-7 应用进程运行状态监测图示 (2)数据库监控:针对数据库的各种指标进行监控。 3.故障预警管理 在做好设施监控与分析的同时,要能够做到故障发生前的性能预警,当某参数超过预置的门限时,产生告警。 1)资源预警 可以针对资源参数,如CPU使用率、内存使用率等设定合理的门限值,在性能越界的时候给出性能预警,如图3-8所示。
图3-8 资源预警示意 2)网络性能预警 针对网络性能参数,如进/出流量、错误率、丢包率等设定合理的门限值,在性能越界的时候给出性能预警。对于网络性能参数的性能预警,不仅仅只是针对整个设备,同时对于设备上的端口也可以做更为细化的门限和性能预警设置。如交换机,既可以对交换机总流量进行性能预警,同时又可以对其相应的端口做门限设置后性能预警,如图3-9所示。
图3-9 网络性能预警示意 3)基础软件性能预警 针对所监视的基础软件设定如响应时间等性能的合理门限值,在性能越界的时候给出性能预警,如图3-10所示。
图3-10 网络服务预警事件示意3.5.2 典型信息系统设施运维典型专用工具 信息系统设施运维的专用工具主要包括在准备阶段的运维部署工具、过程中的运维配置 工具和运维监控工具,优化改善过程中的日志分析工具及其他辅助专用工具等,具体如表3-31所示。表3-31 典型运维专用工具阶段准备阶段过程阶段(配置管理与自动化)过程阶段(监控)优化改善类型例行操作运维部署工具例行操作运维配置工具例行操作运维监控工具日志分析工具工具 Kickstart Cobbler OpenQRM SpaceWalk Puppet Func Chef Cfengine Capistrano ControlTiger Nagios Zabbix Cacti Gandia Hyperic OpenNMS Splunk Loggly Airbrake Graylog 1.典型例行操作运维配置工具 当系统环境稳定运行后,可采用运维配置工具辅助管理网络、服务器、应用程序、后台程序及各种服务,帮助运维人员更加方便地完成升级软件包、管理配置文件、系统服务、计划执行任务、添加新的配置、修复错误等重复工作。另一方面,随着IT产业向云计算迈进,配置管理工具除了在提高效率方面发挥作用外,也会成为一种更有效的使用云计算的方式。 当前主流的运维自动化配置管理工具大部分为开源软件,主要包括Puppet、Func、Chef、Cfengine及Capistrano等,其中以Puppet、Func和Chef为常用,如表3-32所示。表3-32 主要运维配置工具Puppet、Func和Chef工具名称来源特 点Puppet开源主流运维集中配置管理系统,也是目前应用为广泛的一个运维工具。典型用户包括淘宝、新浪、Google、RedHat、Amazon等。Puppet能够采用自己的声明语言自动化重现任意的系统,其的优势在于简单,运维人员几乎可以通过使用Puppet来处理所有的管理细节Func开源全称为Fedora Unified Network Controller,可以用在RedHat系列产品上,是为了解决统一管理问题而设计开发的自动化的远程服务器管理框架。该工具的优势在于可让运维人员在主控机上一次管理任意多台服务器,或任意多个服务器组,另外,通过Func的命令行可以直接发送远程命令或者远程获取数据Chef开源是—个系统集成配置框架,可以用Ruby等代码完成服务器的管理配置并编写自己的库。典型用户包括Twitter、Amazon等 2.典型例行操作运维监控工具 信息系统设施运维通常采取基于反应的问题解决方案,但往往效率低下,而设施运维监控工具能够通过对各种设施的监测及数据的采集,及时对影响设施运行性能的事件(包括故障)发送告警,以便采取相应的处理措施,保证设施的正常安全运行。一个相对完善的运维监控工具应能够记录基础设施中运行的所有服务器和机器,能够在小问题变大之前发出警告;能从一个中心地点运行,而减少必须到每台物理设施才能解决问题的需求;能提供有关全系统状态、未解决问题等直观视图。 但是,没有任何的监控工具可以监视运维所需的一切内容,因此首先需要根据需求制定明确的监控策略。 1)设施运维监控基本策略 为更好、更有效地保障系统上线后的稳定运行,对于信息系统设施中的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测策略和机制,需要明确定义监控的对象、方式,设定告警的优先级、标准等,具体策略包括以下内容。 (1)监控对象:在一个规模较大的网络中,监控的对象可能包括服务器、防火墙、交换机、路由器等设备及运行在各对象上的服务,不需要将所有的对象都放到监控系统中,监控策略的设计首先应明确监控对象。 (2)故障告警方式:对监控系统而言,一定要有合适的故障告警机制。目前常用的告警机制包括邮件、短信、MSN、Web页面显示等几种手段,这几种手段中,短信告警。 (3)告警时效和间隔的选择:由于网络通信等不可控因素,可能存在故障误报的情况,不应将告警发送设置成一次探测不成功就发送。此外,故障告警开始发送以后,在收到确认排除前会持续发送,因此需要合理设置告警发送的间隔。 告警时效和间隔的策略参考建议:探测4次失败开始告警,告警间隔10分钟,总共发送8次,然后停止发送,假如第3次没有人去处理,监控工具电话通知,没有回应则取消该对象的监控,并记录该次事件。 (4)监控平台地点的选择:对于一个规模较大的网络,为解决南北互连问题一般会采取在多个地点建立数据中心的方法,这时需要对不同地理位置的服务器进行监控,也会遇到访问慢的问题。解决这个问题有几种方式:①选择一个到各个位置访问都顺畅的数据机房;②采取分布式监控平台,各处自己收集监控信息,然后到一处汇总;③各数据中心单独建立监控平台。 (5)定义告警优先级策略:对于监控到的事件,通常将访问网页出错、连接不到Socket等故障设置为优先告警。此外,对返回的延时、内容的信息,如访问网页的时间、访问网页取到的内容及其他数据指标等,可自定义告警条件,如对Ping监控的返回延时一般是10~30ms,当延时大于100ms时,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否有流量过大或者服务器CPU太高等问题;当监控到磁盘空间超过一个阈值时,可能会引起数据库损坏,服务响应变慢等问题,需要告警进行检查和处理。 (6)定义告警信息内容标准:当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。预先定义告警内容及标准能使收到的告警内容具有规范性及可读性。这一点对于用短信接收告警内容特别有意义,短信内容多是70个字符,要用70个字符完全明确故障内容比较困难,更需要预先定义内容规范。例如,“视频直播服务器10.0.211.65在2012-10-18 13:00电信线路监控到第1次失败”,清晰明了地告知故障信息。 (7)通过邮件接收汇总报表:设计固定周期收到网站服务器监控的汇总报表邮件,运维人员只需花很少的时间就能大致了解网站和服务器状态。 (8)定义故障告警主次:对于监控同一台服务器的服务,需要定义一个主要监控对象,当主要监控对象出现故障时,只发送主要监控对象的告警,其他次要的监控对象暂停监控和告警。例如,用Ping来做主要监控对象,如果Ping不通出现Timeout,表示服务器已经宕机或者断网,这时只发送服务器Ping告警并持续监控Ping,因为再继续监控和告警其他服务已经没有必要。这样既能大大减少告警消息数量,又可以让监控更加合理、更加有效率。 (9)规范本地部署的监控脚本,并归纳总结:对在本地部署的监控脚本要进行统一规范的部署并记录到知识管理系统中以便沉淀及优化。 (10)实现对常见性故障业务自我修复功能:实现对常见性故障业务自我修复功能脚本进行统一部署,并对修复后的故障进行检査,一般告警检查频次不多于3次。 (11)对监控的业务系统进行分级:如设置类似“一级系统7×24小时告警,二级系统 7×12小时告警,三级系统5×8小时告警”这样的业务系统分级标准。 2)常用运维监控工具 当前主流的运维监控工具主要包括Nagios、Zabbix、Cacti、Gandia、Hyperic等,其中以Nagios、Zabbix和Cacti为常用,如表3-33所示。表3-33 主要运维监控工具Nagios、Zabbix和Cacti工具名称来源特 点Nagios开源是一个监控系统运行状态和网络信息的监控系统,能有效监控系统、应用、服务及各种进程的运行状况,目前已经成为很多公司的监控工具;告警机制包括短信、邮件等,可由用户自行定义。主要功能包括:① 监控网络服务(SMTP、POP3、HTTP、NNTP、PING等);② 监视本地或者远程主机资源(内存、进程、磁盘等);③ 允许用户编写自己的插件来监控特定的服务;④ 具备定义网络分层结构的能力,用“Parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;⑤ 具备定义事件句柄功能,可以在主机或服务的事件发生时获取更多问题定位;⑥ 自动的日志回滚;⑦ 可支持对主机的冗余监控;⑧ 可选Web界面用于查看当前的网络状态、通知和故障历史、日志文件等Zabbix开源基于Web界面的用于监控网络上的服务器/服务及其他网络设备状态的网络管理系统,能监视各种网络参数,保证服务器系统的安全运营;并提供柔软的通知机制以让系统管理员快速定位/解决存在的各种问题;由两部分构成:zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP、zabbix agent、ping、端口监视等方法提供对远程服务器/网络状态的监视、数据收集等功能。zabbix agent须安装在被监视的目标服务器上,它主要完成对硬件信息或与操作系统有关的内存、CPU等信息的收集,主要功能包括:① 监控CPU负荷;② 监控内存使用;③ 监控磁盘使用;④ 监控网络状况;⑤ 监控端口和日志Cacti开源是基于PHP、MySQL、SNMP及rrdtool的网络流量监测图形分析工具,能统计网络设备的流量、CPU、系统负载等参数,也可以自定义监测的指标,提供非常强大的数据和用户管理功能,运用SNMP采集数据,使用rrdtool绘图;可以让运维人员在主控机上一次管理任意多台服务器,或任意多个服务器组 3.典型优化运维工具——日志分析 日志在信息系统中是一个非常广泛的概念,任何程序都有可能输出日志,如操作系统内核、各种应用服务器等。日志分析工具是运维人员在响应支持运维中进行问题定位的有效辅助工具,也可以作为优化改善中预防性改进的有效辅助,越来越为运维人员所重视。 当前主流的运维日志分析工具包括Splunk、Loggly、Airbrake、Graylog等,其中以 Splunk和Loggly为常用,如表3-34所示。表3-34 主要运维日志分析工具Splunk和Loggly工具名称来 源特 点Splunk非开源能够实时从日志文件获取事件,能够监听syslog或获取Windows事件,并且采用通用方式索引任何内容格式的数据,不需要连接器。主要功能包括:① 搜索和报表,问题定位:可与Nagios配合使用,如Nagios告警某台RegionServer端口不可达,系统收到Notification后,登录Splunk,直接搜索shutdown和host名称,找到RegionServer退出的日志,单击详细信息,分析日志,就能快速定位问题。② 日志分析预警:可以通过日志分析实现事件预警,如利用Splunk实时检测日志中的关键字,定义关键字规则,如监控“shutdown”等,一旦出现,利用Splunk的Notification功能,通知管理员,管理员通过Splunk定位问题,就可以在系统真正出现问题之前对系统进行调整,防患于未然Loggly开源将机器生成的日志文档整理为可进行搜索的格式,可以分析日志数据,进而可以是任何应用程序、系统或平台来解决业务系统的问题。主要功能包括:① 完成应用程序的信息收集和汇总分析,了解自己的用户群和应用软件的未来发展;② 快速地找到问题的根源并消除它,在开发过程中不断地寻找和修复bug;③ 提前监控应用程序的威胁点并设置警报条件,将问题消除在萌芽中 4.其他运维工具 除了以上列举的运维专用工具之外,其他设施运维专用工外还包括信息资源管理工具(如glpi)、交互式拓扑绘制工具(如Network Notepad)、性能测试工具(如存储子系统读/写性能测试工具Iometer、网络性能测试工具Netperf)等。 (1)信息资源管理工具glpi。它是Linux环境下的资源管理器工具,通过glpi可以建立设施资产清单(计算机、软件、打印机等)数据库,其功能可以简化管理员的日常工作,如带有邮件提醒功能的工作跟踪系统等。 (2)交互式拓扑绘制工具Network Notepad。可以通过第三方工具自动发现网络拓扑,例如,使用CDP工具可以支持自动发现网络中所有思科的设备。在使用Network Notepad绘制网络拓扑图之前,应同时安装它的一些图形库,这些图形库中包含许多基本的网络设备图形,直接以拖曳的方式进行绘制即可。 (4)存储子系统读/写性能测试工具Iometer。Iometer是Windows系统下对存储子系统的读/写性能进行测试的软件,可以显示磁盘系统的I/O能力、磁盘系统的吞吐量、CPU使用率、错误信息等。用户可以通过设置不同的测试参数,如存取类型(如sequential、random)、读/写块大小(如64KB、256KB)、队列深度等,来模拟实际应用的读/写环境进行测试。 (5)网络性能测试工具Netperf。Netperf可以测试服务器网络性能,主要针对基于TCP或UDP的传输。Netperf根据应用的不同,可以进行不同模式的网络性能测试,即批量数据传输(bulkdata transfer)模式和请求/应答(request/response)模式。Netperf测试结果所反映的是一个系统能够以多快的速度向另外一个系统发送数据,以及另外一个系统能够以多快的速度接收数据。 Netperf工具以Client/Server方式工作。Server端是Netserver,用来侦听来自 Client端的连接,Client端是Netperf,用来向Server端发起网络测试。在Client与Server之间,首先建立一个控制连接,传递有关测试配置的信息,以及测试的结果;在控制连接建立并传递了测试配置信息以后,Client与Server之间会再建立一个测试连接,用于来回传递特殊的流量模式,以测试网络的性能。 (6)端口扫描器Unicornscan。通过尝试连接用户系统分布式TCP/IP堆栈获得信息和关联关系的端口扫描器,该工具试图为研究人员提供一种可以刺激TCP/IP设备和网络并度量反馈的超级接口,主要功能包括带有所有TCP变种标记的异步无状态TCP扫描、异步无状态TCP标志捕获,通过分析反馈信息获取主动/被动远程操作系统、应用程序、组件信息等。3.6 云环境下的信息系统设施运维 云计算是一种新型的共享基础架构平台,它将IT的能力转换成自助服务、随时取用、可自动伸缩的灵活的基础设施,这样的能力需要将计算、存储、网络等能力融合在一起。云计算能为一个组织带来崭新的消费模式和交付模式。从消费模式方面讲,组织的IT需求不必再通过购买IT硬件设备和软件来满足,它们可以从云计算提供商那里租赁所需的IT资源来满足自己的IT需求;从交付模式讲,组织也不必再像在云计算出现之前的IT技术那样,建设一套软硬件基础设施,加上机房等配套的物理建设和电力资源,而是可以通过网络从云计算提供商那里获取所需的计算和企业应用资源。 从信息系统设施运维层面,IaaS和PaaS提供商需要更加具备系统性、敏捷性;云服务使用者的设施运维工作更多交给云服务提供商,本质上可以认为随着硬件的交付,设施运维也大部分随之交付。3.6.1 云环境下信息系统设施运维的优势 云计算具有资源配置动态化、需求服务自助化、网络访问便捷化、服务可计量化、资源虚拟化的特征。在云计算环境下,信息系统运维的重点将不仅是原先的设备运行正常、网络畅通,对云服务提供商而言,运维更需要关注资源的主动供给、自动配置、可持续性及可追踪的实时配置管理;此外,云计算的发展也推动了云服务使用方信息化管理观念的不断发展成熟。 具体而言,云环境下信息系统设施运维的优势表现为以下3点。 (1)设施运维工作更加专业、敏捷。在云环境中会由更加专业的运维人员(如云服务商的运维人员)从事基本的设施运维工作,云应用单位的运维职责将转向业务本身,而不是传统运维中要求的“多面手”,这也符合云计算这种新型服务化计算模式的基本诉求。 (2)设施运维单机故障影响更小。由于云计算虚拟化的特征,少数服务器宕机对系统几乎没有影响,这与传统设施运维中要求的快速响应处理截然不同,运维人员不再需要像救火队员一样,用原始的命令在多台机器间疲于奔命。 (3)设施运维成本更低。对云服务提供商而言,通过虚拟化技术可以整合硬件资源,通过规模化、自动化的运维节约运维成本,此外,云环境下的高度自动化也使得运维人力成本大幅度降低;对云服务使用方而言,云计算可以满足他们业务量动态增减和工作尖峰情况的需求,从而为企业降低了基础设施的投入成本和维护成本。3.6.2 云环境下信息系统设施运维的挑战及要求 1.云环境下信息系统设施运维的挑战 云计算的虚拟化特性使得在信息系统设施运维中需要以一个统一的整体来看待计算、存储和网络资源,因而在与传统信息系统设施运维相比时呈现出在专业化、低成本等方面的优势,但云环境下需要面对动辄上百台的性能强劲的服务器,因其极大的存储量、全天候的访问压力、随时可能突变的用量,信息系统设施运维在架构复杂度、故障处理难度方面面临新的挑战。 (1)设施架构复杂度更高。与传统设施运维相比,云环境下的用户数多,设施规模大且往往呈极速膨胀状态,还有设施部署关联度大,因此架构复杂度更高。 (2)设施故障可能造成更大范围的损失。云计算的核心是虚拟化技术,其设施环境一般为多机房、多服务器环境,系统规模庞大,因此虚拟机一旦出现故障,若不能及时恢复,损失将可能远远超过节省的费用。 (3)运维故障处理难度更大。由于云计算虚拟化的特性,业务系统可以位于服务器集群中的任何计算节点,可以利用任何存储设备上的存储空间,可以使用虚拟网络,也可以进行转移以满足性能或运营需求,这样的伸缩性优势使得信息系统设施的位置不明确,掌控难度大,加之基础架构的高复杂度,使得云环境下的设施故障处理的复杂度比传统设施运维要高。 2.云环境下信息系统设施运维的要求 云计算环境特有的高可靠性、高可用性、快速响应支持、高质量及低成本等特性,使得信息系统设施运维的重点从设施本身转向设施整体的把控和优化。从体系层面,云环境下的运维应做到自动化、规模化、智能化及数字化;从技能层面,在自动化运维大大提高运维工作效率的同时,运维团队需要更多了解系统底层,时刻考虑如何优化,如何提升运维价值。 (1)整体性要求。虚拟化的云计算环境加上云环境中的高应用密度,需要信息系统的设施运维将计算、存储和网络系统作为一个整体,合作应对。 (2)自动化、规模化要求。由于运维对象规模庞大,架构复杂度高,因此在部署、监控、资源配置等方面要求实现全面自动化与规模化,而在传统设施运维中,规模相对小,自动化并不是其必然要求。 (3)数字化要求。要求运维工作充分重视自动化工具积累的真实数据,要能分析挖掘数据,进而能够预测问题,实现“数字化运维”。 (4)智能优化要求。云计算环境下的设施运维要求能实现整体智能优化,具体而言包括机房网络性能、带宽指标、服务器性能的智能优化及服务器成本优化等。本章要点 本章主要介绍有关信息系统设施运维的管理体系、管理对象、运维内容、运维系统和辅助工具,以及故障的诊断与修复。要点如下。 (1)信息系统设施运维的管理体系; (2)基础环境、网络设备、硬件设备和基础软件的运维; (3)信息系统设施运维的环境管理; (4)信息系统设施例行操作运维、响应支持运维、优化改善运维和咨询评估运维内容; (5)信息系统设施的主要故障原因与现象,故障排除步骤与方法; (6)信息系统设施的运维管理系统与运维工具。思考题 (1)信息系统设施包括哪些?设施运维的管理体系是怎样的? (2)信息系统设施运维的对象包括哪些? (3)信息系统设施运维的具体内容是什么? (4)信息系统设施运维的环境管理包括哪些部分? (5)简述信息系统设施运维管理系统的功能。 (6)简述信息系统设施运维系统与运维辅助工具的关系。 (7)简述信息系统设施的故障诊断步骤与修复方法。 (8)云计算技术趋势下信息系统设施的运维将有哪些变化?
评论
还没有评论。