随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络 安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务.为确保 系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置” 的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、 反应迅速处置有力的机房安全体系的目标, 将正在发生或者已发生事故的伤害程度 减轻到最低,确保员工安全,特制定本应急处置预案.
本预案共分为应用系统故障应急流程和机房突发事件应急流程
系统运维服务小组可从以下途径得知故障的发生:
1。1、运维服务中心通过网管告警发现故障 1。2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1。4、驻场工程师发现故障
监控系统运维服务小组得知系统故障发生后, 即将响应, 并向报障人或者单位 详细了解系统故障情况。
运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用普通故 障处理流程还是即将启动系统突发故障应急处理预案.
如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启 动应急预案,对系统突发故障应急事件进行全面管控处理。
系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程 度、技术难度、备品备件等情况对相关资源(主要是参预人员)依据经验进行调 度和确认,主要有以下资源:
我公司技术支持人员;
相关厂家技术支持人员 ; 我公司礼聘的技术专家
按照既定的预案进行突发故障抢修, 如遇到问题及时向系统突发故障应急领 导小组汇报。
预案的终止时间由故障现场技术人员根据现场的实际发展情况, 在与用户单 位有关部门协调后报系统突发故障应急领导小组决定。
预案中止后, 相关预案参预人员将整个事件过程中的经验和教训, 修改、 完 善事件应急预案。然后集中上报至系统突发故障应急领导小组。
1、自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。 2、事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与 信息系统的损坏.
3、人为破坏:指人为破坏网络路线、通信设施,黑客攻击、病毒攻击、恐怖 袭击等引起的网络与信息系统的损坏.
1、应急总指挥职责 1.1、保证在任何时间,及时协调应急行动所有涉及的岗位人员; 1.2、提供必须的紧急响应设备;
1.3、在紧急情况下全面负责紧急行动;
1.4、在必要时向外界求救,例如: 119、110、120 等。
2、应急副总指挥职责 2.1、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责; 2。2、根据获得的应急信息下达命令。
3、各相关设备负责人职责 3。1、负责尽快采集信息向应急总指挥汇报事故情况; 3.2、负责现场暂时设备抢救和对事态的控制 ; 3.3、听从上级指挥人员的指挥。
1.预防为主。立足安全防护,加强预警,重点保护基础信息网络和关系信息 安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管 理、 技术、 人员等方面采取多种措施充分发挥各方面的作用, 共同构筑安全保障 体系。
2。快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确 的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响.
3。分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及 联动工作机制。 根据各负责人的职能,各司其职,加强各负责人的协调与配合, 共 同履行应急处置工作的管理职责.
4。以人为本。把保障人员以及公共利益的安全作为首要任务。
5.常备不懈。加强技术储备,规范应急处置措施与操作流程,定期进行预案 演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科 学化、程序化与规范化.
机房各设备关闭顺序如下:
1、建立健全机房管理制度
1.1 在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是 :
巡视网络设备及系统的运行情况, 发生异常情况及时处理, 消除网络故障隐患。
1.2 节假日期间技术人员轮流值班,负责处理有关异常情况。
1.3 机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房 区域。
2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24 小时监控 等措施。
3、认真做好数据备份工作,定期做一次数据库彻底备份,每月检查服务器 运行和备份情况。
4、对机房的主要网络设备(路由器、 主干交换机等) 进行工作时间内全程监 控,发现异常情况应及时进行处理,确保整个网络的正常运行。
(1)发生机房漏水时,第一目击者应即将通知运维服务小组,并及时报告监
控系统突发故障应急领导小组。
(2)若空调系统浮现渗漏水,运维服务小组负责人应即将安排停用故障空 调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况 下可暂时用备用空调对服务器进行降温。
(3) 若为墙体或者机房门渗漏水, 运维服务小组负责人应即将采取有效措施确 保机房安全,及时清除积水,维修墙体或者门窗,消除渗漏水隐患。
(1)发生设备被盗或者人为伤害设备情况时,使用者或者管理者应即将报告系统 突发故障应急领导小组,同时保护好现场。
(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导 , 一同核实审定现场情况,清点被盗物资或者盘查人为伤害情况,做好必要的影像记 录和文字记录。
(3)事发单位和当事人应当积极配合公安部门进行调查, 并将有关情况向系
统突发故障应急领导小组汇报。
(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系 统正常运行, 并对事件进行调查。 运维服务小组和事发单位应在调查结束后一日 内书面报告系统突发故障应急领导小组。事态或者后果严重的, 应向相关领导汇报.
(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列 突发事件时,按照以下方案进行处置:
(2)当机房发生市电供电蓦地停电或者是电源异常时。 首先应和后勤部门联 系确认正常停电以及估计停电时间。 检查不间断电源的电池可供电时间, 确保设 备正常运行,如遇到蓦地断电,应及时将空调等不在 UPS 电源供电范围内的设备 及时断电,预防蓦地来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电时间超出机房 UPS 承载范围后,首先确定停电的范围以
及受影响的设备范围。 并及时通知各部门做好停电应急准备。 然后通知机房电源 维护人和设备的负责人到达现场, 做好各设备的电源停电准备。 在 UPS 供电电量 仅剩 10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由 器,等待电力恢复。
(4)当确定停电原因是在本身供电系统范围内,即将汇报给负责领导,并 及时联系相关维护人员达到现场检修.对于恢复时间无法估计的,要通知后勤部 门做好柴油机发电及挪移电源车供电准备
(5) 恢复供电后,严格按照操作程序逐步恢复机房设备和 UPS 的供电, 以防 瞬间电流过大造成设备损坏。
(1)发生通信路线中断、路由故障、流量异常、域名系统故障后,操作员 应及时通知本单位信息系统管理员, 经初步判断后及时上报运维服务小组和系统 突发故障应急领导小组.
(2) 运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区 域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查
清原因; 同时及时组织相关技术人员检测故障区域, 逐步恢复故障区与服务器的 网络联接,恢复通信网络,保证正常运转。
(3) 事态或者后果严重的,应向应急指挥办公室和相关领导汇报。 (4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一 日内书面报告系统突发故障应急领导小组。
(1)发现不良信息或者网络病毒时,信息系统管理员应即将断开网线,终止 不良信息或者网络病毒传播, 并报告指挥调度中心运维服务小组和系统突发故障应 急领导小组。
(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络 等措施,及时杀毒或者清除不良信息,并追查不良信息来源。
(3)事态或者后果严重的,应向监控中心办公室和相关领导汇报。
(4)处置结束后 ,运维服务小组应将事发经过、造成影响、处置结果在调 查工作结束后一日内书面报告系统突发故障应急领导小组。
(1)发生服务器软件系统故障后,运维服务小组负责人应即将组织启动备
份服务器系统, 由备份服务器接管业务应用, 并及时报告系统突发故障应急领导 小组; 同时安排相关责任人将故障服务器脱离网络, 保存系统状态不变, 取出系 统镜像备份磁盘,保持原始数据.
(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的 情况下, 重新启动故障服务器系统;重启系统成功, 则检查数据丢失情况,利用备 份数据恢复;若重启失败,即将联系相关厂商和上级单位,请求技术支援,作好 技术处理。
(3)事态或者后果严重的,应向监控中心应急指挥办公室和相关领导汇报. (4)处置结束后, 运维服务小组应将事发经过、 处置结果等在调查工作结束 后一日内报告系统突发故障应急领导小组。
(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非 法拷贝、修改、删除,或者通过入侵检测系统发现有黑客正在进行攻击时,使用者 或者管理者应断开网络,并即将报告系统突发故障应急领导小组。
(2)接报告后,系统突发故障应急领导小组应即将指令运维服务小组核实情 况, 关闭服务器或者系统, 修改防火墙和路由器的过滤规则, 封锁或者删除被攻破的 登陆帐号,阻断可疑用户进入网络的通道.
(3)运维服务小组应及时清理系统, 恢复数据、 程序, 恢复系统和网络正常; 情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援.
(4)处置结束后 ,运维服务小组应将事发经过、处置结果等在调查工作结束 后一日内报告系统突发故障应急领导小组.
(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应
急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短期内无法修复运维服务小组应启动备份设备,保持 系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)运维服务小组故障排除后, 在网络空暇时期, 替换备用设备; 若故障仍 然存在,即将联系相关厂商,认真填写设备故障报告单备查。
(4)事态或者后果严重的,应向监控中心应急指挥办公室和相关领导汇报。
(1) 发生业务数据损坏 时,运维服务小组应及时报告系统突发故障应急
领导小组,检查、备份业务系统当前数据.
(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用 磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过 2 小时后,运维服务小组应及时报告系统突发 故障应急领导小组,及时通知业务部门以手工方式开展业务.
(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的
差别, 由相关系统业务员补录数据; 重新备份数据, 并在工作结束后一日内报告 系统突发故障应急领导小组。
(1) 遇雷暴天气或者接上级部门雷暴气象预警, 运维服务小组应及时报告系 统突发故障应急领导小组, 经请示允许后关闭部份服务器, 切断电源, 暂停内部 计算机部份网络工作.
(2) 雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组允许, 及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。
(3) 因雷击造成损失的, 运维服务小组应会同相关部门进行核实、 报损, 并 在调查工作结束后一日内书面报告系统突发故障应急领导小组。 必要时, 应向监 控中心应急指挥办公室和相关领导汇报.
若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行 维修, 并及时报告信息部相关领导请示, 获得授权后按机房设备关闭顺序关闭各 类设备。
(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关
键设备、数据安全;三是保护普通设备安全;
(2)人员疏散的程序是:机房工作人员即将按响火警警报,并通过 119 电话 向公安消防请求支援,所有人员戴上防毒面具,所有不参预灭火的人员按照预先 确定的路线,迅速从机房中撤出 ;
(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或者使用灭 火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。
机房目前使用 UPS 系统,在紧急情况发生时,应按如下步骤进行关机:
(1)确认所有负载均已安全关机. (2)关闭 UPS 负载电源。
(3)将 UPS 的系统启用开关切换到 off 的状态。 (4)将电池连接断路器切换到 off 的位置。
职务 姓名 手机
姓名 公司 电话 职责
网络设备代理商 服务器及小型机等设 备代理商 机房弱电相关事项 机房强电相关事项 机房空调 UPS 设备 发机电设备 物业工程部
消防设施
因篇幅问题不能全部显示,请点此查看更多更全内容