查字典论文网 >> 流程管理在机房运维标准化中的探究

流程管理在机房运维标准化中的探究

小编:刘文琸

地震勘探资料处理系统利用计算机系统对野外采集的原始资料进行去粗取精、去伪存真的数据加工,是油气勘探核心生产系统、本企业勘探高性能核心计算机机房部署有计算能力150TFlops的计算集群和2PB的高性能存储系统,每年完成113 465标准公里的处理工作量,提交预测储量1亿吨和控制储量1亿吨,产值约1.4亿元人民币,支撑着油田持续发展。地震勘探资料处理高性能计算系统对使用环境有较多要求、本企业建设有使用面积1 000平方米的高性能计算机机房,配备了10千伏3750kVA高低压供配电系统、600kVA UPS不间断供电系统、机房精密空调系统、七氟丙烷气体灭火系统和消防监控系统等综合保障系统,支撑处理集群以及解释服务器群高效有序运行。

作为高性能核心计算机机房的使用和维护单位,笔者所在单位建立了完备的机房运维体系,以高效、安全、低成本为技术服务价值导向,在高性能核心机房保障技术发展迅速的今天,利用流程管理技术建设机房标准化运维模式,提高了运维效率,确保了安全操作,降低了运营成本。

1现状分析

作为企业唯一的高性能计算机机房,机房运行维护体系已连续工作30多年,未发生人为安全事故,非计划停机时间每年未超过3次。但是随着机房设备的更新换代,用电制冷环境越来越复杂,运行维护工作困难加剧,表现在以下几点:

1.1运维设备多,技术复杂

机房场地保障设备包括高低压配电、机房精密空调、UPS、中央空调、火灾自动报警、门禁、保安监控、电梯等系统,涵盖30多种设备,上百个部件单元,包含多种尖端应用技术,设备之间互相关联影响,每一个设备的运行都影响到整个保障体系,运维技术要求高,运维难度大。

1.2非正常停机损失大,运维安全责任重大

通过测算,运维工作耽误一小时影响产值6.62万元人民币(不包括设备、耗材等直接损失)。按照国家相关安全生产管理规定,运维人员对未采取安全措施或安全措施操作不恰当造成的损失承担责任,情节严重的追究法律责任。运维人员安全责任重大,必须严格按规范完成维护工作,加大了运维工作强度。

1.3设备先进,可借鉴经验少,可利用外部力量缺乏

高性能计算机房的环境保障采用了大量先进技术提供高品质机房环境。新疆地处西部欠发达地区,技术人才薄弱,在本地开展技术交流协作困难。

进一步提高运维效率,确保安全操作,降低运营成本,单纯依靠现有运维体系无法实现;短期内国有企业在人员结构调整、外部运维力量引进、新技术掌握等方面也较难改变;安全意识和服务意识在30多年的不断强化中已达到较高层次,提升空间不大。解决以上困难需要发扬创新精神对管理模式进行转变。

2流程管理模式

实现更快、更安全、更低成本提供计算机环境保障运维服务是改进管理模式的目的,由于机房保障工作的特殊性,要求必须在保障机房运维持续性稳定性的同时,以最小代价快速实现目的。

通过研究分析,结合工作实际,认为流程管理( Process Management)可以解决目前困难,提升工作效率和操作安全、流程管理是以规范化的构造端到端的卓越业务流程为中心,以持续提高组织业务绩效为目的的系统化方法,包括流程分析、流程定义与重定义、资源分配、时间安排、流程质量与效率测评、流程优化等,强调的是对流程的梳理、优化、再造。流程管理将日常工作归纳细分成一个个相互关联和相互嵌套的管理流程,将人员细分成不同角色后作为资源赋予每一个流程、流程管理技术能够为管理目标带来一系列标准化改变,包括过程标准化、动作标准化、参数标准化、验证标准化以及结果标准化,使得日常服务工作目标明确,过程合理,规范顺畅。引进流程管理可以将当前运维工作过程流程化和标准化,对现有工作模式进行优化改良而不是颠覆革命。流程化过程中使用的资源还是现有工作资源,对资源状况没有变革要求,强调现有资源的合理配置使用,不会对日常运行工作模式造成影响,通过潜移默化的影响改进工作执行效率,实现管理提升的目标。

笔者所在企业勘探核心机房运维管理模式改进必须立足现有资源,改进过程中技术服务工作不能中断或延误,恰好契合流程管理技术特点。流程管理带来的过程化、标准化正是机房运行维护体系现阶段工作目标实现的保障。

3主要做法

3.1梳理资源、界定职责

流程化工作的第一步是整理工作内容、确认可用资源、勘探核心机房运维资源整理包括人力资源整理、设备资源整理、维护工具整理、掌握技术整理。其中人力资源整理主要针对现有人员进行定岗定员。按照技术掌握程度和日常工作设定5个岗位:场地运维值班人员、场地维护操作人员、场地技术负责、设备管理人员、安全管理人员,以绩效合同形式明确岗位工作责权范围,为流程梳理和运行做准备。

3.2梳理流程、饯行标准化

确定资源后,进行流程梳理和流程体系设计。高性能计算机房环境保障主要有三大流程体系,即设备状态维护流程体系、设备操作流程体系、环境保障流程体系,据此整理建立3套流程方案,开展6方面标准化工作:

(1)设备状态维护流程方案,对应设备维修标准化和设备状态监测标准化。

(2)设备操作流程方案,对应操作步骤标准化和安全培训标准化。

(3)环境保障流程方案,对应工作环境标准化与检验过程标准化。

3.3固化流程操作、细化操作步骤

流程规范首先梳理日常工作范围和内容,将不同工作归纳为一个个工作过程,定义每一个工作过程中的每一步骤的操作过程和执行目标,为每一个流程分配人力资源、设备、工具资源,确定每个步骤中具体操作规范。以巡检流程为例进行说明。首先,确认每天巡检次数为4次(每6小时一次),巡检过程为现场安全巡检;其次,确认运维重点要害部位,按照要害部位的关键程度以及所在位置确定巡回检查路线;第三,针对每个要害部位确认巡检项目,定义参数指标。制定巡检状态登记表。巡检记录表格设计清晰明了,操作步骤简单有效,参数指标一目了然。巡检涉及设备操作的规范操作过程,为每个分解的操作动作编制操作卡片。最终梳理固化了运维工作流程26个。

3.4编撰操作手册、操作标识化

流程制定完毕,更重要的是让流程在日常运维中发挥作用,因此需要对流程进行操作分解,细分到每一个开关或设备的操作动作,再将操作规范以标识牌形式粘贴在对应设备附近,随时提示运维人员,操作人员可以按照标识牌完成相应设备操作过程。通过这种形式能够在第一时间、第一现场提醒操作人员,提升操作效率,避免失误。

3.5标准化交互培训,确保流程执行顺畅安全

流程培训是流程管理技术的关键环节,可以使流程执行者迅速掌握操作过程.有效提升操作效率和安全度、机房运维主要有维修岗与值班岗、首先由技术负责岗培训维修岗人员、维修岗人员相对年轻,对操作步骤接受快,重点培训运维原理和基础知识,提高维修岗人员解决问题的能力。随后维护岗与值班岗开展一对一培训,维护岗对值班岗进行操作动作和流程过程培训,使值班岗人员更好接受操作知识培训、值班岗人员大多已在岗位上工作多年,对设备操作积累了一定经验和小窍门,在消化吸收流程培训后,反过来对维修岗进行操作培训,向维修岗人员介绍操作过程中的体验和经验,维修岗人员从技术原理角度对经验操作给出合适解答,纠正其中的不确定操作,并判断是否能够根据这些经验对操作过程和工作流程进行优化再造、反复的相互交流达到共同提高的目的。

3.6适度开展流程优化,提高操作效率

流程优化和流程再造是流程管理的核心目的,是提高流程运行效率的重要手段。通过对流程中各环节梳理、归并、剔除、增加,使流程更加合理,运行更加顺畅,提升工作效率。机房运维操作具备一定的危险性,对操作步骤要求高,操作过程和技术细节需经反复验证和经验证实,操作过程执行的第一条件是安全性,在进行流程优化时必须谨慎,需要经过反复论证和操作验证后,经权威审核后才能投入使用。

4实施效果

通过实施流程管理技术,笔者所在企业初步建成一套高性能计算机房运维标准工作流程,并已贯彻实施两年,运维效率和安全性明显提升,运营成本趋于合理可控,实现了工作改进目标,即更快、更安全、更低成本地提供高性能计算机房环境保障技术服务。

4.1 机房运行维护标准化建设有效提升运行维护效率

笔者所在企业勘探核心机房整理固化出3套流程体系共计26个标准工作流程,编制了对应的流程环节操作卡,建立了操作监督机制和评估参数,初步做到设备维修标准化、设备状监测标准化、操作步骤标准化、安全培训标准化、工作环境标准化、检验过程标准化,运维人员更加明确了工作职责和操作步骤。

标准化工作使工作现场井井有条、资源配备明确清晰,有效提升了运维效率、机房运维人员从过去未实施流程管理时的23名人员减少到目前11名人员,工作范围却从过去供配电、空调扩展到消防、安防、UPS、电梯、供电品质调谐设备等多系统多体系场地环境保障,为新疆油田勘探高性能计算机系统提供了优质可靠安全稳定的环境保障服务,运维人员工作效率成倍增长,流程管理的持续实施,也将过去单兵作战工作模式优化为团队化,工作模式。

计划停电检修时长从过去平均6小时减少到现在的4小时,全年计划内停机时间从过去138小时减少到目前17小时、标准化流程的实施为笔者所在企业勘探科研环境增加了60小时的工作时间,按每小时直接产值6.6万元人民币计算,能够创造产值6.6x60=396万元人民币,增加的有效科研工作时间用于寻找油气田,间接经济效益巨大。

4.2有效减少机房非正常停机次数,缩短突发事件处理事件

随着流程化标准化建设实施,操作现场标识、监督、验证等流程的完善能够避免误操作,提升了运维安全性,至今为止未出现人为安全事故,是油田公司HSE工作先进班组;2013年全年未发生任何误操作,非正常停机次数为零,两次供电企业检修导致的停电事件均在10分钟内处理完毕;在技能比武中消防系统操作全员优秀,事件处理时长均在巧分钟以内。通过机房运维标准流程建设,合理分配了运维人员操作工作,减轻了工作压力,为完成企业年度安全管理奠定了基础。

4.3节能降耗工作开展顺利,机房运营低成本得到落实

按照流程管理技术定义多层次多角度的多种节电技术,采取措施有效降低了单位计算能力消耗的能源,在确保生产需要的前提下降低了运营成本、通过各种管理措施和技术手段的实施,本企业高性能计算机机房PUE值从过去的 2.37降低到现在的1.62,机房更趋绿色环保、按PUE值2.37计算,现在317 kW的IT设备总功耗,机房总能耗将达751.29 kW,现在机房实际耗电为515.39 kW,高出235.9 kW,每年节省电费20万元。

5结论

通过流程管理技术的应用,笔者所在企业勘探核心机房运维体系初步实现了工作过程的流程化与工作环节的标准化,实现了更快、更安全、更低成本地提供高性能计算机房环境保障服务的管理目标。

热点推荐

上一篇:科技馆中计算机技术的应用分析

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文