随着互联网和云计算需求的爆炸性增长,数据中心的规模不断扩大,稳定性、能耗、土地占用等问题不断困扰着数据中心运营商,维护、持续扩张等新问题层出不穷。数据中心的形式也在不断变化,以应对挑战。从早期集中供电集中制冷到分布式供电分布式制冷,从机柜放置方向的简单调整到封闭式冷/热通道,从功能区数据中心的简单划分到流行的微模块数据中心。今天,我们将了解数据中心常规运维的重要性,并介绍数据中心常规运维的工作内容。
运维工作面临挑战
随着功率密度的增加,运维人员的反应时间更短,管理难度更大。
Uptime报告显示,70%以上的数据中心故障是由人为操作失误引起的。
设备也有生命现象。累计达到一定使用水平后,就死了。如果你想修理它,你不必修理它。只有更新,这在高精度设备中最为明显。
设备磨损可分为有形磨损和无形磨损。有形磨损是指设备在使用过程中的物质磨损或环境自然侵蚀引起的物理化学变化。无形磨损是指由于科学技术的进步,降低甚至消除设备的使用价值。
几乎所有设备的动作顺序都有严格的要求,不允许您随意操作,不遵守操作程序,只会直接导致或加速故障。在现场管理活动中,不熟练的新人、错误的操作和设置是损坏设备最直接的杀手。
如果该功能潜在于设计中,恐怕改造它没有什么大问题。恐怕没有这个功能,但我们坚持强加这个功能,这将活生生地杀死设备的生命。
人们停止工作,每天24小时旋转,每年365天,不坏;不坏不修理,急于翻转,这是典型的假厂设备使用方法。虽然有些设备在过载状态下,暂时看不到任何故障,但过载运行,但使设备疲劳,老化、磨损过程大大加快,最终导致寿命缩短。
在设计过程中,相关事项没有充分讨论,匆忙启动,导致使用阶段出现许多故障,因此进行了二次补丁设计和三次补丁设计……,无法定型。这种设备,让人放心使用。
一流设备,二流操作,三流维护。不把设备当人看,只叫工作,不给饭吃,连最基本的清洗都不做,小故障逐渐演变成大故障。
实践证明,大多数设备的故障率是时间函数,典型的故障曲线称为浴缸曲线(Bathtub curve)。曲线形状两端高,中间低,阶段明显,可分为早期故障期、意外故障期、严重故障期三个阶段。浴缸曲线是指产品可靠性从投入到报废的整个生命周期。以产品的失效率为产品的可靠性特征值,是以使用时间为横坐标,以失效率为纵坐标的曲线。因为曲线两端高,中间低,有的像浴缸,所以叫浴缸曲线。失效率随使用时间的变化分为早期失效期、偶然失效期和消耗失效期三个阶段。
日常维护工作
检查新设备或系统是否能正常启动;检查扩建、改造后的设备或系统是否能正常启动,验证设计的合理性。
检查修复后的设备或系统是否能正常启动,检查设备故障和隐患的处理情况。
初始调试配置参数对设备或系统的稳定运行至关重要。如果参数变化不当,系统将无法正常工作,甚至严重损坏系统。
相关人员:专业工程师(配电专业)、运维技术经理、设备工程师。
人员职能:根据设备供应商上电SOP,由专业工程师或设备工程师上电启动。根据设备制造商的操作。SOP,参数调试由专业工程师或设备工程师进行。
SOP:SOP是Standard Operating Procedure三个单词中首字母的大写,即标准操作过程,是以统一的格式描述事件的标准操作步骤和要求,以指导和规范日常工作。
1. 双路输入或双路供电时,建议先给A路上电,再给B路上电。
2. 给一体化UPS上电,然后给照明和空调上电,再给机房管理系统上电,最后给IT负载上电。
1. 上电前检查
2. 上电调试系统
步骤1合上模块外集成UPS 前端电源输入市电空开,集成UPS 柜上电,一体化UPS柜上方的电源指示灯点亮,电源正常。
步骤2闭合一体化UPS 输入空开QF1,等待约2~3 分钟, MDU 启动显示屏。设置语言、时间、网络参数、系统参数(单并机、电压频率、电池容量、单体数量)。
步骤3确认系统旁路输入正常,系统由旁路供电,检查监控显示模块中的运行状态图,确认系统是否由旁路供电。 闭合一体化UPS 输入空开QF1,等待约2~3分钟, MDU启动显示屏。
步骤4打开逆变器。
步骤5逆变器打开后,集成UPS 逆变电源, MDU 旁路供电报警消失,检查系统运行状态图,确认系统是否由主路逆变供电。
步骤6核对实际电池容量与单体数和监控界面中设置的值是否一致,用万用表测试负电池组电压绝对值与正电池组电压之和大于一定值( 2×用于检测电池组连接是否正常。
&nbs; 步骤7 确认电池组已连接好后,闭合电池组输入空开。
步骤8 (可选)闭合一体化UPS 照明输出空开,查看交流执行器“ PWR”指示灯是否亮起。给照明上电。
步骤9 合上一体化UPS 柜空调空开,给空调上电。
步骤10 依次闭合一体化UPS IT 输出空开,为对应设备上电。
步骤11 检查监控部分是否上电正常。
检查设备的部件完整性、清洁度和老化程度。
记录设备日常运行过程中参数、告警、日志和状态,及时更新形成动态SCP,后期进行评估。
通过操作检查设备的功能、部件运行情况。
定期进行设备外、内部的清理。
检查设备、系统及外部环境是否存在隐患。
涉及人员:运维值班员、运维值班班长、专业工程师、运维技术经理、设备商工程师。
人员职能:由运维技术经理编写或者设备商提供MOP,专业工程师或设备商工程师根据MOP进行周期性的维护、养护工作;由运维值班班长制定例行维护人员计划,运维值班员按照计划进行例行维护巡检;由运维值班班长刷新SCP数据中心,并形成周期性评估报告。
MOP:MOP是Maintenance Operating Procedure三个单词中首字母的大写,即维护作业流程,对机房关键基础设施设备的每次维护、维修、安装操作进行制定作业程序,部分MOP中也会包含SOP。可以要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。
SCP:SCP是Site Configuration Process三个单词中首字母的大写,即场地配置流程,动态管理数据中心基础设施系统与设备运行配置。包括设备系统固定信息(类型、数量、物理位置、资产编号、投入时间等)和动态信息(运行状态、剩余容量等),对设备系统进行全生命周期的管理。
日常巡检表
供配电系统例行维护(一体化UPS 场景)- 月度维护
供配电系统例行维护(一体化UPS 场景)- 季度维护
供配电系统例行维护(一体化UPS 场景)- 年度维护
查找系统设计、设备性能是否存在影响整体的“短板”。
检测设备安装是否适应日后的运行维护。
检验设备安装和运行质量是否稳定可靠等。
涉及人员:专业工程师(配电等专业)、运维技术经理、运维值班员、运维值班班长、设备商工程师。
人员职能:由运维技术经理根据SOP以及设备商资料制定系统联调流程方案,并由讨论确定最终方案的可行性;由运维技术经理统称安排专业工程师或者设备商工程师根据流程方案进行操作,设备商还需提供技术督导作为现场应急顾问;运维值班班长需要安排通过运维值班员做好现场保护工作。
基于数据中心项目的最佳实践,IBM主张采用“五步法”流程对数据中心的基础设施进行联调测试。即,
第一步(Level 1)——图纸资料评审与调试计划制订
第二步(Level 2)——工厂验收测试
第三步(Level 3)——现场检查
第四步(Level 4)——单系统验收测试
第五步(Level 5)——综合系统性能联动调试验证
第一步(Level 1)——图纸资料评审与调试计划制订
调试验证工作团队架构与分工
图纸资料所反映的系统是否具备“可测试性”
图纸资料是否已经明确操作顺序
测试验证所需资源(人员、时间、能源、负载、仪器)是否落实
调试总体计划的制订
第二步(Level 2)——工厂验收测试
对电力系统、空调系统的核心设备在出厂前进行性能验证
就测试与验证发现的问题在工厂进行整改纠正
避免或减少设备故障对现场施工的延误
业主设备采购合同验收的重要标志
第三步(Level 3)——现场检查
检查现场安装情况与设计图纸相符。
检查现场电源条件安全可用。
检查现场安全状况符合运行调试工作的要求。
运行调试验证用的设备设施到场就绪。
第四步(Level 4)——单系统验收测试
设备上电,系统启动测试。
在设计负载水平下测试系统功能,空调系统负荷不低于30%,电力系统负荷不少于单台设备的额定容量。
在各冗余系统内验证故障切换模式。
在各系统的计量点、控制点和数据收集点进行验证校准。
记录备案测试结果与系统效率。
第五步(Level 5)——综合系统性能联动调试验证
模拟电、水等外部资源供应中断,检验系统响应与切换模式。
空调系统热负荷模拟测试,空调系统负荷从0逐步增加到100%,检验空调系统各部分的性能。
系统集成测试,综合测试电气、空调、消防与智能化控制等多个系统的接口性能。
在设计满负载下进行多系统连续运转(一般不少于12小时)测试,检验系统的稳定性。
记录备案测试结果与系统效率。
故障应急预案,执行冗余方案尽快恢复业务或保证业务不中断。
故障清除处理,根除故障并行政讨论小组研讨根源问题,并形成解决方案(如扩容、改造、优化等)。
涉及人员:专业工程师(配电等专业)、运维技术经理、设备商工程师。
人员职能:根据运维技术经理和设备工程师编制EOP,并在故障发生期间由专业工程师或者设备商工程师按照EOP进行故障应急预案操作。后期根据SOP进行设备系统故障清除处理。
EOP:EOP是Emergency Operating Procedure三个单词中首字母的大写,即应急作业流程,突发设备或者系统故障时,为保证业务不中断或者恢复业务而启动冗余或备用系统而需要执行的操作流程。
UPS故障处理案例
常见故障处理(一体化UPS 场景)
:
达到使用寿命的设备系统部件,通过更换恢复设备系统正常运行。
存在隐患、发生故障的设备系统部件,通过更换恢复设备系统正常运行。
涉及人员:专业工程师(配电等专业)、运维技术经理、设备商工程师。
人员职能:根据运维技术经理和设备工程师根据SOP更换设备系统部件。
更换一体化配电柜&精密配电柜MCB
步骤1 打开配电柜前门,将配电柜输入、输出开关切换到OFF 状态,且上下级开关也断开。 步骤2 拆卸配电柜面板上的螺钉保留好备用,并取下面板。
步骤3 拆卸MCB 左右两端的线缆,如图所示。更换一体化配电柜&精密配电柜MCB
拆卸面板 拆卸线缆
步骤4 用一字螺丝刀将MCB 黑色卡扣件向外拨动,如图所示,然后将MCB 沿配电柜内侧方向拆卸。
步骤5 将新的MCB 装上。
步骤6 连接线缆。MCB 线缆推荐接线孔位如所示。
步骤7 将面板重新装回配电柜。
结束。
资料免费送(点击链接下载)
史上最全,数据中心机房标准及规范汇总(下载)数据中心运维管理 | 资料汇总(2017.7.2版本)
加入运维管理VIP群(点击链接查看)
《数据中心运维管理》VIP技术交流群会员招募说明
数据中心运维管理咨询