四时宝库

程序员的知识宝库

选择IT运维工具,拒绝裸奔!_it 运维

关于IT运维工具,国标28827.1在其“资源”部分对运行维护工具提出了要求和关键指标,2012版标准规定如下图所示:↓↓(2022版标准将在2023年实施)

提到标准这个词,听到较多的是“没用”、“很难落地”、“实际情况不允许”这些将标准形容成负担的内容,即便有些人,大谈特谈标准如何如何的好,但实际做的时候早已回归到了逐利优先的本质,也不难理解,毕竟“活着”才能向往未来。

国标这把尺子实际上是卡在了最低的“刻度线”上,相当于一个行业的基础准则,基础准则能有多么苛刻?我们看到的和看不到的诸多困难,终究可以归咎到一个字“钱”。

标准中对运维工具提出了要求,说明运维工具在IT运维服务工作中的重要性。我们来看看为什么用、用什么以及如何管理运维工具。

使用运维工具可能解决哪些问题?

问题一:由被动式运维转为主动式运维

传统运维的关注点在于快速响应及排除故障,由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,就好比救火队员几分钟能够响应,几分钟能够灭火一样,而比灭火更重要的应该是预防火灾。从运维角度来看,以预防为主的主动式运维是否应该成为运维服务工作的首要目标呢。

运维工具可以将日常工作中大部分的重复性和周期性工作自动化,是实现预防为主的方法之一。

运维工具有利于保障质量可控和风险可控,可以实现提前预警和主动防御,通过追踪故障原因,降低频发故障对系统的影响。

问题二:人员低效

由于IT运维人员日常工作中大部分都是处理一些简单重复的问题,随着业务体量和运维的横向跨度不断增加,大量的简单重复性问题对人员数量的需求不断增加,导致大量使用基础型技术人员,即缺乏高端技术人才,又不能覆盖全面,遇到关键问题时则无法快速定位并解决。

运维工具可以实现人员可管理、工作可计划、绩效可测量。它可以准确记录运维人员的工作量和工作计划完成情况,通过数据分析及需方评价实现对运维人员的绩效管理,从而优化人员配置,提高人员工作效率。

高效带来的是人员数量的减少、综合能力的提高以及运维项目造价或成本的降低。

问题三:数据及分析

运维服务工作需要记录很多数据,例如记录、变更、反馈、报告及关键指标等。运维工具通过收集、存储、展示各类数据,实现运维服务可视化,做到运维工作内容可追溯、人员绩效指标可量化、系统运行状态一目了然等。

假定:通过数据分析按照障碍发生的频率由高到低排列,用20%的人员解决80%高频并且简单的障碍,用20%的人员解决剩余20%可能复杂的障碍,用60%的人员实施预防性维护工作,降低障碍的基数,这有没有可能是一个成立的假设,如果成立,很可能会进一步提升运维工作质量,并降低“紧急救火”的频次。↓↓

障碍名称

频率

累计频率

障碍处理人员比例

预防性维护人员比例

障碍一

35%

35%

20%

60%

障碍二

20%

55%

障碍三

15%

70%

障碍四

10%

80%

障碍五

8%

88%

20%

障碍六

6%

94%

障碍七

5%

99%

障碍八

1%

100%

问题四:需方的问题

1)IT运维项目造价是怎么组成的?定价依据是什么?创造了多少价值?运维工具就是运维项目造价的一部分,创造的价值就是输出工作成果,展示运维工作的完成情况,为管理者的决策提供数据支撑。

2)运维人员的管理问题是一个比较突出的问题(有人就有江湖),如果供方与需方都不重视,处理不好就会形成两不管的局面,人员处于“散养”状态。运维工具可以在某种程度上解决一部分管理问题,至少在需方看来,运维人员是按照规范、流程进行操作的。至于供方,远程管理本身就存在难度,再没有一套行之有效的管理办法,那就只能靠“磨嘴皮子打嘴仗”了。

问题五:供方的问题

1)运维工具的重要作用就是帮助组织实现“理论落地”,将运维服务标准化、规范化的理论落到实施过程中。降低由于人的状态和意识形态的不同带来的不同结果。

2)技术能力是企业的核心竞争力之一,将技术能力在企业内部沉淀下来并传承下去,才能促进企业的可持续发展。通过运维工具的数据积累及其对知识的管理,将知识库与服务台对接,提高运维人员发现问题和解决问题的能力。知识可以从运维实施过程中获得,也可以为运维实施过程提供支持,以促进组织技术能力的发展,实现组织能力的传承。

运维工具是什么?

跟着国标的思路走,运维工具分为监控工具、过程管理工具和专用工具。

监控工具从名字上就能看出来是用来监控的,没错,就是用来代替人监控运维对象的,说一个我们熟悉的监控工具,机房动环监控系统。

过程管理工具是对运维服务过程进行管理的工具,包括对服务级别、服务报告、事件、问题、配置、变更、发布及信息安全的管理。我觉得运维工具可以实现全面管理,包括对人员、资源和技术的管理,即便是平台不能够或不便于整合,数据也可以实现共享。

有很多运维工具是开源免费的,也有需要付费的工具,开源的需要部署和操作人员具备相关的技术能力,并且没有后续的技术支持,付费的对操作人员技术能力要求不高,也有技术支持,自己看着选吧,适合就好。

过程管理工具:

去网上搜索“ITSM”,搜出来一堆的收费系统,收费的运维服务管理系统可以实现国标的要求,但是模式已经固化,估计提出的修改意见大概率会收费,可能是个无底洞,不一定适合你的组织。

还有一种是开源的,例如iTop,有能力的组织可以进行二次开发,优化系统的功能使其更符合组织管理的需求。iTop对设备的管理直接管到端口,能够自动建立系统拓扑及模型,简而言之,它带来的好处就是任何操作都是联动的(这个我喜欢)

再就是感觉钉钉还不错,正在研究作为过程管理工具的可行性,如果真的可行,能够节省一笔。先说说我觉得可行的几个理由:

①可以建立数据表单和流程表单

②可以关联表单

③可以自定义报表

④可以实现对接云端数据库

⑤可以实现跨组织审批

有了这些功能,就可以打造一个简版运维服务管理系统,满足小型组织的运维服务管理需求。(有点期待了)



监控工具:

监控工具能监控哪些对象?网络、服务器、交换机、视频。。。。。。

能实现哪些功能?监控设备状态、性能、故障,监控网络链路,监控日志异常、进行统计分析。。。。。

看下图,不靠工具靠人工如何监控↓↓

Zabbix就是一个能够监视各种网络参数的开源工具,配合它使用的是用于可视化展示和数据分析的工具Grafana,这两个工具一个监视,一个展示,至于工具如何使用,可以到网上搜索教程。

专用工具:

关于专用工具,我的理解就是以上两种工具以外的所有工具,例如操作设备时使用的防静电手环,专用的测量和检测工具,数据展示和分析工具,其它如shell、ftp、EditPlus、Navicat、WinPcap等。

运维工具如何管理?

建立制度:

建立运维工具管理相关制度,明确工具的管理职责、操作权限、日常维护、数据管理及使用情况评估等。将运维工具的管理和操作分开,让专业的人员管理工具,来保障操作人员日常使用。

运维工具的管理人员应负责工具的日常维护、运维管理、数据管理及组织培训,组织进行运维工具评估,研究落实改进措施。

运维人员负责日常操作和使用工具,配合管理人员进行日常维护和数据管理,根据实际情况对运维工具进行评估,并提出改进建议。

操作手册:

运维工具的操作和使用应明确其操作步骤和方法,编制操作手册,确保能够指导运维人员日常操作和使用。

运维人员对运维工具的掌握程度可以作为工作能力评估的指标之一,也可以做为绩效评估的指标。

自评与改进:

是不是一定要自评?是,一定要自评。自评能够促进系统不断优化,提升组织效率。通俗的讲,自评就是相关人员一起发现问题、评估问题和解决问题的过程。

结语

运维工具的配备和使用还是需要根据运维对象、自身条件和项目需求而定,而过程管理工具的应用或者应用程度还是要看决策者对运维服务标准化建设的决心,以及组织的综合管理水平。无论选择什么,适合自己的就是好的。


参考资料:

GB/T 28827.1-2012 信息技术服务 运行维护 第1部分:通用要求

中国IT运维能力建设指南(28827.1标准的解读与应用)

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
    友情链接