信息系统自动化运维管理

信息系统自动化运维管理

1传统“运维”管理存在的问题

随着“运维”系统的不断增加,很多企业的“运维”管理已经跳出了“运维”人员人工处理的阶段进入到计算机程序管理,但目前的“运维”方式仍需要大量的人工介入,无法实现自动化运维,主要存在以下三点问题:

1.1运维效率不高效

传统的“运维”管理是问题驱动制,当问题或故障已经产生后才通知“运维”人员进行处理。这种“运维”方式是一种被动的问题解决流程,而且“运维”人员的日常工作很多是在处理重复问题。同时,由于传统的“运维”管理方式故障预警机制不够完善,使得“运维”人员总是在处理紧急情况,更免不了忙中出错,进一步导致整体运维效率低下,“运维”质量不高,致使业务部门普遍对“运维”部门的服务不够满意。

1.2“运维”管理不规范

很多企业在“运维”管理过程中没有规范的管理模式,对角色定义和职责划分不够明确。在系统产生问题后无法准确快速地确定问题关键点,无法及时地找到问题相关的责任人。同时解决问题缺乏标准化的流程处理机制,没有规范化地解决方案。

1.3“运维”工具不统一

随着信息化建设的不断深入,信息系统数量不断增多,结构愈加复杂。不同的设备不同的系统导致“运维”管理越来越复杂,尤其是面对突发事件,由于“运维”方法杂乱导致无法高效地解决问题,难免造成业务中断。运维方法、“运维”工具的不统一是造成问题处理效率低下的一个重要原因。

2自动化“运维”管理的目标

高效的自动化“运维”管理目标包括服务流程、故障诊断、资产配置、安全合规、运营管理等各个方面。

2.1服务流程自动化

服务流程自动化是指实现服务流程的自动处理,目标是能够为“运维”人员提供一个灵活的处理架构,从而使服务流程能够按照预定的顺序进行自动执行,并且能够实现资源的自动化管理和开通,资源整合标准化处理,服务需求标准化管理,实现自动化快速部署交付。

2.2故障诊断自动化

故障诊断自动化是指通过提升“运维”管理的自动化水平,实现配置变更、故障诊断、检测维护的安全高效运行。按照标准化服务流程和管理工具实现巡检排查及故障诊断与修复的标准化和自动化,降低“运维”管理成本。

2.3资产配置自动化

资产配置自动化是指能够通过自动化脚本或工具平台,实现资源的自动化快速部署,缩短资产上线时间。目标是通过自主发现采集资产信息和配置,跟踪资产的配置信息,实现资产信息和配置的统一管理,减少重复管理,提高资产管理效率。

2.4安全合规自动化

安全合规自动化是指通过预定义的方式检查策略和流程规则,实现信息安全流程合规的自动化监测预警。目标是通过监控策略对业务系统的全部流程覆盖,满足安全合规的集中管理要求。

2.5运营管理自动化

运营管理自动化是指实现运维辅助运营管理,通过提供自动化智能化的管理建议,提高“运维”管理辅助运营管理能力,并通过自动化技术提升配置数据规范性和准确性。同时能够分析监控预警系统的数据,为资源的优化配置、资源风险处理提供决策建议。

3自动化“运维”管理的建设思路

3.1数据收集自动化

运维数据处理包括数据采集、汇总、存储等环节,由于信息系统复杂多样,各系统的“运维”数据无法做到格式统一,因此“运维”数据必须做到数据采集独立、格式整理统一、数据存储集中的建设思路。数据采集的是指针对各系统的运行数据进行收集,由于系统的多样性,针对不同的系统采用标准的、可扩展的数据收集组件,通过数据收集组件将各个监控系统不同类型数据进行统一汇总。数据汇总是指将数据收集组件采集到的数据进行统一的格式调整,使得不同监控系统采集的数据达到规范和统一,同时将数据提供给巡检系统实现系统巡检自动化。当数据采集并进行格式转换之后需要将这些数据存储到数据库中,数据库必须具备高可扩展性、高并发性、高可用性等特点,必须能够支撑对运维数据的集中分析和处理。通过建立统一的“运维”事件集中处理平台,将各类告警事件进行集中管理,创建标准事件库,实现告警内容的自动生成自动发送,形成无人值守的告警事件预警系统。

3.2维护监测自动化

维护监测自动化主要包括异常事件自动化处置、配置变更自动化监测和故障自动化诊断,从而提高运维效率降低运维成本。异常事件自动化处置需要建立一个事件处置知识库并与“运维”工具进行联动执行。当异常事件发生时系统通过事件特征类型的比对查找出对应的解决方案,再调用关联的“运维”工具执行解决方案,从而减轻“运维”人员的负担和缩短异常事件的处理时间。配置变更自动化监测需要建立配置管理数据库,对各类资产的配置进行实时监测并自动对配置管理数据库的数据变化进行监测记录。同时配置变更自动化管理,需要对监控规则进行定义,定期执行监控任务采集系统的配置信息,对配置变更的情况自动生成待办任务,通过与历史版本的对比分析将配置变更的影响范围和依赖关系展示出来。故障自动化诊断需要建立一系列的故障诊断处理策略,故障监测系统实时收集系统的日志信息,然后依据故障诊断策略对信息进行分析处理,并自动根据处理策略判断故障问题提供处理方案。故障诊断通常通过对日志信息分析进行判断,因此要实现故障自动化诊断,就要实现对系统日志的自动化收集和分析,并通过策略关联处理方案自动执行,从而实现对故障的自动化诊断处理。

3.3辅助决策自动化

辅助决策自动化是通过对系统运行数据的分析向信息系统改造升级、性能调优以及运营管理提供数据支持。自动化“运维”管理应当具备报表、报告的自动生成能力,从而减少“运维”人员手工生成文档的工作,提高工作效率。同时还可以降低人工错误,提升文档质量。数据分析功能还应当能够对运维报表数据进行进一步的分析和处理,为辅助决策实现运营管理自动化处理提供依据。

4结语

综上所述,信息系统的“运维”工作从传统人工处理转向自动化“运维”有效提升了运维效率,降低了运维成本,实现了“运维”管理的流程化和规范化,同时加强了“运维”工作的安全性与合规性。辅助决策的加入使“运维”工作从基本维护工作提升到运营管理的角度,为运营管理提供自动化智能化的管理建议。随着信息技术的高速发展,人工智能已初步应用部分企业系统内。未来可将大数据分析技术、人工智能神经网络技术等应用到自动化“运维”管理中,“运维”管理工作必将向着智能化“运维”管理方向发展。

参考文献:

[1]孙林檀,安业腾,田举,潘宝玉.信息系统自动化运维平台的研究与应用[J].电力信息与通信技术,2018(01):51-55.

[2]吕华辉,林志达,徐欢.IT运维自动化能力提升探析[J].电子测试,2019(10):137-138+134.

[3]毛承国,张卫华,张进铎,马迅飞,史哲,方凯.大规模集群运维自动化的探索与实践[J].信息安全与技术,2014,5(02):60-62+73.

[4]哈斯.配置管理原理与实践[M].北京:清华大学出版社,2007.

[5]曾宏锐.电力信息系统运维管理自动化解决方案[J].科技与创新,2015(09):48.

[6]姚珺玉,谢国财.面向运维的电网运行数据分析系统开发[J].广东电力,2016,29(10):92-96.

[7]庄岭,赵俊峰.信息系统建设的非功能需求研究[J].电力信息化,2007(04):24-26.

作者:景腾飞 单位:中国人民财产保险股份有限公司韶关市分公司