测试信息系统自动化运维探讨

测试信息系统自动化运维探讨

摘要:随着信息化建设的不断深入,日常的工作对信息系统的依赖程度也越来越高,信息系统的任何波动都会对业务造成影响。为保证信息系统的安全与稳定,需要进行运维管理。测试运维工作包括操作系统、网络管理、各专业应用系统及数据库的运行及维护全过程,涉及大量设备和平台。文中阐述了自动化运维基本原理,更深层的进行实际工作的全局分析,将自动化运维技术应用到测试生产实际,关注当前条件下如何实现性能与服务最优化。

关键词:运维;自动化;效率

0引言

测试分公司的经过多年的信息系统建设,现有计算机设备1443台、24h在线运行设备12台,部署在不同的基层单位。在网络传输上现使用光纤长度150km,21个C类IP地址,可管理交换机等网络设备128台套。在数据库配置上配备中心数据库一套,部署在11个生产单位的测试专业数据库33套。累计保存近50余万井层次测试数据(300GB),年增长4万井层次(15GB)。信息系统已经成为日常工作必不可少的工具。面对基础设施资源多,网络覆盖范围大、网段分散,数据库中数据量大等问题,日常运维管理也越来越复杂。目前测试分公司的运维已经实现从人工运维到计算机管理,但运维管理还只是处在“半自动化”的状态。运维方式仍然是等到故障出现后再由运维人员采取相应的补救措施。这些传统的被动、孤立、半自动式的运维管理模式经常让运维人员疲惫不堪,让运维工作陷入被动,没有流程设置,周而复始就形成了连锁的恶性循环反应。即使加班加点地维护、部署、管理也经常会出现故障而导致业务的中断,影响生产。随着计算机软硬件技术的不断发展,自动化运维技术给我们提供了极佳的解决方案。

1自动化运维的意义

1.1什么是自动化运维

自动化运维就是把周期性、重复性、规律性的工作都交给工具去做,由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟、实现“零延时”的运维,最终达到提升运维效率的目的。自动化运维是一种基于流程化的框架,将运维与操作流程相关联,—旦被监控系统发现性能超标,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。面对越来越复杂的业务,越来越多样化的用户需求,不断扩展的应用需要合理的运维来保障服务。

1.2为什么要使用自动化运维

如果测试分公司的整个,运维管理做得不好,那么建立起来的信息系统功能再好再强也没有用,因为业务部门根本无法顺利使用。自动化运维首先带来的是运维效率的提高:可帮助运维人员完成日常的重复性工作(如备份)。其次是保障安全:在运维管理过程中,一旦发现安全隐患,运维管理系统会及时预警,同时提前修复,避免系统危机。最后是维持稳定:通过监控最大程度地保障系统的稳定和运行质量。即使出现问题,也能够快速发现、快速响应、快速恢复,合理的运维方式能够有效保护数据。如图1所示,运维自动化的实现可以减轻对人工操作的依赖,实现运维思路的变更。

1.3自动化运维如何实现

1.3.1以监控为中心

监控自动化是运维自动化的起点之一。对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;输出重要的日常服务运行报表以评估业务整体运行状况,发现隐患。运维人员把握监控的覆盖程度。虽然针对生产系统的各层次都部署了监控工具,需要有管理员去配置。靠管理员主观能动性去让监控实现对某个生产系统所有运行状态进行实时监控还比较困难,所以需要让运维人员明确知道监控覆盖面的及格线。例如:磁盘占用空间大于设定数值时,监控功能自动预警通过微信等功能告知相应的处理人员。

1.3.2建立运维手册

模板化部署系统环境。建立每种事件的规范化处理和跟踪指南,可以减少运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。运维手册是运维标准化最基本的工作项之一,但由于运维涉及的问题很多,运维文档也演变成一个越来越复杂的文档,当文档复杂到一定程度时就会变成一个负担,很难保文档的及时更新。在这里以运维手册简单化为原则。

1.3.3服务流程自动化

监控自动化发现了问题就应该接入相应的流程进行处理,这时候故障事件自动触发问题处理跟踪流程,并利用运维文档完成整体故障处理。通过监控工具实现对用户操作规范的约束和对资源进行实时监控。在自定义周期内进行自动触发完成对运维的例行巡检,形成检查报告。运维自动化管理建设不是一次性建好,要以实用为主分阶段的解决自身实际问题,最终建立完善的运维的自动化监控和管理平台。

2应用情况

2.1用于试井解释平台日常运维

建立试井运维手册,形成文档管理。按照文档要求记录下问题原因以及解决的步骤,并定期回顾文档从中整理出的共性问题。例如:多次发生在软件可以正常解释井的情况下,但点击入库按钮无响应。初期选择重新安装软件,恢复使用。后期通过筛查运维手册,研究问题机器的共性。定位到具体的丢失文件,查到丢失原因、发现问题根源。避免了同类问题的发生,提高了软件使用者的满意度。规范化处理可以减少运维操作的随意性和强化运维的执行力度,可降低故障发生的概率减少运维工作量。

2.2实现测试成果数据自动备份

测试分公司平均每年入库近四万井层次的测试数据,已经积累了五十多万井层次,300多GB的数据量。这些数据是油田重要的数据资产,需要进行安全管理,保证数据资产安全最重要的手段就是备份。面对日益增长的测试数据资料,由于属地原因分布在所属采油厂的各个基层测试大队30个节点上,人工重复登录各个节点,进行账户认证,检查存储空间,执行数据库的导出命令,对导出文件进行压缩,进行规范命名,通过网络拷贝到备份服务器,删除本地冗余备份,检查备份服务器存储空间,删除备份服务器冗余备份,整个备份过程繁琐冗杂,容易产生误操作,效率低下。编制批处理文件,根据各个节点上数据量大小,规划备份执行具体时间,通过操作系统计划任务定时完成备份工作,整个备份过程在网络上部署,在分布式各个节点上,分布各个时间节点周期自动定时运行。没有人为因素,测试专业数据库自动完成备份工作,保证数据安全。

2.3验证测试井入库信息质量

大庆油田现今有21个油气开发、研究单位、工程服务单位通过成果平台应用测试资料。生产测试解释信息入库成为了生产的重要环节。生产数据入库的准确性、及时性就越来越重要。编写软件进行数据库数据信息的对比。保障测试生产数据入库的准确性、及时性。在测试井成果数据传输中,设立重点监控,进行测试数据质量检查。及时发现解释外报却未入库的井次,规范数据入库情况,进行数据检查核对,并公示考核,分析总结影响数据入库的因素,提高数据库入库质量。设定监控点,监控外报数据与成果数据库中的数据差异。节约时间成本,可以很快的发现差异井次、及时改正,大幅提高了工作效率。并且,提高精准度可以明确展示数据间具体差异。

3结语

随着测试分公司信息化建设的持续深入,基础设备的不断增加以及各个专业平台的推广使用,测试信息运维工作量势必越来越大,运维管理的自动化已经是大势所趋。真正实现测试信息工作完全自动化运维是一项复杂的系统工程,首先要将工作中最耗时间的事情自动化,如此迭代往复最终建立一个信息化自动化运维平台,简化工作流程、提高工作效率、提升服务质量。可以将运维人员从繁琐的、例行、容易发生人为事故的工作中脱离出来,做更有价值的运维工作。

参考文献:

[1]JanvanBon,章斌译.基于ITIL的全球最佳实践[J].清华大学出版社,2010,1:8~14

[2]王敏.浅谈运维自动化[J]运维派,2017,5.

作者:夏薇 单位:大庆油田有限责任公司测试技术服务分公司