IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
传统运维管理方式存在的问题
目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:
(1)运维人员被动、效率低
在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。
(2)缺乏一套高效的IT运维机制
目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。
(3)缺乏高效的IT运维技术工具
随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。
IT运维自动化迫在眉睫
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此, 对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。
首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。
其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。
再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。
IT运维自动化管理的具体内容
IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前--自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。
简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。
IT运维自动化的工具
对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:
监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等;
配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置;
维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人;
系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控;
维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
编辑本段建立高效IT运维自动化管理的步骤
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
(3)建立规范的事件跟踪流程,强化运维执行力度
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
(4)设立IT运维关键流程,引入优先处理原则
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。
变革带来的思考
当变革产生的时候,如果不能主动应对变革,必然会产生失衡,失衡的后果就是信息化建设的坍塌。科技的发展带来了新的IT运维需求,相关服务提供商需 要做的事情是找到应对需求变化的理论方法和技术手段。而用户的信息化管理者需要做的则是找到合理的解决方案并且快速的部署实施。
实际上,无论用户还是IT运维服务提供商,他们所探求的核心目的是一致的,那就是将分散的IT资源进行统一的融合管理。不同的是IT运维服务提供商是解决问题的技术提供者,用户是解决问题的方案使用者。
对于统一的融合管理,需要融合哪些方面?通过什么样的手段进行统一管理?对于这些问题,H3C的iMC2.0数据中心管理解决方案提出了很好的参考意见。
想要做到统一融合管理,需要解决的问题可以分成四个方向:
一、融合的基础设施管理;
二、智能的自动化管理;
三、完善的安全管控策略;
四、开放的IT管理架构。
融合的基础设施管理包括:
1、 统一网络管理平台。通过统一的网络管理平台将海量的网络和服务器节点进行实时的监控,通过有效的阀值设定,实现准确的故障以及与故障报警以及准确定位。
2、 虚拟网络管理。将虚拟网络与物理拓扑图进行结合,动态显示虚拟网络、虚拟机的变化迁移,将原本比较抽象的虚拟机和虚拟网络进行实体化管理,帮助用户解决虚拟化的管理瓶颈。
3、 服务器应用管理。针对计算核心的实施监控,针对服务器本身硬件配置以及相关操作系统、虚拟化系统进行监控管理,确保业务计算核心稳定运行。
4、 业务流量分析。针对网络流量以及相关数据包进行分析,一方面保证相关业务的带宽稳定,同时衡量出不同业务对于信息化资源的需求,另一方面,对网络流量的分析也可以杜绝安全隐患。
智能的自动化管理应该具有的特性包括:
1、虚拟资源自动迁移。服务器虚拟化为保障VM系统的可靠性、灵活性,提供了VM迁移、以及高可用性(HA)、热备容错(FT)、动态资源池调度 (DRS)等特性,这些特性都会影响VM的物理部署位置,而VM接入物理网络设备是需要一定的网络资源配置的,其接入位置的动态性就要求物理网络配置能提 供随需而动的管理能力,否则VM对网络的连通性、安全性、可靠性需求就无法得到保障。为了实现网络配置的动态迁移、随需而动,准确定位VM和物理交换机的 连接关系是关键能力。正在形成标准的802.1Qbg协议不仅保证了所有网络流量都必须在物理交换机上处理,而且通过EDCP/CDCP/VDP等协议解 决了VM和交换机连接关系的定位需求。另一方面物理交换机端口和VM的1:N连接关系,使针对每个VM的网络配置实现精细化控制是非常复杂的,H3C实现 的802.1Qbg方案通过在物理交换机上支持vPort概念,为解决该问题提供了更好的支持。iMC基于802.1Qbg实现了虚拟化环境中网络配置的 自动迁移能力。同时基于iMC对于网络和服务器、VM的融合拓扑分析能力,支持vSwitch环境下的网络配置自动迁移能力。首先根据用户应用对网络资源 的需求,定义网络资源类型。然后将此网络资源类型分配给不同的VM,则VM在迁移或启动时,就会在网络设备中自动分配相应的网络资源。
2、数据中心设备“零配置”。这里所说的“零配置”是相关设备与IT运维系统之间的配置关系。对于企业用户而言,内部的信息化设备的品牌繁多,相关 设备的更新换代也比较频繁。如果运维系统需要针对每一台设备进行配置备案的话,工作量浩大而繁琐。而iMC的“零配置”指的是IT运维系统对于相关设备的 自动识别,相关监控数据的自动采集和抓取,这样既节约了运维系统的上线时间,又降低了管理者的工作成本。
3、网络服务自动编排。在云时代的数据中心环境中,我们所面临的不再是一成不变的设备环境,基础设施可能随着业务需求的变换而不断增长、调整。为了屏蔽不 同厂商、不同型号设备的差异,使IT管理员聚焦在服务本身,必须要作到对资源及业务的快速开通,实现高度智能的自动化管理。iMC借助融合的资源管理能 力,将各种资源提供的能力抽象出来,建立统一的机制,实现基于业务的编排能力。
4、IT服务水平自动度量。根据ITIL(信息技术基础架构库)规范要求,数据中心IT服务部门通过服务水平管理(SLA)来保证其服务有效,建立服务健 康水平监督体系,来保证服务达到规定的健康水平等级,即使服务失败,也可以正确分析原因,帮助IT服务部门做出正确的应对决策。
完善的安全管控策略所需要的要素包括:
1、配置合规检查
数据中心规模庞大,设备及系统众多,管理人员经常面临的问题就是大量重复设备配置的规范性、安全性问题。伴随着各种审计体系在级别和频度上的不断增 加,传统的通过人工方式检查设备规范性的审计方法,不仅效率低下,还会存在遗漏,已经无法适应云时代数据中心的安全管控需求。都说安全问题“三分技术,七 分管理”,但是想要把那“七分管理”iMC配置合规检查内置常用的策略,如NSA路由安全建议、PCI、Syslog功能、设备安全高级建议等,以满足用 户的日常检查管理。用户可以自定义合规策略,对网络设备进行配置检查。合规策略包括一个或多个检查规则,一个检查规则分为配置文件、接口、链路、聚合链 路、配置片段、脚本等不同类型,包含支持的厂商、设备系列、检查内容来源、规则内容等信息。用户可通过创建检查任务来检查设备是否符合合规策略,检查任务 包含待检查的合规策略、设备的信息等。检查任务执行完毕后,可以通过报表查看设备违背合规的信息。对于违背合规的设备,用户可以创建违规修复任务进行修 复,及时解决在数据中心环境中出现的配置问题,提高安全等级及各种法案法规的遵从度。
2、设备操作审计
设备资源是数据中心的基础资源,对于设备管理的安全性也是信息安全的重要组成部分。与配置合规检查不同的是,iMC设备操作审计从验证管理员登陆设 备的身份、权限出发,根据企业设定的规则,合理分配访问设备的权限,即明确管理用户可访问的设备,可执行的命令,可完成的操作并记录设备管理员详细的操作 行为信息,以利于以后历史回溯和故障的判断和分析。iMC设备操作审计通过TACACS+协议实现,提供基于接入情境的控制策略,统一的监控设备管理员的 登录和执行命令行操作,支持主流厂商的设备,简化操作员为设备管理员细化权限的过程,为管理带来了便捷。
开放的IT管理架构的特点:
云计算最终的目标是达到系统的按需运营,运营系统能够根据用户请求执行服务的开通。任何一套管理系统,都不可能满足所有用户的需求,在云时代尤其如 此,这就要求用户在建设数据中心时具备开放的管理战略,IT管理系统具备开放的能力。iMC是一个开放架构的SOA平台,所有iMC相关产品都是在此统一 平台上开发的,并在此平台上封装网络服务并开放服务接口,第三方产品可以使用基于iMC 平台和开放的API接口实现对网络资源的调度。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
看了这么多内容,相信大家对于IT运维自动化以及iMC已经有一些相关的了解了,感谢大家参与我们的活动,赶快回到论坛领取精美礼品吧,也许幸运大抽奖就会降临到您的头上哦。
论坛活动地址:http://bbs.51cto.com/thread-968362-1.html