免费注册


浪潮云说丨智能运维助力住建委:上云系统统一运维实践

2021-10-21 人浏览


本文将通过分享某省住建委上云系统统一运维系统建设与实践的案例,介绍浪潮云泽智能运维是如何帮助用户对系统进行统一运维,提升应用质量和效益,最终实现提升管理效率的。



建设背景
根据国务院办公厅关于印发国家政务信息化项目建设管理办法的通知,其中第四条、第五条、第九条,提出了“应用注重实效”、“对应用评估评价”、“开展安全评估”等要求。某省住建委在智慧住建的信息化建设中,形成了支撑业务推进的多个应用,日常运维管理工作复杂繁琐,为了改善运维管理效率,提升应用质效,住建委进行了本次统一运维项目的建设。
项目需求和挑战
某省住建委本次建设主要挑战为:
  • 上云系统多,涉及协作单位多;

  • 各信息系统用户范围广、重要性高、技术领域广、安全要求高;

  • 开发商多,日常运维繁琐,缺乏标准化管理,管理复杂

  • 系统统一运维、问题定位、问题解决的困难度和繁琐度较高。

为确保信息系统安全、稳定、高效地运行,建立质效型运维服务体系,促进运维工作实现标准化、管理精细化,促进服务水平的持续提升,本次建设的主要目标包括:
  • 树立面向业务服务的运维管理理念;

  • 建立科学合理的绩效考核指标;

  • 由粗放管理向精细管理转变;

  • 实行集中统一的运维管理模式,由分散管理向集中管理转变;

  • 建立统一、高效、灵敏的运维管理平台,由无序服务向有序服务转变;

  • 建立规范标准的运维管理流程,由职能管理向流程管理转变;

  • 应用先进、实用、高效的运维管理工具,由被动管理向预防为主的主动管理转变;

  • 建立专职专业的运维团队和组织保障;

  • 建立健全应急、重保、日常等运维制度和流程;

解决方案
浪潮云泽智能运维,以PPT方法论(People 人、Process 流程制度、Technology工具)、执行方法论(PDCA,Plan 计划、Do 执行、Check 检查和 Action 处理)为指导提供立体化运维体系,不仅提供智能分析决策组件、运维数据平台、自动化工具,还提供制度流程、知识经验,强化服务能力。


本次住建委的建设通过人(专家服务、坐席服务)、流程(监控、巡检、告警通知)、工具(智能运维产品工具)三个维度的相互配合,通过PDCA方法论执行具体的运维事项,建立质效型的运维服务体系,通过多种技术手段实时监控应用、云资源、网络、中间件等各类资源的运行情况与健康状态,通过服务台、流程(过程的管理工具)实现标准化、流程化的应用运维过程,提升应用的可用性与使用性。


3.1 实时监控运行状态
对系统从全局角度进行统一监控,整合现有信息系统的数据资源,覆盖硬件(计算、存储、网络设备)监控、软件日常监控,通过应用运行概况大屏从不同维度对应用系统的可用性进行展示,实时监控应用整体情况、端到端情况、业务中间件、业务维度服务的实时情况,通过多点拨测查看上云系统的可用率和延时情况,同时可提供不同维度的服务分析报告以供参考分析,提升运维管理效率。


3.2 全链路拓扑定位根因
对云上系统,通过全链路拓扑快速定位异常节点,从应用粒度、应用内功能粒度、应用内功能运行调用链粒度层层分析,落实问题根因,提供了多维度的应用性能分析手段,包含应用性能指标、日志关联分析、告警等。同时采用旁路探测的方式进行监控,实现无侵入式监控,确保业务数据的安全、可靠。


3.3 故障生命周期自动化管理
1) 发现、定位问题:通过对故障、问题生命周期自动化管理,使用统一监控及时发现问题,定位问题。
2) 告警显示与发送:当应用系统产生故障后,将会同步产生对应故障对象的告警数据,经过告警规则与告警流统一汇总处理,核验告警内容、告警对象以及分析可能的告警原因,统一在运维支撑系统的告警列表中显示,并通过及时通信工具发送给相关运维管理人员,
3) 告警处理、清除和记录:确认需要人力介入时,安排相关人员进行故障处理,同时,可通过知识库有效地向运维人员共享问题处理经验。当告警对象通过人员处理或自动处理恢复正常,系统将清除告警。已清除告警也可以在历史告警列表中查看。


3.4 摸家底——全面细致了解资源详情
云泽智能运维,可支持对IT资源(常用IT物理设备)、CT资源(云及虚拟化组件)、AT资源(应用及中间件)、OT资源(传感器设备)进行监控,本项目通过资源管理将客户的应用、服务产品、中间件等资源进行整合,形成统一有效的管理,协助客户摸清家底,了解资源的使用情况和保质期情况,促使管理效率的提升,降低成本,提高服务质量。


3.5 运维流程标准化管理
通过业务运维系统(ITSM)以ITIL为标准规范,为智慧住建提供规划、研发、实施和运营进行有效管理的方法,以服务台作为问题解决中枢,用于指挥、调度工作处理,配备值班管理、事件管理、问题管理、发布管理、配置管理、变更管理等功能,开放给服务商、开发商、运维人员等使用,减少流程失误、人员疏失方面的问题,构建优质、高效的IT服务管理体系,为客户提供高质量、低成本服务。


3.6 自动化巡检
智能巡检功能,可以做到巡检记录无纸化、高效化,可节省巡检的时间及人力成本。该功能详细记录运维人员的运维时间、操作命令、运维时长等信息,并能够实现该运维过程的监控回放。系统提供统计分析功能,能够按运维人员、资源对运维情况进行汇总分析。
如下图所示,针对特定巡检工作,可以通过增加巡检项将巡检任务返回结果和告警规则关联起来,并且能够通过多个巡检条件组合来判断异常。当巡检结果满足发送告警条件时,将巡检结果生成告警信息发送给当前值班人员。


3.7 360度考评管理
住建委需要对云服务商、开发商的运维团队进行更加规范和高效的管理。智能运维服务体系可支持对云服务商、开发商、运维人员进行评价,通过SLA、业务交付比、业务故障比、资源业务比、值班合格率、巡检合格率、交付超时率、故障超时率、客户满意度等进行打分,并最终根据打分运维评价报告和个人考评报告,便于提高云服务商、开发商的运维团队的服务质量。
结语

浪潮云泽智能运维,以用户需求场景为导向,构建全场景运维监控和服务体系,从应用质量和效益两个方面监管,保障业务稳定运行,帮助用户不断实现提升运维管理效率。

如需了解更多,联系我们

浪潮云售前电话

400-607-6657



上一篇: 浪潮云说丨熟练使用DRDM,单车也能变摩托
下一篇: 浪潮云说丨视频云——信息与情感的摆渡人

相关文章