北京白癜风治疗最好医院是哪家 https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E4%B8%AD%E7%A7%91%E7%99%BD%E7%99%9C%E9%A3%8E%E5%8C%BB%E9%99%A2/9728824监控能力是保证信息系统安全运行的核心能力,监控系统是系统持续服务的守护神。因此,监控体系的建设、监控能力的提升一直是生产运维工作的重点。如何建设一套适合自身企业架构的监控体系,构建一套高效、有效的企业级的生产监控平台,是各级运维管理者要面对的问题。本文以IT生产运维工作的全生命周期为线索,在生产运维生命周期的各个阶段,从业务架构、组织架构、技术架构的角度,对监控能力、监控系统及体系建设做了分析和探讨。期冀抛砖引玉,引发读者的深入思考,结合自身企业文化、组织架构和管理要求,建起适合自身需要的监控体系。引子“安全生产大于天”,互联网浪潮引发的信息革命,在各行各业产生了巨大影响,信息化成为常态的背景下,信息系统的安全运行尤其重要,而作为信息系统守护者-“监控”,是重中之重。从一般生产运维活动的全生命周期看,大致可以划分为几个阶段:(1)持续运行阶段:系统健康状况良好,可持续对外提供服务。本阶段的核心活动是系统健康检查、系统运行指标监测。(2)故障发生、发现及通知阶段:系统发生故障,如响应率下降、服务不可用等。在故障发生后,能够及时发现故障是一项很重要的能力,不能等到客户投诉、客服人员找上门来才发现故障,此时的系统故障面可能已扩大,业务影响已不可挽回。本阶段的核心活动是监控告警。(3)故障定位、处置及修复阶段:确定故障发生部位;进行故障点隔离,保证故障之外的其他部分的可用性、保证业务不中断;以恢复生产为第一目标(不是先查明原因再做处置修复,而是优先考虑如何快速恢复对外服务能力),进行应急处置,有预案的按预案处置,无预案的应急团队确定应急方式后再行处置。本阶段的核心活动是应急处置。(4)原因分析阶段:系统恢复后,对故障原因进行深入分析,确定故障的根因所在,有针对性的制定改进措施。通过故障复盘、日志分析、监控数据分析等手段进行。本阶段的核心活动是故障复盘。(5)加改进固阶段:按照确定的改进措施,及时对系统进行升级加固,确保同类问题后续不再发生。同时,要举一反三,对其他系统类似的问题隐患进行排查、整改。本阶段的核心活动是系统加固。下面就按照上述五阶段,从监控的角度出发,对运维活动中与监控有关的产品、技术及组织架构进行探讨。一、持续运行阶段系统持续运行期间,主要任务是监测系统的健康状况。系统的健康状况,可以分三个等级:一等:系统是活着的。系统部分或全部功能是可用的。二等:系统是正常的。系统全部功能正常,可正常对外提供各项服务。三等:系统是健康的。系统的各项指标消耗均处于较低的水平,系统可正常对外提供服务,也有充足的余量承受更大业务量带来的压力。从产品层面看,对系统健康状况进行监测的主要手段包括:运行指标监测、心跳监测、日志监测、系统验证、大业务量营销活动监测等。1,指标监测指标监测是监测的核心内容。按自上而下的顺序,指标分多个层级:应用系统层:重点交易的成功率、响应时间、交易量等。系统软件层:包括操作系统、数据库、中间件等,对数据库来说,一般要监测锁的数量、内存消耗、表空间、长事务等。硬件服务器层:CPU、内存、存储空间(阵列、带库、NAS等)、虚拟主机资源、云资源等。网络层:带宽消耗情况、交换机路由器、负载均衡设施等。基础设施层:空调、机房环境、电力、安防等。对于这些监测指标,要