监控行业

注册

 

发新话题 回复该主题

标准系列解读服务商如何做好数据库监控与巡 [复制链接]

1#
贵阳儿童白癜风 http://pf.39.net/bdfyy/bdflx/210725/9228886.html

上一期的解读围绕运维运营能力域的基本运维和云化运维两个能力项展开,详述服务提供商应该具备的服务活动内涵、过程描述和能力等级标准。

本期接着上期的文章继续为大家解读数据库服务能力成熟度模型运维运营能力域的数据库监控和健康检查两个能力项。数据库服务能力成熟度模型的整体框架如下图所示:

《数据库服务能力成熟度模型》按照交付类型总体分为规划设计能力域、实施部署能力域和运维运营能力域,共包含27个能力项。每个能力项均从人员、工具、流程、制度、技术等维度,通过人员访谈、资料审查、工具演示等方式,对企业服务能力的评价从低到高依次划分为初始级、可重复级、稳健级、量化管理级和优化级五个等级。每个能力域的等级评定是由能力域所包含能力项的等级按照一定算法计算得出,每个能力项的等级评定是由该能力项五个等级的符合程度按照一定算法判定所得。

简单来说,数据库监控能力可以理解为服务提供方在IT运维服务方面的一项基本能力要求,目前行业主要以Telegraf(收集系统和服务的统计数据)+Prometheus/InfluxDB(时序数据库存储和计算监控数据)+Grafana(可视化展示)架构的开源解决方案+定制化开发方式交付监控告警平台,平台通常需要具备多种主流数据库进行集中监控和告警能力,具备多样的告警方式,优秀的平台还应支持监控模板功能,支持监控发现低效SQL并进行下钻,辅助SQL优化分析,同时还能够提供接口供需求方内部已建设好的一体化监控平台集成调用。数据库监控是指数据库监控是指数据库服务方能够通过数据库监控平台,完成对数据库状态、可用性、性能等关键指标的监控和存储,监测信息至少包含数据库运行状态,服务器CPU、I/O等资源消耗,存储空间情况,数据库性能数据、报错信息等。监控平台应具备报警功能。

数据库监控的主要过程描述如下:

a)调研和需求分析:对需求方的数据库监控需求进行调研和分析,了解数据库规模、数据规模、网络拓扑、集群部署等客观信息,并收集需求方对于数据库监控实际要解决的技术问题、管理规范等需求,明确数据库监控的指标以及监控频率等重要信息;

b)方案制定:针对需求方的数据库客观应用信息和部署信息,结合用户的实际需求,制定数据库监控方案,内容包括但不限于数据采集方式、采集数据类型、数据传输、数据处理、数据存储、异常告警和可视化等,以及监控平台的具体部署方式;

c)监控实施:根据数据库监控实施方案,部署监控环境,将需要进行监控的数据库加入到数据库监控平台,并配置监控阈值、报警方式等信息;

d)监控验证:针对部署完成的监控平台环境,对监控进行功能验证。针对异常告警,模拟用户实际场景,进行告警功能验证,通过监控平台对数据库状态、可用性、性能、安全性、空间、报错等关键指标进行监控报警;

e)监控上线:对验证通过的监控方案上线运行。

按照服务能力成熟度的差异划分,数据库监控能力要求如表1所示:

表1数据库服务能力成熟度-数据库监控能力等级标准

评估要点:

◆监控方案和指标、监控平台部署文档、操作使用流程、规范等

◆服务人员专业水平,是否满足5*8/7*24小时对监控发现问题的快速处理需求

◆监控告警平台源码可控能力、功能完善性及易用性

介绍完数据库监控后,接下来解读运维运营的第四个能力项:健康检查。健康检查通常也叫巡检,检查范围通常包括但不限于数据库空间、可用性、报错、安全性、数据保护、系统配置,服务提供方不仅要提供巡检方案,还需提供巡检数据采集、巡检数据分析、巡检报告生成、巡检建议审阅、改进方案落地的完整闭环管理流程与策略。健康检查是指数据库服务方能够对需求方数据库进行综合性、多维度深入分析,发现数据库运行一段时期后可能存在的故障、错误或隐患,提出合理的处理建议并进行处理,保障数据库系统的正常运行,保证数据的安全性、完整性和可用性。

健康检查的主要过程描述如下:

a)调研和需求分析:对需求方的数据库巡检需求进行调研和分析,了解数据库规模、数据规模、网络拓扑、集群部署等客观信息,并收集需求方对于数据库巡检的实际需求;

b)方案制定:针对需求方的数据库客观应用信息和部署信息,结合用户的实际需求,制定数据库巡检方案,包括数据采集方式、采集数据类型、数据处理、数据存储、数据分析、处理方案推荐和巡检可视化等,以及确定巡检平台的具体部署方式和巡检方式。以上所有方案流程具备详细的操作手册和执行明细;

c)巡检实施:根据制定的巡检方案,进行巡检平台部署和实施;

d)巡检验证:根据巡检方案和操作手册,巡检平台对数据库进行定期巡检。保证巡检平台的运行符合用户需求,巡检结果准确,并且针对问题推荐合理的处理方式和处理建议;

e)巡检上线:对验证通过的巡检方案上线运行。

按照服务能力成熟度的差异划分,健康检查能力的等级要求如表2所示:

表2数据库服务能力成熟度-健康检查能力等级标准

评估要点:

◆数据库健康检查工具功能完善性及易用性

◆多种架构的巡检实施案例

◆巡检需求文档、包括数据采集方式、巡检频次、数据存储方式等信息的巡检方案

《数据库服务能力成熟度模型》标准是由中国信息通信研究院依托通信标准化协会大数据技术标准推进委员会(CCSATC),联合云和恩墨、腾讯云、星环科技、新炬网络、中兴通讯、爱可生、华为云、华胜信泰、科蓝软件、浪潮云、金山云、迪思杰、万里开源、百度智能云等企业于年联合编制而成,标准共包括多个评估点,成为国内数据库服务领域最权威的标准,目前已累计完成3批6家共11次评估工作,包括云和恩墨、星环科技、腾讯云、科蓝软件、中移苏研和京东科技,为行业遴选优质服务商提供有力依据,评测证书可通过

分享 转发
TOP
发新话题 回复该主题