监控行业

首页 » 常识 » 诊断 » 浅谈运维中的监控
TUhjnbcbe - 2025/2/23 23:50:00

综述:

防控中心不断明确监控需求,从实际网络环境、机房环境、业务逻辑、资源数量等方面考量,选择符合业务场景的监控系统Zabbix对服务器、数据库、平台系统业务进行监控,及时了解应用服务的运行状态,保障应用业务正常运行。

当前信息化时代,企业的业务对于信息化的依赖程度越来越强,信息化又依赖于各种各样的IT资源,当IT资源出现故障时,有可能对企业的业务造成影响。我们无法避免故障的产生,但是我们可以缩短故障造成的影响时间,这就需要有一套稳定高效的监控系统。

一、监控的作用

正所谓「无监控,不运维」,监控系统的地位不言而喻。不管你是系统的开发者还是使用者,首先肯定要清楚:监控系统的目标是什么?它能发挥什么作用?

1.实时采集监控数据:包括硬件、操作系统、中间件、应用程序等各个维度的数据。

2.实时反馈监控状态:通过对采集的数据进行多维度统计和可视化展示,能实时体现监控对象的状态是正常还是异常。

3.预知故障和告警:能够提前预知故障风险,并及时发出告警信息。

4.辅助定位故障:提供故障发生时的各项指标数据,辅助故障分析和定位。

5.辅助性能调优:为性能调优提供数据支持,比如慢SQL,接口响应时间等。

6.辅助容量规划:为服务器、中间件以及应用集群的容量规划提供数据支撑。

7.辅助自动化运维:为自动扩容或者根据配置的SLA进行服务降级等智能运维提供数据支撑。

二、部分常见的监控对象和指标

三、主流监控系统介绍

Zabbix:Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。Zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供强大的通知机制以让系统运维人员快速定位/解决存在的各种问题。

Prometheus:Prometheus是一套开源的系统监控报警框架,它既适用于面向服务器等硬件指标的监控,也适用于高动态的面向服务架构的监控。对于现在流行的微服务,Prometheus的多维度数据收集和数据筛选查询语言也是非常的强大。Prometheus是为服务的可靠性而设计的,当服务出现故障时,它可以使你快速定位和诊断问题。

Nightingale:Nightingale(夜莺)是滴滴基础平台联合滴滴云研发和开源的企业级监控解决方案。旨在满足云原生时代企业级的监控需求。Nightingale在产品完成度、系统高可用、以及用户体验方面,达到了企业级的要求,可满足不同规模用户的场景,小到几台机器,大到数十万都可以完美支撑。兼顾云原生和裸金属,支持应用监控和系统监控,插件机制灵活,插件丰富完善,具有高度的灵活性和可扩展性。

主流监控系统对比图

监控的目的是防患于未然,防控中心不断明确监控需求,从实际网络环境、机房环境、业务逻辑、资源数量等方面考量,选择符合业务场景的监控系统Zabbix对服务器、数据库、平台系统业务进行监控,及时了解应用服务的运行状态,保障应用业务正常运行。监控系统的建设是一个长期任务,任何监控系统不可能适用所有场景,我们还需要考虑未来IT技术的发展走向,随着业务发展的过程中同步和发展监控系统,不断完善运维监控解决方案。

本文内容为原创,转载请注明出处!

1
查看完整版本: 浅谈运维中的监控