万字谈监控解答Zabbix与Promet - 监控行业

TUhjnbcbe - 2020/12/24 0:57:00

北京白癜风医院在那里啊 http://pf.39.net/bdfyy/bjzkbdfyy/
Zabbix与Prometheus读完本文，你将收获

两者适用于多大规模的监控场景？超过以上监控节点时怎么办？高可用怎么解决？

两者怎么解决存储问题？对于监控信息是否有历史存储和分析，能从历史信息中挖掘到哪些有价值的信息？

两者怎么应对告警风暴和误报？

在智能监控和自动治愈方面是否有可借鉴的实践？基于什么算法或策略？怎么进行故障预判和预处理？

监控大屏是怎么设计的？

自动化运维管理是两者同时使用还是二选一更合适？

两者在配合使用时，应该怎么分工？怎么落地？

如果已经部署了Zabbix，怎么平稳过渡到Prometheus？

分布式链路的可观测性和端到端诊断怎么做？

大规模场景下，两者的性能和成本哪个比较低？

监控，为什么总让我们头痛

监控一直都是运维工作中不可或缺的部分，一个高效、契合的监控系统是服务赖以健康稳定的基石。随着业务规模的增长、技术的发展、行业的变革，企业对用户体验越来越重视，监控的需求发生着日新月异的变化，相应的监控工具和解决方案也层出不穷。其中，Zabbix和Prometheus就是两款非常典型的监控工具，应用颇为广泛。

说起来，监控在不同的团队和公司之间，可能会存在各种差异化的需求。如何基于开源产品打造一个符合自己业务场景的监控体系，并且持续迭代？这成为了大家无法绕开的课题。

比如说，如何选择监控方案和开源工具？如何为自己的业务场景做定制化适配？如何实现端到端的全链路监控？如何让业务方以更低成本接入到这个系统中？如何做监控的自动化？如何做异常告警的路由、分发、收敛和抑制？如何做统一化的监控大屏、Dashboard等等……这些都是我们在构建监控系统中可能会面临的问题。

围绕这些问题，dbaplus社群特别邀请到美图SRE负责人-石鹏(东方德胜)作为主持人、招商银行技术经理-蔡翔华作为Zabbix使用方、甜橙金融基础技术架构师-刘宇作为Prometheus使用方，针对Zabbix和Prometheus展开实用选型探讨。

十问十答，监控工具怎么选

Q1：Zabbix和Prometheus分别适用于多大规模的监控场景？超过以上监控节点时怎么办？高可用怎么解决？

蔡翔华：我们和Zabbix官方其实有沟通过，业内他们有一些监控到了40万以上的节点数，当然这个节点数也要根据你每个节点上监控多少东西。Zabbix其实有一个指标叫做NVPS（NewValuePerSecond），也就是每秒新增的值的指标，来判断你的监控规模是不是合适的。

那么对于个节点以上的场景来说，其实Zabbix还是OK的，你可以通过多布署一些Proxy，去对后台数据库做一些性能调优等等，以这些方式去提高整个监控平台的可承受、负载的性能。

另外关于高可用，我们的数据库端是会有Mycat或者HAProxy高可用，但服务器端本身它其实没有高可用，那么我们可以依赖于虚拟化平台，或者是比如像我们有Vmotion等热迁移这些技术。另外，在未来的5.x版本或者6版本以上的话，官方已经将原生的高可用纳入到Zabbix的Roadmap里面了，大家可以期待一下。

石鹏：好的，蔡老师的核心观点其实就是我们需要