重复检查以确定主机状态

https://blueprints.launchpad.net/masakari-monitors/+spec/retry-check-when-host-failure

问题描述

如果平台网络稳定性较差,从 pacemaker 和 corosync 来看,主机状态会在“在线”和“离线”之间摇摆。如果主机监控在这种情况下反应迅速,会导致主机恢复,这不是预期的行为。

提议的变更

仅通过一次检查来确定主机状态是不准确的。重复检查更可靠。

主机监控会维护一个主机最新状态的序列。只有当其最新状态序列持续为“离线”时,主机状态才会被判定为“离线”。

序列的长度由 monitoring_samples 配置决定,其默认整数值为 1。这意味着只有当主机的一次检查状态为“离线”时,主机状态才会被判定为“离线”。

同时,建议配置 monitoring_interval 的默认值设置为 60 秒,与之前相同。

备选方案

数据模型影响

REST API 影响

安全影响

通知影响

其他最终用户影响

性能影响

其他部署者影响

开发人员影响

实现

负责人

主要负责人

工作项

依赖项

测试

需要单元测试。

文档影响

更新用户文档。

参考资料

历史

修订版

发布名称

描述

Wallaby

引入