重复检查以确定主机状态¶
https://blueprints.launchpad.net/masakari-monitors/+spec/retry-check-when-host-failure
问题描述¶
如果平台网络稳定性较差,从 pacemaker 和 corosync 来看,主机状态会在“在线”和“离线”之间摇摆。如果主机监控在这种情况下反应迅速,会导致主机恢复,这不是预期的行为。
提议的变更¶
仅通过一次检查来确定主机状态是不准确的。重复检查更可靠。
主机监控会维护一个主机最新状态的序列。只有当其最新状态序列持续为“离线”时,主机状态才会被判定为“离线”。
序列的长度由 monitoring_samples 配置决定,其默认整数值为 1。这意味着只有当主机的一次检查状态为“离线”时,主机状态才会被判定为“离线”。
同时,建议配置 monitoring_interval 的默认值设置为 60 秒,与之前相同。
备选方案¶
无
数据模型影响¶
无
REST API 影响¶
无
安全影响¶
无
通知影响¶
无
其他最终用户影响¶
无
性能影响¶
无
其他部署者影响¶
无
开发人员影响¶
无
实现¶
负责人¶
主要负责人
suzhengwei <sugar-2008@163.com>
工作项¶
无
依赖项¶
无
测试¶
需要单元测试。
文档影响¶
更新用户文档。
参考资料¶
无
历史¶
发布名称 |
描述 |
|---|---|
Wallaby |
引入 |