作者:黄庆兵


grpc 异常并夯住的问题分析

在压力测试环境中,会出现了 kube-apiserver 连 etcd 报 grpc 异常并夯住的情况,此文做个简要分析。 其中核心错误是: rpc error: code = 13 desc = stream terminated by RST_STREAM with error co

继续阅读

VM 监控指南

做云计算平台,VM 级监控必不可少,监控的指标包括 CPU、内存、磁盘、网络、load值等。 Prometheus + Grafana 就能很方便的用来监控服务器,只需要额外添加 node_exporter 这个组件,同样也是 Prometheus 旗下的。 本文假设你已经有搭建过 Pr

继续阅读

cAdvisor(容器)监控指南

如果你的节点运行着 kubelet,恭喜你,可以非常方便的集成cAdvisor(容器)监控。 cAdvisor 是 google 开源的分析容器资源使用和性能特性的工具。从 2015-03-10 这个提交(Run cAdvisor inside the Kubelet. Victor M

继续阅读

etcd 故障排查之 `snapshotting is taking more than x seconds to finish`

查看 etcd 运行日志,如果看到如下日志: snapshotting is taking more than x seconds to finish … 当发送一个snapshot超过30s并且在1Gbps(千兆)网络环境下使用时间超过一定时间时,etcd就会打印这个日志进行告警。

继续阅读

etcd 故障排查之 `request ignored (cluster ID mismatch)`

查看 etcd 运行日志,如果看到如下日志: request ignored (cluster ID mismatch) 是因为 cluster token 不一致,新成员接收到请求后会报出这个warning。查看官方问答,解释如下: Every new etcd cluster

继续阅读
Bingo Huang