監視
プールの監視で気づいたことを書きます。
Last updated
プールの監視で気づいたことを書きます。
Last updated
2021/5/1のエポック切り替わりで、ノード2台のうち1台、運用開始以来初めてサービスが停止しました。
Relay Node#1 (真ん中の列)、6:44以降グラフが途切れています。この間、CPU使用率が300%へ、メモリ使用率が100%へスパイクし、カルダノノードのサービスが停止していました。最近負荷が重くなってきているため、エポック切り替わり時の負荷によるものと思われます。他のプールでもこのタイミングで落ちたノードがあるとの報告がありました。 一方、Block Producer Node(一番左の列)のメモリ使用率はスパイクがなく、安定しているように見えます。
スペック: 8 GB RAM, 2 vCPUs, 160 GB SSD やっておいてよかったと思ったこと: - 障害通知設定 - ブロックリーダログの確認 - Relay Nodeの冗長化 疑問に思ったこと: 推奨通りのスペックでもこういうことがあるのだということ。つまりサーバのチューニングはオペレータ自身でする必要があるといえます。
メモ: - サーバのスペックを全て同じにすることは一つリスクになり得るということ。 - スパイクを考えると、結果から6割使用率が越えたあたりが警戒域になる。
対応: - ノードを16 GB RAM, 4 vCPUs, 320 GB SSDへアップグレード