オラクルRACにおけるインターコネクト障害に関して メモ書き
オラクルのバックグラウンドネットワークは、以下の処理を行っている
キャッシュフュージョン管理
この処理は、更新されたデータや構成管理情報をネットワークを通してやりとりを実施
している。
ここで特にデータの管理において、ブロック単位でデータを授受している関係から
ブロックが送受信できない場合、データの欠損に至ってしまうため障害検知が最もシビア
であり、かつ負荷(ワークロード)管理がすぐ活動する事がわかった。
ハートビート管理(VoteingDisk管理)
スピリットブレイン(どちらが親になり管理するかわからなくなる状態)の管理のために
VoteingDiskを利用して、上位サーバのとり決めを実施している。
ここで、VoteingDiskは1秒単位での管理を実施しているため、障害検知がもっとも高速で
あるため、こちらのネットワークに障害が発生した場合クラスター管理構成が安全のため
上位サーバを選出し下位サーバをダウンさせることがわかった
うちの場合は、ハートビート管理もこのネットワークを通して行っている。
そのため、このネットワークがダウンした場合、最も大きな障害が発生する可能性が最短で
あるため、このキャッシュフュージョン用のスイッチを落とすと大きな障害になるようだ。