(終了) 【続報】2024年6月5日(水) Lustre7の緊急メンテナンス
2024年6月6日(木) 12時ごろ(24h表記) に復旧作業を終了しました。
- 6月5日(水)午前1時34分21秒、 一般解析区画の高速ストレージシステムLustre7で障害が発生し、一部書き込みが できない状態となりました。具体的には88個あるRAIDグループ(Lustre OST)のうちの1つ(OST0031)に対して書き込みできない状態となりました。
- 6月5日(水)15時30分ごろから復旧作業を開始し、20時00分ごろ終了しました。
- しかし、20時00分の段階で、一部の計算ノードがOST0031へアクセスできていない(readもwriteもできていない)ことが確認されました。具体的には以下の計算ノードです。
- at017,at025,at054,at049,at051,at052,at047,at045,at050,at053,at085,at099,at102,at101,at132,(136台ある Thin計算ノードType 1a, AMD EPYC 7501 CPU: のうちの15台 )
- at140,at141,at149,at155, (28台ある Thin計算ノード Type 1b, AMD ROMA CPU: のうちの4台)
- it001,it040,igt003,it050, it049, (52台あるThin計算ノードType 2a, Intel CPU: のうちの5台)
- gw1,gw4, (一般解析区画のゲートウェイ 2台)
- m01 (10台あるmediumノードのうちの1台)
- dtn2,dtn4 (DDBJのサービスで利用しているデータ転送用ノード)
- 6月6日(木)に、これらのノードの再起動を順次行いLustre7へのアクセスを正常化させる作業を行います。
- 一般解析区画のゲートウェイ2台が含まれるので、本作業中スパコンへのログインができなくなり、また、SSH通信が遮断されます。
- 一般解析区画のゲートウェイは2台あるので、一方にログインができない場合は、もう一方からログインしてください。
影響の範囲
- 6月5日(水) 1時30分ごろから20時00分ごろまではすべての計算ノードからOST0031に対して書き込みができておらず、15時30分~20時00分の間は読み出しもできていません。また上記に列挙した計算ノードについては6月6日(木)現在も読み書きができていない状態にあります。各ユーザは自分の計算結果に異常がないかご確認お願いします。 (OST0031を利用していないジョブには影響はありませんが、OST0031を利用しているかどうかはランダムに決まります。)
- SSL-VPNにログインができないため、個人ゲノム解析区画にもログインができない場合があります。
- DDBJのサービスのうちデータ転送用ノードdtn2, dtn4を用いているものについては通信断が発生します。