メインコンテンツまでスキップ

(終了) 【続報】2024年6月5日(水) Lustre7の緊急メンテナンス

· 約4分

掲載日: 2024年6月6日

2024年6月6日(木) 12時ごろ(24時間表記) に復旧作業を終了しました。

  • 6/5(水)午前1時34分21秒、  一般解析区画の高速ストレージシステムLustre7で障害が発生し、一部書き込みができない状態となりました。具体的には88個あるRAIDグループ(Lustre OST)のうちの1つ(OST0031)に対して書き込みできない状態となりました。
  • 復旧作業を15:30ごろから開始し、20:00ごろ終了しました。
  • しかし、20:00の段階で、一部の計算ノードがOST0031へアクセスできていない(readもwriteもできていない)ことが確認されました。具体的には以下の計算ノードです。
    • at017,at025,at054,at049,at051,at052,at047,at045,at050,at053,at085,at099,at102,at101,at132,(136台ある Thin計算ノードType 1a, AMD EPYC 7501 CPU: のうちの15台 )
    • at140,at141,at149,at155, (28台ある Thin計算ノード Type 1b, AMD ROMA CPU: のうちの4台)
    • it001,it040,igt003,it050, it049, (52台あるThin計算ノードType 2a, Intel CPU: のうちの5台)
    • gw1,gw4, (一般解析区画のゲートウェイ 2台)
    • m01 (10台あるmediumノードのうちの1台)
    • dtn2,dtn4 (DDBJのサービスで利用しているデータ転送用ノード)
  • 6/6(木)これらのノードの再起動を順次行いLustre7へのアクセスを正常化させる作業を行います。

影響の範囲

  • 6月5日 1:30ごろから20:00ごろまではすべての計算ノードからOST0031に対して書き込みができておらず、15:30~20:00の間は読み出しもできていません。また上記に列挙した計算ノードについては6月6日現在も読み書きができていない状態にあります。各ユーザは自分の計算結果に異常がないかご確認お願いします。 (OST0031を利用していないジョブには影響はありませんが、OST0031を利用しているかどうかはランダムに決まります。)
  • SSL-VPNにログインができないため、個人ゲノム解析区画にもログインができない場合があります。
  • DDBJのサービスのうちデータ転送用ノードdtn2, dtn4を用いているものについては通信断が発生します。