メインコンテンツまでスキップ

(終了) 【続報】2024年6月18日(火) Lustre7の緊急メンテナンス

2024年6月25日(火) 9:00 (24h表記) 復旧作業を終了しました。

ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。

  • 6月17日(月)18時21分14秒、 一般解析区画の高速ストレージシステムLustre7で障害が発生し、一部書き込みができない状態となりました。具体的には88個あるRAIDグループ(Lustre OST)のうちの1つ(OST0029)に対して書き込みできない状態となりました。
  • 6月18日(火)14時00分ごろから、復旧作業を開始し、20時00分ごろ終了しました。
  • しかし、20時00分の段階で、一部の計算ノードがOST0029へアクセスできていない(readもwriteもできていない)ことが確認されました。具体的には以下の計算ノードです。
    • at017,at025,at026,at028,at029,at030,at031,at032,at033,at034,at035,at036,at037,at043,at044,at045,at046,at047,at048,at050,at051,at052,at053,at054,at055,at057,at058,at059,at060,at061,at062,at063,at064,at073,at074,at083,at084,at085,at087,at090,at095,at096,at097,at098,at099,at100,at101,at102,at103,at126,at127,at128,at129,at130,at131,at132,at133,at134,at135,at136 (136台ある Thin計算ノードType 1a, AMD EPYC 7501 CPU: のうちの60台 )
    • at139,at140,at141,at142,at143,at144,at145,at146,at147,at148,at149,at150,at151,at152,at153,at154,at155,at156,at157,at159,at160,at161,at162,at163,at164(28台ある Thin計算ノード Type 1b, AMD ROMA CPU: のうちの25台)
    • it001,it002,it004,it006,it007,it008,it009,it010,it013,it014,it015,it017,it024,it025,it026,it027,it028,it029,it031,it032,it034,it035,t036,it040,it041,it048,it049,it050,it051,it052 (52台あるThin計算ノードType 2a, Intel CPU: のうちの30台)
    • igt001,igt003,igt005,igt006,igt007,igt008,igt011,igt012,igt013,igt014 (16台あるThin 計算ノード Type 2b, Intel CPU: のうちの10台)
    • gw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp (2台ある一般解析区画のゲートウェイのうちの2台)
    • m01,m02,m03,m04 (10台あるmediumノードのうちの4台)
    • dtn4 (4台あるDDBJのサービスで利用しているデータ転送用ノードのうちの1台)
  • 6月19日(水)、これらのノードの再起動を順次行いLustre7へのアクセスを正常化させる作業を行います。

影響の範囲

  • 6月17日(月) 18時20分ごろから6月18日(火) 14時00分ごろまでは、すべての計算ノードからOST0029に対して書き込みができていません。6月18日(火) 14時00分ごろから同日20時00分ごろまでは、すべての計算ノードからOST0029に対して書き込みも読み込みもできていません。また上記に列挙した計算ノードについては6月19日(水)現在も読み書きができていない状態にあります。各ユーザは自分の計算結果に異常がないかご確認お願いします。 (OST0029を利用していないジョブには影響はありませんが、OST0029を利用しているかどうかはランダムに決まります。)
  • 個人ゲノム解析区画には影響はありません。
  • DDBJのサービスのうちデータ転送用ノードdtn4を用いているものについては通信断が発生します。