(終了)2017年3月17日【LUSTRE5障害:2】LUSTRE5障害復旧のお知らせ

国立遺伝学研究所スーパーコンピュータシステム利用者各位

 

2017年3月17日
国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム

平素より、国立遺伝学研究所(以下 遺伝研)スーパーコンピュータシステム(以下 スパコン)を ご利用いただき誠に有難うございます。

遺伝研法廷停電に伴う遺伝研スパコンのメンテナンス(2017/3/3~3/9)の際に、計算用ストレージの一部である
lustre5を構成するメタ情報格納ストレージ(MDT)にて障害が発生し、lustre5領域にホームディレクトリを持つユーザーは
スパコン Ph2システムの利用ができない状態にありましたが、3月17日(金) 14:00に復旧しサービスを再開いたしました。

 本障害に伴いまして、lustre5領域にホームディレクトリを持つ一部ユーザーについて、一部のファイルが失われる事態となりました。 
該当のユーザーには失われたファイルに関する情報を個別にメールでご連絡いたします。 

サービス再開が大幅に遅れましたことをお詫び申し上げます。     

 

なお、現在稼働中のPhase1システムのlustre1およびlustre2につきましてもファームウェアアップデートが必要です。
ファームウェアアップデート時は10分程度lustre1,2へのアクセスができなくなります。日程を調整し近日中に作業いたします。

遺伝研スパコンホームページでご案内しております通り、ディスク容量に余裕がないためホームディレクトリ内のデータについて
当研究所ではバックアップを取っておりません。免責事項の通り、利用者の責任においてバックアップを取っていただくようお願いいたします。

 

障害の詳細内容

【障害発生したシステム】

     高速ストレージシステム /lustre5

 

【障害内容】

    遺伝研スパコンには、高速ストレージシステムとして5つのLustreファイルシステムを持っている。
    遺伝研の法廷停電に合わせて遺伝研スパコンのメンテナンス作業を行なっていたが、メンテナンス作業中に
    5つのLustreファイルシステムの一つである/lustre5 に障害が発生し、遺伝研スパコンからマウントができなくなった。
    その後対策を行いストレージをマウントしたところ、格納ファイルに不整合が検知された。
    その後これらのファイルの復旧作業を行なったが、大部分のファイルが最終的には回復できないことが判明した。

 

【影響範囲】

    不整合となったファイル数:約83万 (障害前のlustre5の総ファイル数約2.8億のうちの0.03%、このうち約2.3万ファイ
                ルは復旧)
    不整合のファイルを保有するアカウント数:29 (lustre5を使用しているアカウント数212)

 

【原因】

    高速ストレージシステムのメタ情報を格納しているサーバー(MDS)のストレージ部分(MDT)はRAIDで構成されているが、
    このMDT上でエラーが発生し、しかもそのエラーが検出されなかったためエラーを含むメタデータがそのままMDTに
                書き込まれた。
    これにより格納ファイルに不整合が発生した。

 

【対策】

    MDTのファームウェアをアップデートした。最新ファームウェアではエラーチェック機構が改良されており
    再発は起こりにくいと考えられる

 

【時系列】

  2017年3月03日(金)
    17:00 法定停電にともなうスパコンメンテナンス開始、システム停止

  2017年3月04日(土)
    08:00-20:15 遺伝研法定停電

  2017年3月06日(月)
    09:00 スパコンメンテナンス開始
 
  2017年3月08日(水)
    09:43 サービス再開に向けてlustre起動、/lustre5起動障害検知

  2017年3月09日(木)
    00:00 スパコンメンテナンス終了期日
         Phase2システムおよびAsperaサービスについては引き続き作業
    15:08 格納ファイルに不整合があることを検知
    17:07 最新MDTコントローラファームウェアにアップデート
    23:59 スパコンメンテナンス予備日終了期日

  2017年3月10日(金)
    01:20 不整合があるファイルの調査、修復作業を開始

  2017年3月16日(木)
    09:30 不整合が発生したアカウント数、ファイル数、サルベージできたファイル数を確認
    12:30 サービス復旧にむけて作業を開始

  2017年3月17日(金)
    14:00 サービス再開

 

 

--- 
国立遺伝学研究所 スパコン管理チーム 
https://sc.ddbj.nig.ac.jp/
address