(終了)2014年9月5日【LUSTRE4障害:2】スーパーコンピュータシステム LUSTRE4復旧のお知らせ

国立遺伝学研究所スーパーコンピュータシステム利用者各位

2014年9月5日
国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム

平素より、国立遺伝学研究所スーパーコンピュータシステムをご利用いただき誠に有難うございます。

下記の通り、Lustre4にて障害が発生しておりましたが、メンテナンスを実施し、16:30に復旧致しました。


    障害発生日時
        2014 年 9 月 5 日 (金) 14:30 ~ 16:30

    障害内容

        Phase2一部のホーム領域(/lustre4/home)へのアクセス不可

    障害原因・対策

        Phase2システムのLustre4を構成するストレージのコントローラにて障害が発生し、
        コントローラのフラッシュカードの交換作業を実施しました。この作業中に、
        予期せぬコントローラの再起動が発生しました。これにより一部ストレージへの
        アクセスが途絶え、Lustre4がRead-onlyに切り替わりました。
        本来はコントローラは冗長化されているのですが、2台同時に再起動が発生し、
        本障害に至りました。

    障害影響

        ・14:50頃よりLustre4に書き込みが出来ない状態となりました。
          その後、復旧作業のため16:25にLustre4へのアクセスを停止させて頂いておりました。
        ・また、本影響によりPhase2ゲートウェイノード(gw2.ddbj.nig.ac.jp)で15:05頃に
          5分程度の通信障害が発生しました。

    対策

        コントローラの再起動によりアクセス障害は解消いたしました。 その後、ファイルシステムの
   チェック・修復プログラムを実行し、 正常性確認いたしました。

 

 この度はご迷惑をお掛けし申し訳ございませんでした。