(終了)2015年10月30日【UGE障害】スーパーコンピュータシステム UGE動作不良のお知らせ

国立遺伝学研究所スーパーコンピュータシステム利用者各位

2015年10月30日
国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム

平素より、国立遺伝学研究所スーパーコンピュータシステムをご利用いただき誠に有難うございます。

下記の通り、障害が発生しUGE関連コマンド(qlogin, qsub, qstat等)が実行できなくなりました。

 

    障害発生日時
        2015 年 10 月 30 日 (金) 14:25 ~ 14:50

    障害内容

        Phase2環境にてUGE関連コマンド(qlogin, qsub, qstat等)が実行できなくなりました。

    障害原因・対策

        lustre3を構成するノード1台にて予期せぬ再起動が発生し、対となるノードへのフェイルオーバーが発生しました。

        フェイルバックを実施し、通信できなくなったサーバについては再起動を実施しました。

    障害影響
        ・障害期間の間、Phase2環境にてログインノードへのログイン、ジョブの投入、ジョブの状況確認等ができなくなりました。

        ・マスタホストと、複数の実行ホスト間が正常に通信できなくなりました。このため、これらの実行ホストで動作していたジョブはリスケジュールされました。

 現在、正常にアクセス可能です。

この度は ご迷惑をお掛けし申し訳ございませんでした。

 

 --- 
国立遺伝学研究所 スパコン管理チーム 
http://sc.ddbj.nig.ac.jp/
address.png