(Follow-up)[Outage] September 17, 2021: Lustre6 disk failure on September 15, 2021
概要
Lustre 6ファイルシステムを構成しているRAID6グループの1つで3本のディスクに障害が発生した ため、Lustre6の一部のファイルに対しデータアクセス出来ない状態となっております。また一部のファイルが失われた可能性があり調査中です。
期間
2021年9月11日 (土) 05:30 頃 ~ 継続中
詳細
遺伝研スパコンのストレージは以下の3つのファイルシステムからなります。
Lustre 6 : DDBJ業務用 および 旧スパコンからのデータ移行用 Lustre 7: 現スパコンの一般解析区画のユーザーホーム領域 Lustre 8 : 現スパコンの個人ゲノム解析環境のユーザーホーム領域
Lustre6ファイルシステム 3.8PBはRAID6グループ41個で構成されておりそのうちの1つでディスク障害が発生しました。
9/10(金) Lustre6のRAIDの1つで1本ディスク障害発生。自動でリビルドがスタート。 9/11(土) 同じRAIDで合計3本のディスクが破損。2本はRAIDから認識されておらず、1本はエラー状態でRAIDから認識された状態。(ログに基づく) 9/13(月) 該当のRAIDグループについて書き込み不可読み取り可の状態でのディスク修復を開始。 9/15(水) 6:00ディスク修復失敗で終了したためLustre6に対する読み書きを停止した状態でのディスク修復を開始。 9/15 (水) 11:00 DDBJデータ登録および検索サービスを停止。 9/16 (木) ディスク修復が失敗で終了したため、該当RAIDグループについて読み取れるデータのバックアップ取得開始
該当のRAIDグループに保存されているデータ量は75TB、約1千万ファイ ルです。現在、読み取り可能なデータの読み出しおよびバックアップを行っていますが、全てのデータのバックアップはできない可能性があります。
このディスク障害に伴い少なくとも一週間程度、DDBJのデータ登録、データ検索サービスが停止となる予定です。
このたびはユーザーの皆様には多大なご迷惑をおかけすることとなりお詫び申し上げます。