(Follow-up)[Outage] September 17, 2021: Lustre6 disk failure on September 15, 2021
概要
Lustre 6ファイルシステムを構成しているRAID6グループの1つで3本のディスクに障害が発生した ため、2021年9月11日(土) 午前5時30分頃より、Lustre6の一部のファイルに対しデータアクセス出来ない状態となっております。また、一部のファイルが失われた可能性があり、調査中です。
期間
2021年9月11日(土) 5時30分 頃 ~ 継続中 (24h表記)
詳細
遺伝研スパコンのストレージは以下の3つのファイルシステムからなります。
- Lustre 6 : DDBJ業務用 および 旧スパコンからのデータ移行用
- Lustre 7 : 現スパコンの一般解析区画のユーザーホーム領域
- Lustre 8 : 現スパコンの個人ゲノム解析環境のユーザーホーム領域
Lustre6ファイルシステム 3.8PBはRAID6グループ41個で構成されておりそのうちの1つでディスク障害が発生しました。
- 9月10日(金) Lustre6のRAIDの1つで1本ディスク障害発生。自動でリビルドがスタート。
- 9月11日(土) 同じRAIDで合計3本のディスクが破損。2本はRAIDから認識されておらず、1本はエラー状態でRAIDから認識された状態。(ログに基づく)
- 9月13日(月) 該当のRAIDグループについて書き込み不可読み取り可の状態でのディスク修復を開始。
- 9月15日(水) 6時00分、ディスク修復失敗で終了したためLustre6に対する読み書きを停止した状態でのディスク修復を開始。
- 9月15日(水) 11時00分、 DDBJデータ登録および検索サービスを停止。
- 9月16日(木) ディスク修復が失敗で終了した ため、該当RAIDグループについて読み取れるデータのバックアップ取得開始
該当のRAIDグループに保存されているデータ量は75TB、約1千万ファイルです。現在、読み取り可能なデータの読み出しおよびバックアップを行っていますが、全てのデータのバックアップはできない可能性があります。
このディスク障害に伴い少なくとも一週間程度、DDBJのデータ登録、データ検索サービスが停止となる予定です。
このたびはユーザーの皆様には多大なご迷惑をおかけすることとなりお詫び申し上げます。