Skip to main content
Data SubmissionDatabaseSupercomputerActivitiesAbout Us

9 posts tagged with "Trouble Report"

View All Tags

· One min read

Publication date: 9th November 2021

Summary#

There was a failure that caused I/O to stop on 10 of the 41 OSTs that make up Lustre6 between 10:58 and 11:28.

Duration#

Tuesday, 9th November 2021, 10:58 a.m. - 11:28 a.m.

Scope of impact#

  • DDBJ DRA, etc., may have been affected by data download stoppages.
  • The home directory and other areas of the supercomputer users are not affected.

· One min read

Publication date: 8th October 2021

Thursday, 7th October 2021, around 21:00 p.m., an access failure occurred to the tape device that constitutes the hierarchical storage system of the large scale archive storage. Friday, 8th October 2021, 10:40 a.m., access was restored to the tape device.

Period#

7th, around 21 p.m. - 8th October 2021, around 10:40 a.m.(recovery)

Scope of impact#

  • Regarding the DDBJ DRA, data downloading may have stopped.
  • The home directory of the supercomputer users are not affected.

· One min read

Publication date: 1st October 2021

Summary#

To change the correspondence between OSS and OST in the Lustre6 failure recovery work, 1/3 of the area in /lustre6 will be temporarily inaccessible.

We apologize for any inconvenience this may cause, and thank you for your understanding and cooperation.

Work Time#

Monday, 4th October 2021, 10:30 a.m. - 10:45 a.m.

It took longer than expected, but the work was completed around 12:00.

Affected area#

Access to a part of /lustre6 (about 1/3 of the area) will be disabled.

When accessing a part of the area in /lustre6 during the above time, I/O may become "waiting" in suspend state.  Note that the running jobs will not be deleted and will be automatically restarted after the recovery.

· One min read

遺伝研スパコンおよびDDBJユーザの皆様へ

9月17日

生命情報・DDBJセンター長 有田正規

9月11日に発生したディスク障害のため、皆様に多大なご迷惑をおかけして申し訳ございません。とりわけスパコンユーザーの方々は旧ホームディレクトリの情報が消失する可能性があり、センター長として深くお詫び申し上げます。調査によりデータ消失が確認されたユーザーの方々には個別に御連絡を差し上げる予定です。また今後こうした障害が発生してもデータの消失を最小限に留められるよう、さらなる対策を講じていく所存です。

ただし今後このような障害を一切起こさぬことを保証することは出来かねます。そのためスパコンユーザーの皆様は、個々人で重要ファイルのバックアップをとっていただくようお願い申し上げます。またDDBJへの配列登録ユーザーの皆様は、登録情報が公開され検索可能になるまでは、登録情報を手元に保管していただくようお願い申し上げます。

Lustre6ディスク障害のお詫び(PDF)

· One min read

掲載日 : 2021年09月17日

概要#

Lustre 6ファイルシステムを構成しているRAID6グループの1つで3本のディスクに障害が発生したため、Lustre6の一部のファイルに対しデータアクセス出来ない状態となっております。また一部のファイルが失われた可能性があり調査中です。

期間#

2021年9月11日 (土) 05:30 頃 ~ 継続中

詳細#

遺伝研スパコンのストレージは以下の3つのファイルシステムからなります。

Lustre 6 : DDBJ業務用 および 旧スパコンからのデータ移行用Lustre 7: 現スパコンの一般解析区画のユーザーホーム領域Lustre 8 : 現スパコンの個人ゲノム解析環境のユーザーホーム領域

Lustre6ファイルシステム 3.8PBはRAID6グループ41個で構成されておりそのうちの1つでディスク障害が発生しました。

9/10(金) Lustre6のRAIDの1つで1本ディスク障害発生。自動でリビルドがスタート。9/11(土) 同じRAIDで合計3本のディスクが破損。2本はRAIDから認識されておらず、1本はエラー状態でRAIDから認識された状態。(ログに基づく)9/13(月) 該当のRAIDグループについて書き込み不可読み取り可の状態でのディスク修復を開始。9/15(水) 6:00ディスク修復失敗で終了したためLustre6に対する読み書きを停止した状態でのディスク修復を開始。9/15 (水) 11:00 DDBJデータ登録および検索サービスを停止。9/16 (木)  ディスク修復が失敗で終了したため、該当RAIDグループについて読み取れるデータのバックアップ取得開始

該当のRAIDグループに保存されているデータ量は75TB、約1千万ファイルです。現在、読み取り可能なデータの読み出しおよびバックアップを行っていますが、全てのデータのバックアップはできない可能性があります。

このディスク障害に伴い少なくとも一週間程度、DDBJのデータ登録、データ検索サービスが停止となる予定です。

このたびはユーザーの皆様には多大なご迷惑をおかけすることとなりお詫び申し上げます。

· One min read

掲載日: 2021年09月17日

概要#

Lustre 7ファイルシステムの一部領域が9/17 午前1時33分からリードオンリーとなっているため復旧作業を行います。該当の一部領域へのリードライトが9/17 14:00頃から一時間程度停止します。

期間#

2021年9月17日 (土) 14:00 頃 ~ 15:00頃(予定)

ファイル数が多く予定より時間がかかりましたが17:16復旧完了しました。

· One min read

国立遺伝学研究所スーパーコンピュータシステム利用者各位

2021年7月22日朝方より、一般解析区画ゲートウェイノードからqloginができない状態になっておりましたが7月22日16時28分復旧いたしました。

2021年07月22日

国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム

· One min read

国立遺伝学研究所スーパーコンピュータシステム利用者各位

富士市計画の市道原本市場線道路改良工事の一環である富安橋橋梁補修工事に伴い、 支障となる電気通信設備の移転実施のため、以下の時間帯において、ネットワークが 一時的に不通となります。

  • 日時:2021年 7月 6日(火) 午前0:00 ~ 午前2:00

  • 影響の範囲

    • 通信断の間は、スパコンへのログインおよびスパコン上での作業は出来ません。
    • 稼働中のジョブの停止は発生しません。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

2021年06月02日

国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム