メインコンテンツまでスキップ
Data SubmissionDatabaseSupercomputerActivitiesAbout Us

「障害報告」タグの記事が9件あります

全てのタグを見る

· 約1分

掲載日 : 2021年11月9日

概要#

10時58分~11時28分の間Lustre6を構成するOST 41個のうちの10個でI/Oが停止する障害がありました。

期間#

2021年11月9日 (火) 10時58分~11時28分

影響範囲#

  • DDBJ DRA等について、データダウンロードが止まるなどの影響が出ていた可能性があります。
  • スパコンユーザーのホーム領域などには影響ありません。

· 約1分

掲載日: 2021年10月08日

2021年10月7日 21:00頃 大容量アーカイブストレージの階層ストレージシステム構成するテープ装置に対してアクセス障害が発生しました。 2021年10月8日 10:40当該テープ装置に対してアクセスが復旧しました。

期間#

2021年10月7日 (木) 21:00 頃 ~ 2021年10月8日10:40頃(復旧)

影響範囲#

  • DDBJ DRAについて、データダウンロードが止まるなどの影響が出ていた可能性があります。
  • スパコンユーザーのホーム領域などには影響ありません。

· 約1分

掲載日 : 2021年10月01日

概要#

遺伝研スパコンLustre6ファイルシステムの障害対応作業のため、 OSSとOSTの対応関係を変更する作業を行うため /lustre6 内の1/3程度の領域に対し一時的にアクセス不可となります。

ご不便をおかけして恐縮ですが、何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

作業時間#

2021年 10月 04日 (月) 10:30 ~ 10:45頃

※予定より時間がかかりましたが12:00頃作業完了しました。

影響範囲#

/lustre6 内への一部領域(1/3程度の領域)へのアクセス不可

※ 上記時間帯に /lustre6 内の一部領域へアクセス時、I/O が suspend 状態で "待ち状態" となる場合があります。  なお、実行中ジョブは 削除されず、復旧後、自動で再開されます。

· 約1分

遺伝研スパコンおよびDDBJユーザの皆様へ

9月17日

生命情報・DDBJセンター長 有田正規

9月11日に発生したディスク障害のため、皆様に多大なご迷惑をおかけして申し訳ございません。とりわけスパコンユーザーの方々は旧ホームディレクトリの情報が消失する可能性があり、センター長として深くお詫び申し上げます。調査によりデータ消失が確認されたユーザーの方々には個別に御連絡を差し上げる予定です。また今後こうした障害が発生してもデータの消失を最小限に留められるよう、さらなる対策を講じていく所存です。

ただし今後このような障害を一切起こさぬことを保証することは出来かねます。そのためスパコンユーザーの皆様は、個々人で重要ファイルのバックアップをとっていただくようお願い申し上げます。またDDBJへの配列登録ユーザーの皆様は、登録情報が公開され検索可能になるまでは、登録情報を手元に保管していただくようお願い申し上げます。

Lustre6ディスク障害のお詫び(PDF)

· 約1分

掲載日 : 2021年09月17日

概要#

Lustre 6ファイルシステムを構成しているRAID6グループの1つで3本のディスクに障害が発生したため、Lustre6の一部のファイルに対しデータアクセス出来ない状態となっております。また一部のファイルが失われた可能性があり調査中です。

期間#

2021年9月11日 (土) 05:30 頃 ~ 継続中

詳細#

遺伝研スパコンのストレージは以下の3つのファイルシステムからなります。

  • Lustre 6 : DDBJ業務用 および 旧スパコンからのデータ移行用
  • Lustre 7: 現スパコンの一般解析区画のユーザーホーム領域
  • Lustre 8 : 現スパコンの個人ゲノム解析環境のユーザーホーム領域

Lustre6ファイルシステム 3.8PBはRAID6グループ41個で構成されておりそのうちの1つでディスク障害が発生しました。

  • 9/10(金) Lustre6のRAIDの1つで1本ディスク障害発生。自動でリビルドがスタート。
  • 9/11(土) 同じRAIDで合計3本のディスクが破損。2本はRAIDから認識されておらず、1本はエラー状態でRAIDから認識された状態。(ログに基づく)
  • 9/13(月) 該当のRAIDグループについて書き込み不可読み取り可の状態でのディスク修復を開始。
  • 9/15(水) 6:00ディスク修復失敗で終了したためLustre6に対する読み書きを停止した状態でのディスク修復を開始。
  • 9/15 (水) 11:00 DDBJデータ登録および検索サービスを停止。
  • 9/16 (木)  ディスク修復が失敗で終了したため、該当RAIDグループについて読み取れるデータのバックアップ取得開始

該当のRAIDグループに保存されているデータ量は75TB、約1千万ファイルです。現在、読み取り可能なデータの読み出しおよびバックアップを行っていますが、全てのデータのバックアップはできない可能性があります。

このディスク障害に伴い少なくとも一週間程度、DDBJのデータ登録、データ検索サービスが停止となる予定です。

このたびはユーザーの皆様には多大なご迷惑をおかけすることとなりお詫び申し上げます。

· 約1分

掲載日: 2021年09月17日

概要#

Lustre 7ファイルシステムの一部領域が9/17 午前1時33分からリードオンリーとなっているため復旧作業を行います。該当の一部領域へのリードライトが9/17 14:00頃から一時間程度停止します。

期間#

2021年9月17日 (土) 14:00 頃 ~ 15:00頃(予定)

ファイル数が多く予定より時間がかかりましたが17:16復旧完了しました。

· 約1分

国立遺伝学研究所スーパーコンピュータシステム利用者各位

2021年7月22日朝方より、一般解析区画ゲートウェイノードからqloginができない状態になっておりましたが7月22日16時28分復旧いたしました。

2021年07月22日

国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム

· 約1分

国立遺伝学研究所スーパーコンピュータシステム利用者各位

富士市計画の市道原本市場線道路改良工事の一環である富安橋橋梁補修工事に伴い、 支障となる電気通信設備の移転実施のため、以下の時間帯において、ネットワークが 一時的に不通となります。

  • 日時:2021年 7月 6日(火) 午前0:00 ~ 午前2:00

  • 影響の範囲

    • 通信断の間は、スパコンへのログインおよびスパコン上での作業は出来ません。
    • 稼働中のジョブの停止は発生しません。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

2021年06月02日

国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム