メインコンテンツまでスキップ

「メンテナンス情報」タグの記事が56件あります

全てのタグを見る

· 約2分

掲載日: 2024年9月4日

2024年9月4日(水) 16:32 復旧作業を終了しました。

Lustre8にログイン可能となっています。

9/4(水)11時55分、個人ゲノム解析区画の高速ストレージシステムLustre8のMDT(Meta Data Target)で障害が発生し、個人ゲノム解析区画において、読み込みと書き込みができなくなっています。

現在復旧作業中です。

復旧作業中は、個人ゲノム解析区画へのログインができません。復旧作業は本日夕方ごろまでに終わる予定ですが、障害の状況に依存し終了が遅れる可能性があります。

影響の範囲

  • 一般解析区画には影響ありません。
  • 個人ゲノム解析区画において、9/4(水)11時55分から書き込みと読み込みができなくなっています。復旧作業中、個人ゲノム解析区画へのログインができません。
  • DDBJのサービスには影響はありません。

· 約1分

掲載日: 2024年8月28日

個人ゲノム解析区画の高速ストレージシステムLustre8で、機器メンテナンス作業を行います。

作業日程

2024/8/28(水) 10:00~11:00 (24h表記)

影響の範囲

  • 個人ゲノム解析区画において、Lustre8上のIO処理が最大20分程度サスペンドする可能性があります。
  • 一般解析区画には影響はありません。
  • DDBJのサービスなどには影響はありません。

· 約5分

掲載日: 2024年6月24日

目次

  1. ソフトウェアのアップデートのお知らせ
  2. MediumノードのUbuntu Linux 22.04へのOS変更のお知らせ
  3. 次期遺伝研スパコンへのリプレースのお知らせ
  4. !!ご注意ください!! 6月末までにアカウント継続申請を行っていないユーザのデータは7/1以降削除されます。

1.ソフトウェアのアップデートのお知らせ

以下の日時でソフトウェアのアップデートを予定しています。

期間

2024年7月1日(月) 10:00 ~ 7月3日(水) 21:00

ソフトウェアバージョンアップの内容

表: 開発/解析用ソフトウェアバージョンアップ計画

#ソフトウェアバージョンアップ前バージョンアップ後
(1)Apptainer1.2.41.3.2
(2)SingularityCE4.0.04.1.3
(3)NVIDIA HPC SDK(旧PGIコンパイラ)23.724.3
(4)Intel OneAPI2023.2.02024.1.0
(5)AMD Cコンパイラ(AOCC)-4.2
(6)NVIDIA CUDA12.112.3
(7)Parabricks4.14.3.1

GPUノードについてサーバ再起動が発生する予定です。 課金サービスでGPUノードを占有しているユーザには別途日時など連絡させていただきます。

2. MediumノードのUbuntu Linux 22.04へのOS変更のお知らせ

現在MediumノードはCentOS 7.9で動作していますが、6月末でCent OS 7がサポート終了(EOL)となることをうけて 順次Ubuntu Linux 22.04に移行します。

GridEngineにmedium-ubuntu.qキューを新設し、Ubuntu Linux 22.04に入れ替えたMediumノードを順次こちらに移行します。 medium-ubuntu.qキューにジョブを投入するとUbuntu Linux 22.04のMediumノードでジョブが実行され、 medium.qキューにジョブを投入するとCent OS 7.9のMediumノードでジョブが実行されるようになります。

1台ないし2台程度、Cent OS 7.9のMediumノードも残す予定です。

3. 次期遺伝研スパコンへのリプレースのお知らせ

2024年度末に次期遺伝研スーパーコンピュータシステムへのリプレースを行います。現在の遺伝研スパコンは2025年2月28日までの契約になっています。次期遺伝研スパコンは 2025年3月1日より稼働開始予定です。リプレースに伴い2月頃に遺伝研スパコンが利用できなくなる時期が1週間程度生じる見込みです。詳細は開札後の2024年10月ごろに掲載予定です。

4. !!ご注意ください!! 6月末までにアカウント継続申請を行っていないユーザのデータは7/1以降削除されます。

4.1. アカウントの利用継続をご希望される方

1月4日~3月31日に年度末アカウント継続申請を行わなかった方は、 4月1日からアカウントが利用停止状態となり、 アカウント継続システムにログインできなくなっております。

利用継続をご希望される方は、利用停止状態を解除致しますので、 お手数ですが、問い合わせ先窓口へメールをお送りください。

利用停止状態が解除されましたら、以下のリンクより、 年度末更新および成果報告(経過報告)もご記入いただきますようお願い致します。

4.2. アカウントの利用停止をご希望される方

以下のリンクより、アカウント停止の手続きをお願い致します。

諸注意

  • 4.1. アカウントロック後、7月1日から順次 home ディレクトリの削除を行います。
  • 4.2. アカウント停止申請を実施していただいた場合、順次アカウント停止致します。

何卒ご理解とご協力を賜りますよう、よろしくお願い致します。

ご質問がありましたら、お問い合わせ窓口までメールにてお問い合わせください。

· 約2分

掲載日: 2024年6月21日

2024年6月25日(火) 午前9:00 復旧作業を終了しました。

ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。

6/21(金)12:00現在も一般解析区画の高速ストレージシステムLustre7の障害が継続しています。 5月28日の停電の影響とみられ、6/5, 6/17に続き6/20にも同様の障害が発生しています。

そこで、今後同様の障害が再発しないよう、緊急で一般解析区画を数日間停止させていただき、 Lustre7の修復作業を行わせていただきます。

日時

2024年 6月21日 (金) ~ 6/27(木) この期間一般解析区画の全計算ノードを停止します。

影響の範囲

  • 一般解析区画の全計算ノードを停止します。現在実行中のジョブは停止されます。お手数ですが復旧後再度ジョブの実行をお願いします。
  • 個人ゲノム解析区画に影響はありません。
  • DDBJのサービスへの影響はありません。

修復作業が長期化しておりご迷惑をおかけしております。 ご理解のほどよろしくお願いいたします。

· 約4分

掲載日: 2024年6月19日

2024年6月25日(火) 午前9:00 復旧作業を終了しました。

ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。

  • 6/17(月)18時21分14秒、 一般解析区画の高速ストレージシステムLustre7で障害が発生し、一部書き込みができない状態となりました。具体的には88個あるRAIDグループ(Lustre OST)のうちの1つ(OST0029)に対して書き込みできない状態となりました。
  • 6/18(火)14:00ごろから、復旧作業を開始し、20:00ごろ終了しました。
  • しかし、20:00の段階で、一部の計算ノードがOST0029へアクセスできていない(readもwriteもできていない)ことが確認されました。具体的には以下の計算ノードです。
    • at017,at025,at026,at028,at029,at030,at031,at032,at033,at034,at035,at036,at037,at043,at044,at045,at046,at047,at048,at050,at051,at052,at053,at054,at055,at057,at058,at059,at060,at061,at062,at063,at064,at073,at074,at083,at084,at085,at087,at090,at095,at096,at097,at098,at099,at100,at101,at102,at103,at126,at127,at128,at129,at130,at131,at132,at133,at134,at135,at136 (136台ある Thin計算ノードType 1a, AMD EPYC 7501 CPU: のうちの60台 )
    • at139,at140,at141,at142,at143,at144,at145,at146,at147,at148,at149,at150,at151,at152,at153,at154,at155,at156,at157,at159,at160,at161,at162,at163,at164(28台ある Thin計算ノード Type 1b, AMD ROMA CPU: のうちの25台)
    • it001,it002,it004,it006,it007,it008,it009,it010,it013,it014,it015,it017,it024,it025,it026,it027,it028,it029,it031,it032,it034,it035,t036,it040,it041,it048,it049,it050,it051,it052 (52台あるThin計算ノードType 2a, Intel CPU: のうちの30台)
    • igt001,igt003,igt005,igt006,igt007,igt008,igt011,igt012,igt013,igt014 (16台あるThin 計算ノード Type 2b, Intel CPU: のうちの10台)
    • gw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp (2台ある一般解析区画のゲートウェイのうちの2台)
    • m01,m02,m03,m04 (10台あるmediumノードのうちの4台)
    • dtn4 (4台あるDDBJのサービスで利用しているデータ転送用ノードのうちの1台)
  • 6/19(水)、これらのノードの再起動を順次行いLustre7へのアクセスを正常化させる作業を行います。

影響の範囲

  • 6月17日(月) 18:20ごろから6月18日(火) 14:00ごろまでは、すべての計算ノードからOST0029に対して書き込みができていません。6月18日(火) 14:00ごろから同日20:00ごろまでは、すべての計算ノードからOST0029に対して書き込みも読み込みもできていません。また上記に列挙した計算ノードについては6月19日(水)現在も読み書きができていない状態にあります。各ユーザは自分の計算結果に異常がないかご確認お願いします。 (OST0029を利用していないジョブには影響はありませんが、OST0029を利用しているかどうかはランダムに決まります。)
  • 個人ゲノム解析区画には影響はありません。
  • DDBJのサービスのうちデータ転送用ノードdtn4を用いているものについては通信断が発生します。

· 約2分

掲載日: 2024年6月18日

2024年6月25日(火) 午前9:00 復旧作業を終了しました。

ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。

6/17(月)18時21分14秒、一般解析区画の高速ストレージシステムLustre7の88個あるRAIDグループ (Lustre OST)の1つであるOST0029で障害が発生し、現在一部書き込みができません。

現在復旧作業中です。

6月5日と同様の症状となっております。5月28日の停電の影響とみられ、たびたびご迷惑をおかけし申し訳ありません。

影響の範囲

  • 一般解析区画において、6/17(月)17時46分から一部書き込みができない領域 ( Lustre7 の OST0029) が発生しています。本領域の復旧作業中、この領域 OST0029に対して読み書きができません。
  • 個人ゲノム解析区画には影響はありません。
  • DDBJのサービスへの影響は調査中です。

· 約1分

掲載日: 2024年4月19日

SINET6の機器メンテナンス作業に伴い、 以下の時間帯において、ネットワークが一時的に不通となります。

日時

2024年 6月 10日(月) 0:00 ~ 1:30 (24h表記)

  • 上記時間帯にて15分程度の通信断が最大2回発生いたします。

影響の範囲

  • 通信断の間は、スパコンへのログインやデータ転送作業は出来ません。
  • 稼働中のジョブの停止は発生しません。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

· 約4分

掲載日: 2024年6月6日

2024年6月6日(木) 12時ごろ(24時間表記) に復旧作業を終了しました。

  • 6/5(水)午前1時34分21秒、  一般解析区画の高速ストレージシステムLustre7で障害が発生し、一部書き込みができない状態となりました。具体的には88個あるRAIDグループ(Lustre OST)のうちの1つ(OST0031)に対して書き込みできない状態となりました。
  • 復旧作業を15:30ごろから開始し、20:00ごろ終了しました。
  • しかし、20:00の段階で、一部の計算ノードがOST0031へアクセスできていない(readもwriteもできていない)ことが確認されました。具体的には以下の計算ノードです。
    • at017,at025,at054,at049,at051,at052,at047,at045,at050,at053,at085,at099,at102,at101,at132,(136台ある Thin計算ノードType 1a, AMD EPYC 7501 CPU: のうちの15台 )
    • at140,at141,at149,at155, (28台ある Thin計算ノード Type 1b, AMD ROMA CPU: のうちの4台)
    • it001,it040,igt003,it050, it049, (52台あるThin計算ノードType 2a, Intel CPU: のうちの5台)
    • gw1,gw4, (一般解析区画のゲートウェイ 2台)
    • m01 (10台あるmediumノードのうちの1台)
    • dtn2,dtn4 (DDBJのサービスで利用しているデータ転送用ノード)
  • 6/6(木)これらのノードの再起動を順次行いLustre7へのアクセスを正常化させる作業を行います。

影響の範囲

  • 6月5日 1:30ごろから20:00ごろまではすべての計算ノードからOST0031に対して書き込みができておらず、15:30~20:00の間は読み出しもできていません。また上記に列挙した計算ノードについては6月6日現在も読み書きができていない状態にあります。各ユーザは自分の計算結果に異常がないかご確認お願いします。 (OST0031を利用していないジョブには影響はありませんが、OST0031を利用しているかどうかはランダムに決まります。)
  • SSL-VPNにログインができないため、個人ゲノム解析区画にもログインができない場合があります。
  • DDBJのサービスのうちデータ転送用ノードdtn2, dtn4を用いているものについては通信断が発生します。

· 約2分

掲載日: 2024年6月5日

2024年6月6日(木) 12時ごろ(24時間表記) に復旧作業を終了しました。

本日6/5(水)午前1時34分21秒、  一般解析区画の高速ストレージシステムLustre7で障害が発生し、現在一部書き込みができません。

現在復旧作業中です。復旧には2時間程度かかる見込みです。

影響の範囲

  • 一般解析区画において、6/5(水)午前1時34分から一部書き込みができない領域 ( Lustre7 の OST0031) が発生しています。本領域の復旧作業中2時間程度(15:30~17:30ごろ)この領域 OST0031に対して読み書きができません。
  • 個人ゲノム解析区画には影響はありません。
  • DDBJのサービスなどには影響はありません。

· 約1分

掲載日: 2024 年 5 月 29 日

概要

2024 年 5 月 28 日(火) 21 時 30 分ごろと 23 時 15 分ごろに、静岡県三島市谷田地区で、短時間の停電が発生し、ネットワークなどに影響が出ていました。

https://teideninfo.tepco.co.jp/day/teiden/index-j.html

現在は回復しています。

影響範囲

  • 外部ネットワーク等
    • 以下の時間帯に、外部ネットワークへの接続が途絶しました。
      • 2024 年 5 月 28 日 21 時 30 分ごろに約5分間(回復済み)
      • 2024 年 5 月 28 日 23 時 15 分ごろに約10秒間(回復済み)
  • 遺伝研スパコン一般解析区画
    • 影響ありません
  • 遺伝研スパコン個人ゲノム解析区画
    • 影響ありません
  • DDBJ サービス
    • 影響ありません