「{tagLabel}」タグの記事が57件あります
全てのタグを見る(終了) 2024年9月4日(水) Lustre8の緊急メンテナンス
掲載日: 2024年9月4日
2024年9月4日(水) 16:32 復旧作業を終了しました。
Lustre8にログイン可能となっています。
9/4(水)11時55分、個人ゲノム解析区画の高速ストレージシステムLustre8のMDT(Meta Data Target)で障害が発生し、個人ゲノム解析区画において、読み込みと書き込みができなくなっています。
現在復旧作業中です。
復旧作業中は、個人ゲノム解析区画へのログインができません。復旧作業は本日夕方ごろまでに終わる予定ですが、障害の状況に依存し終了が遅れる可能性があります。
影響の範囲
- 一般解析区画には影響ありません。
- 個人ゲノム解析区画において、9/4(水)11時55分から書き込みと読み込みができなくなっています。復旧作業中、個人ゲノム解析区画へのログインができません。
- DDBJのサービスには影響はありません。
(終了) 2024年8月28日(水) Lustre8の緊急メンテナンス
遺伝研スパコンからの重要なお知らせ : 2024年第1期(4~7月)
掲載日: 2024年6月24日
目次
- ソフトウェアのアップデートのお知らせ
- MediumノードのUbuntu Linux 22.04へのOS変更のお知らせ
- 次期遺伝研スパコンへのリプレースのお知らせ
- !!ご注意ください!! 6月末までにアカウント継続申請を行っていないユーザのデータは7/1以降削除されます。
1.ソフトウェアのアップデートのお知らせ
以下の日時でソフトウェアのアップデートを予定しています。
期間
2024年7月1日(月) 10:00 ~ 7月3日(水) 21:00
ソフトウェアバージョンアップの内容
表: 開発/解析用ソフトウェアバージョンアップ計画
# | ソフトウェア | バージョンアップ前 | バージョンアップ後 |
(1) | Apptainer | 1.2.4 | 1.3.2 |
(2) | SingularityCE | 4.0.0 | 4.1.3 |
(3) | NVIDIA HPC SDK(旧PGIコンパイラ) | 23.7 | 24.3 |
(4) | Intel OneAPI | 2023.2.0 | 2024.1.0 |
(5) | AMD Cコンパイラ(AOCC) | - | 4.2 |
(6) | NVIDIA CUDA | 12.1 | 12.3 |
(7) | Parabricks | 4.1 | 4.3.1 |
GPUノードについてサーバ再起動が発生する予定です。 課金サービスでGPUノードを占有しているユーザには別途日時など連絡させていただきます。
2. MediumノードのUbuntu Linux 22.04へのOS変更のお知らせ
現在MediumノードはCentOS 7.9で動作していますが、6月末でCent OS 7がサポート終了(EOL)となることをうけて 順次Ubuntu Linux 22.04に移行します。
GridEngineにmedium-ubuntu.qキューを新設し、Ubuntu Linux 22.04に入れ替えたMediumノードを順次こちらに移行します。 medium-ubuntu.qキューにジョブを投入するとUbuntu Linux 22.04のMediumノードでジョブが実行され、 medium.qキューにジョブを投入するとCent OS 7.9のMediumノードでジョブが実行されるようになります。
1台ないし2台程度、Cent OS 7.9のMediumノードも残す予定です。
3. 次期遺伝研スパコンへのリプレースのお知らせ
2024年度末に次期遺伝研スーパーコンピュータシステムへのリプレースを行います。現在の遺伝研スパコンは2025年2月28日までの契約になっています。次期遺伝研スパコンは 2025年3月1日より稼働開始予定です。リプレースに伴い2月頃に遺伝研スパコンが利用できなくなる時期が1週間程度生じる見込みです。詳細は開札後の2024年10月ごろに掲載予定です。
4. !!ご注意ください!! 6月末までにアカウント継続申請を行っていないユーザのデータは7/1以降削除されます。
4.1. アカウントの利用継続をご希望される方
1月4日~3月31日に年度末アカウント継続申請を行わなかった方は、 4月1日からアカウントが利用停止状態となり、 アカウント継続システムにログインできなくなっております。
利用継続をご希望される方は、利用停止状態を解除致しますので、 お手数ですが、問い合わせ先窓口へメールをお送りください。
利用停止状態が解除されましたら、以下のリンクより、 年度末更新および成果報告(経過報告)もご記入いただきますようお願い致します。
- 年度末アカウント継続申請
4.2. アカウントの利用停止をご希望される方
以下のリンクより、アカウント停止の手続きをお願い致します。
諸注意
- 4.1. アカウントロック後、7月1日から順次 home ディレクトリの削除を行います。
- 4.2. アカウント停止申請を実施していただいた場合、順次アカウント停止致します。
何卒ご理解とご協力を賜りますよう、よろしくお願い致します。
ご質問がありましたら、お問い合わせ窓口までメールにてお問い合わせください。
(終了) 一般解析区画緊急メンテナンスのお知らせ
掲載日: 2024年6月21日
2024年6月25日(火) 午前9:00 復旧作業を終了しました。
ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。
6/21(金)12:00現在も一般解析区画の高速ストレージシステムLustre7の障害が継続しています。
5月28日の停電の影響とみられ、6/5, 6/17に続き6/20にも同様の障害が発生しています。
- https://sc.ddbj.nig.ac.jp/blog/2024-06-19-Lustre7_maintenance_followup
- https://sc.ddbj.nig.ac.jp/blog/2024-06-18-Lustre7_maintenance
そこで、今後同様の障害が再発しないよう、緊急で一般解析区画を数日間停止させていただき、 Lustre7の修復作業を行わせていただきます。
日時
2024年 6月21日 (金) ~ 6/27(木) この期間一般解析区画の全計算ノードを停止します。
影響の範囲
- 一般解析区画の全計算ノードを停止します。現在実行中のジョブは停止されます。お手数ですが復旧後再度ジョブの実行を お願いします。
- 個人ゲノム解析区画に影響はありません。
- DDBJのサービスへの影響はありません。
修復作業が長期化しておりご迷惑をおかけしております。 ご理解のほどよろしくお願いいたします。
(終了) 【続報】2024年6月18日(火) Lustre7の緊急メンテナンス
掲載日: 2024年6月19日
2024年6月25日(火) 午前9:00 復旧作業を終了しました。
ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。
- 6/17(月)18時21分14秒、 一般解析区画の高速ストレージシステムLustre7で障害が発生し、一部書き込みができない状態となりました。具体的には88個あるRAIDグループ(Lustre OST)のうちの1つ(OST0029)に対して書き込みできない状態となりました。
- 6/18(火)14:00ごろから、復旧作業を開始し、20:00ごろ終了しました。
- しかし、20:00の段階で、一部の計算ノードがOST0029へアクセスできていない(readもwriteもできていない)ことが確認されました。具体的には以下の計算ノードです。
- at017,at025,at026,at028,at029,at030,at031,at032,at033,at034,at035,at036,at037,at043,at044,at045,at046,at047,at048,at050,at051,at052,at053,at054,at055,at057,at058,at059,at060,at061,at062,at063,at064,at073,at074,at083,at084,at085,at087,at090,at095,at096,at097,at098,at099,at100,at101,at102,at103,at126,at127,at128,at129,at130,at131,at132,at133,at134,at135,at136 (136台ある Thin計算ノードType 1a, AMD EPYC 7501 CPU: のうちの60台 )
- at139,at140,at141,at142,at143,at144,at145,at146,at147,at148,at149,at150,at151,at152,at153,at154,at155,at156,at157,at159,at160,at161,at162,at163,at164(28台ある Thin計算ノード Type 1b, AMD ROMA CPU: のうちの25台)
- it001,it002,it004,it006,it007,it008,it009,it010,it013,it014,it015,it017,it024,it025,it026,it027,it028,it029,it031,it032,it034,it035,t036,it040,it041,it048,it049,it050,it051,it052 (52台あるThin計算ノードType 2a, Intel CPU: のうちの30台)
- igt001,igt003,igt005,igt006,igt007,igt008,igt011,igt012,igt013,igt014 (16台あるThin 計算ノード Type 2b, Intel CPU: のうちの10台)
gw.ddbj.nig.ac.jp
,gw2.ddbj.nig.ac.jp
(2台ある一般解析区画のゲートウェイのうちの2台)- m01,m02,m03,m04 (10台あるmediumノードのうちの4台)
- dtn4 (4台あるDDBJのサービスで利用しているデータ転送用ノードのうちの1台)
- 6/19(水)、これらのノードの再起動を順次行いLustre7へのアクセスを正常化させる作業を行います。
- 一般解析区画のゲートウェイ2台が含まれるので、本作業中スパコンへのログインができなくなり、また、SSH通信が遮断されます。
- 一般解析区画のゲートウェイは2台あるので、一方にログインができない場合は、もう一方からログインしてください。
影響の範囲
- 6月17日(月) 18:20 ごろから6月18日(火) 14:00ごろまでは、すべての計算ノードからOST0029に対して書き込みができていません。6月18日(火) 14:00ごろから同日20:00ごろまでは、すべての計算ノードからOST0029に対して書き込みも読み込みもできていません。また上記に列挙した計算ノードについては6月19日(水)現在も読み書きができていない状態にあります。各ユーザは自分の計算結果に異常がないかご確認お願いします。 (OST0029を利用していないジョブには影響はありませんが、OST0029を利用しているかどうかはランダムに決まります。)
- 個人ゲノム解析区画には影響はありません。
- DDBJのサービスのうちデータ転送用ノードdtn4を用いているものについては通信断が発生します。
(終了) 2024年6月18日(火) Lustre7の緊急メンテナンス
掲載日: 2024年6月18日
2024年6月25日(火) 午前9:00 復旧作業を終了しました。
ゲートウェイgw.ddbj.nig.ac.jp, gw2.ddbj.nig.ac.jp)も復旧し、ログイン可能となっています。
6/17(月)18時21分14秒、一般解析区画の高速ストレージシステムLustre7の88個あるRAIDグループ (Lustre OST)の1つであるOST0029で障害が発生し、現在一部書き込みができません。
現在復旧作業中です。
6 月5日と同様の症状となっております。5月28日の停電の影響とみられ、たびたびご迷惑をおかけし申し訳ありません。
影響の範囲
- 一般解析区画において、6/17(月)17時46分から一部書き込みができない領域 ( Lustre7 の OST0029) が発生しています。本領域の復旧作業中、この領域 OST0029に対して読み書きができません。
- 個人ゲノム解析区画には影響はありません。
- DDBJのサービスへの影響は調査中です。
(終了) 2024年6月10日(月) SINET6の機器メンテナンス作業による通信断のお知らせ
掲載日: 2024年4月19日
SINET6の機器メンテナンス作業に伴い、 以下の時間帯において、ネットワークが一時的に不通となります。
日時
2024年 6月 10日(月) 0:00 ~ 1:30 (24h表記)
- 上記時間帯にて15分程度の通信断が最大2回発生いたします。