メインコンテンツまでスキップ

「メンテナンス情報」タグの記事が41件あります

全てのタグを見る

· 約4分

掲載日 : 2023 年 10 月 2 日

遺伝研の法定停電に合わせて、以下の日時で遺伝研スパコンの定期メンテナンスを予定しています。定期メンテナンス中はスパコンの利用は出来ません。

期間

2023 年 11 月 24 日(金) 17:00 ~ 11 月 30 日(木) 17:00

作業日程

  • 11/24(金) 17:00~  スパコン停止作業
  • 11/25(土)    法定停電
  • 11/26(日) ~ 29(水) スパコン定期メンテナンス作業(UPS 保守点検、Lustre 保守点検、ソフトウェアアップデート、その他)
  • 11/30(木)は予備日です。

作業内容

定期メンテナンスの作業内容は以下のとおりです。

  1. ソフトウェアバージョンアップ
  2. OS 移行 (CentOS 7.9 から Ubuntu Linux 22.04LTS への移行)
  3. Grid Engine のバージョンアップ
  4. OS 移行しなかった Cent OS に対する yum update
  5. InfininBand, Lustre のファームウェア及びデバイスドライババージョンアップ
  6. LDAP 構成変更
  7. UPS 点検作業

ソフトウェアバージョンアップの内容

表: 開発/解析用ソフトウェアバージョンアップ計画

#ソフトウェア定期メンテナンス前定期メンテナンス後
(1)Apptainer1.11.2.2-1
(2)SingularityCE3.10.23.11.4
(3)NVIDIA HPC SDK
(旧 PGI コンパイラ)
22.923.7
(4)*NVIDIA CUDA12.212.1
(5)Intel OneAPI2022.2.02023.2.0
(6)Altair Grid Engine8.6.19/8.6.48.8.1

*: CUDA については Ubuntu Linux 22.04LTS GA カーネルの対応バージョンが 12.1 なので、12.1 にダウングレードされます。

OS 移行 (CentOS 7.9 から Ubuntu Linux 22.04LTS への移行)

CentOS 7 が 2024 年 6 月 30 日に End-Of-Life を迎えることを受け、定期メンテナンスで CentOS 7.9 から Ubuntu Linux 22.04LTS への移行を行います。

一般解析区画

  • 一般解析区画のすべての計算ノードに関して CentOS 7.9 から Ubuntu Linux 22.04LTS への移行を行います。これに伴い、解析環境の再インストールが必要になる場合があります。各自で必ず開発環境を確認し、解析環境の再インストールをお願いいたします。
  • 計算ノードの占有利用を行っているユーザに対しては、定期メンテナンス時の OS 移行を希望するかどうかメールで問い合わせを行います。ご都合の良い OS 移行の時期をお知らせください。

個人ゲノム解析区画

  • Slurm 配下の GPU 計算ノードについては、CentOS 7.9 から Ubuntu Linux 22.04LTS への移行を行います。これに伴い、解析環境の再インストールが必要になる場合があります。各自で必ず開発環境を確認し、解析環境の再インストールをお願いいたします。
  • 計算ノードの占有利用を行っているユーザに対しては、定期メンテナンス時の OS 移行を希望するかどうかメールでの問い合わせを行います。ご都合の良い OS 移行の時期をお知らせください。

留意事項

  • 稼働中のジョブは削除されますので、定期メンテナンス終了後ジョブを再投入してください。

· 約2分

掲載日: 2023年9月26日

SINET6の機器メンテナンス作業に伴い、 以下の時間帯において、ネットワークが一時的に不通となります。

  • 日時:2023年 10月 26日(木) 0:00 ~ 5:00 (24h表記)

    • 上記時間帯にて5分程度、通信断となる可能性があります。
    • 基本的には、通信断は発生しない予定ですが、作業中に装置の再起動が必要と判断した場合に再起動を実施し、5分程度の通信断となります。
  • 影響の範囲

    • 通信断の間は、スパコンへのログインやデータ転送作業は出来ません。
    • 稼働中のジョブの停止は発生しません。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

· 約1分

掲載日: 2023 年 10 月 2 日

概要

2023 年 9 月 30 日(土) 16 時ごろと 23 時 56 分ごろに静岡県の東側の広範囲で5分未満の停電が発生し、ネットワークなどに影響が出ています。

https://teideninfo.tepco.co.jp/day/teiden/index-j.html

現在、復旧作業を行っています。

10 月 2 日(月) 16 時に回復しました。

影響範囲

  • 外部ネットワーク等
    • 2023 年 9 月 30 日 23 時 56 分から 2023 年 10 月 1 日 00 時02 分まで SINET の接続が途絶しました。(回復済み)
  • 遺伝研スパコン一般解析区画
    • 影響ありません
  • 遺伝研スパコン個人ゲノム解析区画
    • SSL-VPN へのログイン時にトークンが届かない状態になっています。
  • DDBJ サービス
    • 調査中です。

· 約2分

掲載日: 2023 年 9 月 27 日

概要

2023 年 9 月 27 日(水) 13 時 48 分から、Lustre9 を構成する OST 66 個のうちの 1 個で I/O が停止する障害が発生しています。

現在、復旧作業を行っています。

2023 年 9 月 28 日(木) 0 時 41 分、復旧作業が完了しました。

影響範囲

  • 遺伝研スパコン一般解析区画
    • Lustre9 ( /usr/local/shared_data, /usr/local/resources 以下 ) へのアクセスの際、一部読み出しできないファイルがあります。
    • またアカウント申請システムに影響が出ています。
    • 障害が発生した一部領域のファイルへのアクセスができない状態です(待ちの状態になります)
    • 上記に該当するファイルを含むディレクトリの一覧表示を試みた場合、応答がありません(待ちの状態になります)
  • 遺伝研スパコン個人ゲノム解析区画
    • Lustre9 ( /usr/local/shared_data, /usr/local/resources 以下 )へのアクセスのさい、一部読み出しできないファイルがあります。
    • またアカウント申請システムに影響が出ています。
    • 障害が発生した一部領域のファイルへのアクセスができない状態です(待ちの状態になります)
    • 上記に該当するファイルを含むディレクトリの一覧表示を試みた場合、応答がありません(待ちの状態になります)
  • DDBJ サービス
    • 一部サービスに影響が出ています。

· 約2分

掲載日: 2023 年 8 月 8 日

一般解析区画の高速ストレージシステム Lustre7 で冗長構成の OST コントローラの1つでハードウェア障害が発生しました。 本日以下の日程でコントローラの交換作業およびシステムのテイクバック作業を実施します

作業日程

  • 13:00 ~ 15:00 交換作業
  • 15:00 ~ 16:00 テイクバック作業※I/O サスペンド発生

現時点のシステム影響

現時点ではシステムへの影響は発生していません。

作業時のシステム影響

  • 遺伝研スパコン一般解析区画
    • 交換作業時に Lustre7 で 10 分程度の I/O サスペンドが 1 回発生します。作業完了後 I/O は自動で再開されます。
  • 遺伝研スパコン個人ゲノム解析区画
    • 影響ありません。
  • DDBJ サービス
    • 影響ありません。

作業時の I/O 状況により時間がかかる場合もございますのでその点ご了承いただきたく存じます。 何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

· 約2分

掲載日: 2023年7月26日

DDBJのデータベース用ストレージシステムの更新に伴う切り替え作業のため、以下の時間帯において、FTPサービスおよびAsperaによる通信が一時的に不通となります。

作業日時

2023/7/27(月) 9:00 ~ 15:00 (24h表記)

  • 約15分程度の通信断が発生します。

影響の範囲

  • 遺伝研スパコン一般解析区画
    • ログインやscp, HCPtoolsによるデータ転送作業には影響ありません。
    • 稼働中のジョブの停止は発生しません。
    • スパコン内からのDDBJデータベースへのアクセス(/usr/local/resources/以下へのアクセス)に影響はありません。
  • 遺伝研スパコン個人ゲノム解析区画
    • ログインやscp, HCPtoolsによるデータ転送作業には影響ありません。
    • 稼働中のジョブの停止は発生しません。
    • スパコン内からのDDBJデータベースへのアクセス(/usr/local/resources以下へのアクセス)に影響はありません。
  • DDBJサービス
    • DDBJデータベースのFTP, Aspera, HTTPSによるダウンロードが不通になります。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

· 約3分

これまではGPU計算ノードのCPUの利用率が低いことから、GPU計算ノードのCPUの一部をshort.qに割り当てていましたが、近年GPUを利用したソフトウェアが様々作られ利用方法も変化してきていることから、AGEキューの構成を以下のように変更し、GPUノードで利用可能なCPUコア数を増やします。

〔変更前〕

キュー構成ノードノード数CPUコア数メモリ
gpu.qThin 計算ノード Type 2b7合計 56 (ノード当たり 8)合計 1,344GB (ノード当たり 192GB)
short.qThin 計算ノード Type 2b7合計 112 (ノード当たり 16)1,344GB(ノード当たり 92GB)

〔変更後〕

キュー構成ノードノード数CPUコア数メモリ
gpu.qThin 計算ノード Type 2b7合計 168 (ノード当たり 24)合計 2,688GB (ノード当たり 384GB)
short.qThin 計算ノードType 1a2合計 128 (ノード当たり 64) 合計 1,024GB (ノード当たり 512GB)

short.qはノード種変更に伴い、CPU がAMD EPYC 7501から Intel Xeon Gold 6130になります。必要に応じて実行ジョブの見直しをお願いいたします。

作業日程

2023/7/26(水) 10:00 ~ 11:30

影響の範囲

  • 作業中は実行中のジョブへの影響はありません。
  • 作業中はgpu.q はジョブの新規実行が不可になります。
  • 作業中においてもshort.q は新規実行可能です。
  • 作業中は以下のシステムの情報更新は停止します。
  • 作業の前後で各キューのジョブのサブミット方法に変更はありません。

· 約1分

掲載日: 2023年6月27日

ネットワーク機器の保守作業に伴い、以下の時間帯において、ネットワークが一時的に不通となります。

作業日時

2023年 7月 3日(月) 11:00 ~ 12:00 (24h表記)

  • 約30分程度の通信断が発生します。

  • 影響の範囲

    • 通信断の間は、スパコンへのログインやデータ転送作業は出来ません。
    • 稼働中のジョブの停止は発生しません。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

· 約1分

掲載日: 2023年6月2日

SINET6の機器メンテナンス作業に伴い、 以下の時間帯において、ネットワークが一時的に不通となります。

  • 日時:2023年 6月 5日(月) 4:30 ~ 6:00 (24h表記)

    • 上記時間帯にて15分程度の通信断が最大2回発生いたします。
  • 影響の範囲

    • 通信断の間は、スパコンへのログインやデータ転送作業は出来ません。
    • 稼働中のジョブの停止は発生しません。

何卒ご理解とご協力を賜りますよう、よろしくお願い申し上げます。

· 約2分

DDBJのデータベース構築に用いていたストレージシステムが2023年4月にリプレースされ、これまで約15PBだったディスク領域が40PBのディスク領域に刷新されました。

現在DDBJ業務用の高速ストレージLustre6のデータと旧データベース用ストレージGPFS1,2のデータを新ストレージに移行する作業を行っています。データ移行は7月ごろに終了し、その後本格稼働する予定です。

新ストレージの本格稼働後はDRAのデータなどが遺伝研スパコンから直接マウントされて直接使えるようになります。

Lustre6は主にDDBJのデータベース構築用に使われていましたが、旧スパコン(NIGスパコン2012)のユーザのデータが一部残っていました。該当のユーザにはメールにてご連絡させていただいております。現遺伝研スパコンの一般解析区画ユーザホーム領域はLustre7にありますので、メールを受け取られたユーザはそちらにデータ転送するか、データを削除していただくようお願い申し上げます。

現行ストレージの種類については以下をご参照ください。

「ハードウェア」 > 「ストレージ」高速ストレージ Lustre ファイルシステム

当ウェブサイトでは、お客様により良いサービスを提供するため、クッキーを利用しています。 クッキーの利用に同意いただける場合は「同意する」をクリックしてください。