メインコンテンツまでスキップ

(復旧) 2025年12月25日(木) 一般解析区画のslurm障害発生

2025年12月25日(木) 10時30分頃(24時間標記。以下、時間は全て24時間標記)に。一般解析区画のslurm管理サーバが停止しました。

原因は、slurm管理サーバが起動する計算ノード上でのメモリ不足によるものでした。

復旧作業は、同日15時に完了し、その後、ジョブの投入が可能な状態となりました。

現在まだ復旧できていません。復旧作業については、順次ホームページにてご連絡致します。

影響の範囲

  • 一般解析区画において、slurm管理サーバが停止していた10時30分頃から15時までの約4時間30分の間、一般解析区画へのジョブ投入ができませんでした。現在、一般解析区画へのジョブ投入ができませんでした。停止期間中に実行中のジョブはキャンセルされ、再実行が必要となる可能性があります。
    • 下記コマンドで障害発生時に影響を受けた可能性のあるご自身のジョブを確認できます。
      • sacct -X -S 2025-12-25T10:30:00 -E 2025-12-25T15:00:00 --state=CANCELLED,FAILED --format=JobID,JobName,User,State,Start,End
    • 確認後、必要であればジョブの再実行をお願い致します。
  • 個人ゲノム解析区画には影響ありません。
  • DDBJのサービスには影響はありません。