メインコンテンツまでスキップ

Slurm の概要

Slurm はジョブスケジューラあるいはリソーススケジューラと呼ばれるプログラムの一種で、 多数のユーザーが利用している環境で、各ユーザに自動的に計算リソース(CPU コアやメモリ)を割り当てるものです。

  • 一般解析区画では、Grid Engine を用いています。
  • 個人ゲノム解析区画では、Grid Engine または Slurm が利用可能です。

Slurmはオープンソースソフトウェアのジョブスケジューラで、開発元の一つである米国SchedMD社からの商用サポートも提供されているソフトウェアです。米国LLNL(ローレンスリバモア国立研究所)を初め、国内外の大規模クラスタ型スーパーコンピュータでの数多くの利用実績があるソフトウェアです。複数のパブリッククラウド上でもHPC向けのジョブスケジューラとして利用可能となっています。

参考資料

ジョブの種類

個人ゲノム解析区画のSlurmでは以下の3種類のジョブが主に使われます。(Slurmのドキュメントではパラレルジョブという分類が明示的にはないですが、遺伝研スパコンのAGEの説明との対応として別に分類して説明します)

(その他のジョブについての説明など詳細については公式のマニュアルをご参照下さい。)

その他のコマンド

主に使うコマンドは以下のとおりです。

  • squeue
    • ジョブの現在の状況を確認する。
  • scancel
    • ジョブを削除する。
  • scontrol
    • ジョブの設定を変更する。

詳細はその他のコマンドの項および公式マニュアルをご参照下さい。

ジョブの実行が開始されない場合

  1. ジョブの設定が間違っていないかを、主に以下の点で確認してください。
    • ジョブの記述スクリプトで要求している計算リソース量が間違っていないか確認してください。計算ノードの1ノードあたりのメモリ量、物理CPUコア数を超えて要求している記述になっていないかを確認してください。
    • 実行可能時間が、パーティションの設定を超えた要求になっていないかを確認してください。
  2. スパコンの混雑状況を確認する。