2014年10月8日【お知らせ】短時間ジョブ向けキューの新規作成について

国立遺伝学研究所スーパーコンピュータシステム利用者各位

2014年10月8日
国立遺伝学研究所 DDBJセンター スーパーコンピュータシステム管理チーム

 

平素より、国立遺伝学研究所スーパーコンピュータシステム(以下 スパコン)を
ご利用いただき誠に有難うございます。

先日7/22, 7/30日にスパコンユーザー会を開催するなどして、
これまでユーザーの皆様からご意見をいくつか頂いておりました。

頂いたご意見のうち、
1. スパコンが混雑しており、小規模なジョブがどうしても優先して流れて
   しまうので大規模並列ジョブがThinノード上で中々流れない
2. GPUを使わないのにGPUキューでジョブを流している人がいてGPUが使えない

上記の不満を解消する施策として、現在month_gpu.qを構成する各Thinノード上に
仮想ノードを構築して短時間ジョブ向けのキュー(short.q)を新規に作成することを
検討しています。
小さいジョブは短期キューで実行していただくことにより他のキューの混雑が
緩和されると期待できます。

具体的には以下のように変更することを検討しておりますが、不都合な点など
ご意見等ございましたらお知らせいただけますようお願いします。
問題ないようでしたら、11月末の定期停電に伴うメンテナンス後に運用を開始する
予定です。

1. GPUキューで使える最大CPUコア数が16 (Phase 1), 20 (Phase 2)から
   4 (Phase 1), 5 (Phase 2)になります。
2. GPUキューで使える最大メモリ量が64GBから32GBになります。
3. 仮想環境(KVM)上に短期キュー(2時間)を新設します。
   使用可能な最大CPUコア数 12 (Phase 1), 15(Phase2),
   最大メモリ 32GBとなります。


【現在の構成】
 キュー名: month_gpu.q
   ノード数: 62ノード(実機)
   各ノードスロット数: 16(Phase1), 20(Phase2)
   各ノード最大mem_req量:  64G
   GPU搭載
   ジョブ実行時間制限: 2ヶ月

【変更後の構成】
 キュー名: month_gpu.q
   ノード数: 62ノード(実機)
   各ノードスロット数: 4(Phase1), 5(Phase2)
   各ノードmem_req量:  32G
   GPU搭載
   ジョブ実行時間制限: 2ヶ月

  キュー名: short.q(新規作成)
   ノード数: 62ノード(仮想ノード)
   各ノードスロット数: 12(Phase1), 15(Phase2)
   各ノードmem_req量:  32G
   ジョブ実行時間制限: 2時間

 

お問い合わせ窓口

 
以上、宜しくお願いいたします。

 --- 
国立遺伝学研究所 スパコン管理チーム 
http://sc.ddbj.nig.ac.jp/
address