メインコンテンツまでスキップ

Grid Engine

🆀 計算ノードの障害等によりジョブが再実行された際に、注意する点はありますか。

🅐 ジョブが再実行された場合は、

  1. ジョブの標準出力、標準エラー出力は再実行前のファイルに追記されます。

  2. 投入しているジョブによっては 1 度目の実行で出力されたファイルの存在により、2 度目の実行がエラーもしくは不適切になる場合があります。問題の発生が懸念される場合は、中間ファイルや結果ファイルを削除した上で、ジョブを再投入して頂けるよう、お願いします。

  3. 必要に応じてジョブ内で再実行に備えた処置を加えて頂けるようお願いします。例えばシェルスクリプトの場合ですと以下のような処理を加えることで問題を回避できます。

例(一つの中間ファイルを出力し、それを入力として結果ファイルを出力するジョブの場合)

#!/bin/sh
#$ -S /bin/sh
tmpfile=/home/user/tmpdir/tmpfile.txt  #中間ファイルを指定
outfile=/home/user/outdir/outfile.txt #結果ファイルを指定

###追記内容##########################
if [ -f ${tmpfile} ] ; then           #中間ファイルが存在すれば削除
rm ${tmpfile}
fi
if [ -f ${outfile} ] ; then            #結果ファイルが存在すれば削除
rm ${outfile}
fi
#####################################