SraToolkitの使い方
概略
prefetch は、NCBIが提供するSRA Toolkit の一部で、配列データ(SRAアクセッション)を事前にローカルへダウンロードするためのコマンドラインツールです。本記事では、遺伝研スパコンにログインした状態でprefetchを用い、データを遺伝研スパコンにダウンロードするユーザ利用手順を示します。なお、遺伝研の一般解析区画には、以下で使うコマンドprefetchやvdb-configなどは既にインストールされています。
注意点: より詳しい使い方は、ncbiの次のサイトを参照してください。 https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump
1. 基本的な使い方
- vdb-dumpコマンドを用いダウンロードファイルのサイズを確認します(size:項目に表示されます)。20GB以上であれば、prefetchコマンドを利用する際に--max-sizeオプションに必要なサイズ以上の数値を指定してください。
- 次に、prefetchコマンドでSRAアクセッションに対応するディレクトリをダウンロー ドします。
- 最後に、fasterq-dumpコマンドでfastqファイルを抽出します。なお、HDDの空き容量には、アクセッションサイズの約17倍の空き容量が必要です。
以下は、SRR000001(サイズは20GB以下)をダウンロードする場合。 ダウンロード先は /path/to/download_dirとした場合。
$ vdb-dump SRR1951777 --info
$ prefetch SRR000001 -O /path/to/download_dir
$ cd ./path/to/be/used
$ fasterq-dump SRR000001
以下は、SRR1951777(サイズは20GB以上)をダウンロードする場合。 ダウンロード先は /path/to/download_dir とした場合。
$ vdb-dump SRR1951777 --info
$ prefetch SRR1951777 --max-size 420000000000 -O /path/to/download_dir
$ fasterq-dump SRR1951777