SraToolkitの使い方

概略

prefetch は、NCBIが提供するSRA Toolkit の一部で、配列データ（SRAアクセッション）を事前にローカルへダウンロードするためのコマンドラインツールです。本記事では、遺伝研スパコンにログインした状態でprefetchを用い、データを遺伝研スパコンにダウンロードするユーザ利用手順を示します。なお、遺伝研の一般解析区画には、以下で使うコマンドprefetchやvdb-configなどは既にインストールされています。

注意点：より詳しい使い方は、ncbiの次のサイトを参照してください。 https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump

1. 基本的な使い方

vdb-dumpコマンドを用いダウンロードファイルのサイズを確認します(size:項目に表示されます)。20GB以上であれば、prefetchコマンドを利用する際に--max-sizeオプションに必要なサイズ以上の数値を指定してください。
次に、prefetchコマンドでSRAアクセッションに対応するディレクトリをダウンロードします。
最後に、fasterq-dumpコマンドでfastqファイルを抽出します。なお、HDDの空き容量には、アクセッションサイズの約17倍の空き容量が必要です。

以下は、SRR000001(サイズは20GB以下)をダウンロードする場合。ダウンロード先は /path/to/download_dirとした場合。

  $ vdb-dump SRR1951777 --info
  $ prefetch SRR000001 -O /path/to/download_dir
  $ cd ./path/to/be/used
  $ fasterq-dump SRR000001

以下は、SRR1951777(サイズは20GB以上)をダウンロードする場合。ダウンロード先は /path/to/download_dir とした場合。

  $ vdb-dump SRR1951777 --info
  $ prefetch SRR1951777 --max-size 420000000000 -O /path/to/download_dir
  $ fasterq-dump SRR1951777

概略​

1. 基本的な使い方​

概略

1. 基本的な使い方