データベース
スーパーコンピュータシステムでは、各計算ノード、各ログインノードから各種バイオ系DBが利用可能です。
1. DDBJ,NCBI,EBI等の公共DBを利用したい場合
スーパーコンピュータシステムにて利用可能なDBおよびパスは利用可能DB一覧をご覧下さい。
2. DRAを含むその他のDDBJ DBを利用したい場合
上記利用可能DB以外のDDBJ DBについては下記方法にてデータをコピーしてご利用下さい。
3. Singularityコンテナ内からDBを参照したい場合
SingularityコンテナからのDB利用方法をご覧下さい。
利用可能DB一覧
DB名 | パス (/usr/local/seq/) | 設置されているファイルの詳細 | 更新頻度 | |
---|---|---|---|---|
DDBJ-unified-all | - | ddbj-unified-all/ | - | 毎日 |
fasta/ | ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-all/fasta/以下を解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-all/blastdb/以下を解凍したBLASTデータベース | |||
DDBJ-unified-new | - | ddbj-unified-new/ | - | 毎日 |
fasta/ | ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-new/fasta/以下を解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ddbj.nig.ac.jp/ddbj_database/ddbjnew/unified-new/blastdb/以下を解凍したBLASTデータベース | |||
GenBank | flat/ | genbank/ | ftp://ftp.ncbi.nih.gov/genbank/以下のうち、wgsを除いた全ファイル | 随時 |
- | - | |||
- | - | |||
GenBank-daily | flat/ | genbank-daily/ | ftp://ftp.ncbi.nih.gov/genbank/daily-nc/以下のうちwgsを除いた全ファイル | 毎日 |
- | - | |||
- | - | |||
EMBL | flat/ | embl/ | ftp://ftp.ebi.ac.uk/pub/databases/ena/sequence/release以下のうちwgsを除いた全ファイル | 随時 |
- | - | |||
- | - | |||
EMBL-daily | flat/ | embl-daily/ | ftp://ftp.ebi.ac.uk/pub/databases/embl/new/以下の全ファイル | 毎日 |
- | - | |||
- | - | |||
RefSeq-Genomic | flat/ | refseq/ | ftp://ftp.ncbi.nih.gov/refseq/release/以下の全ファイル | 随時 |
- | - | |||
- | - | |||
RefSeq-daily | flat/ | refseq-daily/ | ftp://ftp.ncbi.nih.gov/refseq/daily/以下の全ファイル | 毎日 |
- | - | |||
- | - | |||
UniProt | flat/ | uniprot/ | ftp://ftp.uniprot.org/pub/databases/uniprot/knowledgebase/以下の全ファイル | 毎週 |
- | - | |||
- | - | |||
PDB | flat/ | pdb/ | ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/以下の全ファイル | 毎週 |
- | - | |||
- | - | |||
NCBI-nt | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/nt.*.tar.gzを解凍したBLASTデータベース | |||
NCBI-nr | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gzを解凍したBLASTデータベース | |||
NCBI-dbEST | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/est_*.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/est.*.tar.gzを解凍したBLASTデータベース | |||
NCBI-dbGSS | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/gss.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/gss.*.tar.gzを解凍したBLASTデータベース | |||
NCBI-HTGS | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/htgs.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/htgs.*.tar.gzを解凍したBLASTデータベース | |||
NCBI-STS | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/sts.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/sts.tar.gzを解凍したBLASTデータベース | |||
NCBI-patnt | - | ncbi/ | - | 毎週 |
fasta/ | ftp://ftp.ncbi.nih.gov/blast/db/FASTA/patnt.gzを解凍したFASTA形式ファイル | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/patnt.tar.gzを解凍したBLASTデータベース | |||
NCBI-v5 | - | ncbi/v5 | - | 毎週 |
- | - | |||
blast/ | ftp://ftp.ncbi.nih.gov/blast/db/v5/*.tar.gzを解凍したBLASTデータベース | |||
NCBI-taxonomy | taxonomy/ | ncbi-taxonomy/ | ftp://ftp.ncbi.nih.gov/pub/taxonomy/以下の全ファイル | 毎日 |
- | - | |||
- | - | |||
Pfam | flat/ | pfam/ | ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/以下の全ファイル | 随時 |
- | - | |||
- | - | |||
PubChem | chemicaldb/ | pubchem/current/ | ftp://ftp.ncbi.nlm.nih.gov/pubchem/以下の全ファイル | 随時 |
- | - | |||
- | - | |||
ChEMBL | chemicaldb/ | ChEMBLdb/current/ | ftp://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/以下の全ファイル | 随時 |
- | - | |||
- | - | |||
illumina iGenomes | igenome/ | ussd-ftp.illumina.com/ | ftp://ussd-ftp.illumina.com/以下のHomo_sapiens,Mus_musculus,Rattus_norvegicus | 随時 |
- | - | |||
- | - |
DRAを含むその他のDDBJ DBを利用したい場合
DDBJ FTPサイトにて公開しているDBは、以下の方法で利用可能です。
・FTPサイトからダウンロードする。
450 MB/sec程度でダウンロード可能です。ただし、アーカイブ装置(テープ)にデータが移動している場合はデータ転送開始までに時間を要することがあります。なお、FTPサイト上からどのデータがテープに格納されているかは判断できませんのでご了承ください。テープにデータが移動している場合のダウンロード開始までの予測時間の計算方法は以下の通りです。
ダウンロード開始までの予測時間=以下の①+②+③
①データ格納されたテープをドライブに格納して読み込み準備をする時間 約15秒
②データ格納されたテープ位置を探しファイルの頭出しをする時間 最大80秒
③テープを読み込みHDDに書き戻す時間 ファイルサイズ(MB)/300MB 秒
事前検証で15GBのファイルをダウンロードしようとした際のデータ転送開始までの時間は約140秒でした。
上記計算に基づくと①15秒 + ②80秒 + ③50秒 = 145秒となり、近い値となります。
ssh gw.ddbj.nig.ac.jp -l youraccount qlogin lftp ftp.ddbj.nig.ac.jp cd ddbj_database lcd /home/youraccount/somewhere get some_file bye
・FTPサーバにて対象ファイルのPATHを調べ、ご自身のホームディレクトリにコピーする。
手順
1.スパコンへ接続
2.FTPサーバ(dtn4)へログイン
3.公開FTPフォルダ(/usr/local/ftp/public/ddbj_database)へ移動&対象ファイルのPATHを調べる
4.FTPサーバからログアウト
5.scpコマンドにて対象ファイルを取得
"Could not chdir to home directory /home/youraccount: No such file or directory"
はFTPサーバ側にホームが存在しないため、発生しているメッセージのため、問題なし
ssh gw.ddbj.nig.ac.jp -l youraccount $ ssh dtn4 youraccount@dtn4's password: $ cd /usr/local/ftp/public/ddbj_database/ $ ls wgs/QZ/QZZZ.gz wgs/QZ/QZZZ.gz $ exit $ scp dtn4:/usr/local/ftp/public/ddbj_database/wgs/QZ/QZZZ.gz . youraccount@dtn4's password: Could not chdir to home directory /home/youraccount: No such file or directory QZZZ.gz 100% 2751KB 105.2MB/s 00:00 $ ls -l QZZZ.gz -rw-r--r-- 1 youraccount yourgroup 2817177 Apr 26 10:00 QZZZ.gz $
SingularityコンテナからのDB利用
Singularityはデフォルトでは以下のホストディレクトリのみがコンテナ内にbindマウントされるため、
オプションを付与せずにSingularityコンテナを起動するとDBは参照できません。
$HOME
$PWD
/tmp
/proc
/sys
/dev
コンテナ内からDBを参照するためには起動時に以下のオプション付与をお願いします
--bind /usr/local/seq
コマンド例
singularity exec --bind /usr/local/seq (singularityコンテナ名) (実行コマンド)
実行例
$ module load singularity $ singularity exec --bind /usr/local/seq /usr/local/biotools/b/blast\:2.7.1--boost1.64_1 ls /usr/local/seq/blast/ncbi/nr.00.* /usr/local/seq/blast/ncbi/nr.00.phd /usr/local/seq/blast/ncbi/nr.00.pog /usr/local/seq/blast/ncbi/nr.00.phi /usr/local/seq/blast/ncbi/nr.00.ppd /usr/local/seq/blast/ncbi/nr.00.phr /usr/local/seq/blast/ncbi/nr.00.ppi /usr/local/seq/blast/ncbi/nr.00.pin /usr/local/seq/blast/ncbi/nr.00.psd /usr/local/seq/blast/ncbi/nr.00.pnd /usr/local/seq/blast/ncbi/nr.00.psi /usr/local/seq/blast/ncbi/nr.00.pni /usr/local/seq/blast/ncbi/nr.00.psq