【fasterq-dumpの使い方】FASTQファイルを取得
はじめに
次世代シーケンサーから得られるシーケンスデータを用いた論文が投稿される際に、そのシーケンスデータは公共データベースに登録されることが一般的です。 本ページでは、SRA Toolkitのfasterq-dumpを使って公共データベースからFASTQファイルを取得する手順を説明します。
インストール
こちらにバイナリが用意されているのでダウンロードしていきます。
以下の操作でダウンロードと解凍を行います。
(Macの場合)
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz
$ tar -vxzf sratoolkit.current-mac64.tar.gz
sratoolkit.3.0.0-mac64/bin にパスを通しておくと良いでしょう。
FASTQファイルの取得にはfasterq-dumpを用いますので、fasterq-dumpのヘルプを表示してみます。
$ fasterq-dump -h
以下のような内容が表示されれば成功です。
Usage: fasterq-dump [ options ] [ accessions(s)... ]
Parameters:
accessions(s) list of accessions to process
Options:
-o|--outfile <path> full path of outputfile (overrides usage
of current directory and given accession)
-O|--outdir <path> path for outputfile (overrides usage of
current directory, but uses given
accession)
...
アクセッション番号の取得
まずはNCBI SRAでダウンロードしたいデータを探します。アクセッション番号をすでにわかっている場合にはこちらの作業は不要です。
以下の画面で表示されるアクセッション番号をメモしておきます。FASTQファイルの取得
FASTQファイルの取得にはfasterq-dumpを用います。fastq-dumpというツールもありますが、fasterq-dumpはその高速版に当たります。
以下のコマンドで FASTQファイルを取得します。
$ fasterq-dump SRR20791120
以下のように表示されたら取得完了です。
spots read : 24,448,654
reads read : 48,897,308
reads written : 24,448,654
reads 0-length : 24,448,654
カレントディレクトリに「SRR20791120.fastq」が作成されました。
ペアリードに対しては以下のようにすることで、ファイルを分けて取得することができます。
$ fasterq-dump --split-files SRR20791120
「SRR20791120_1.fastq」と「SRR20791120_2.fastq」が作成されました。
RNA-Seqデータ解析ツール
公共データをダウンロードするには非常に時間がかかります。
こちらのソフトウェアではクラウド上でRNA-Seqのデータ解析を行うことができますので、手元に公共データをダウンロードすることなく解析が実施可能です。