【fasterq-dumpの使い方】FASTQファイルを取得

はじめに

次世代シーケンサーから得られるシーケンスデータを用いた論文が投稿される際に、そのシーケンスデータは公共データベースに登録されることが一般的です。 本ページでは、SRA Toolkitのfasterq-dumpを使って公共データベースからFASTQファイルを取得する手順を説明します。

インストール

こちらにバイナリが用意されているのでダウンロードしていきます。

以下の操作でダウンロードと解凍を行います。

(Macの場合)

$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz $ tar -vxzf sratoolkit.current-mac64.tar.gz

sratoolkit.3.0.0-mac64/bin にパスを通しておくと良いでしょう。

FASTQファイルの取得にはfasterq-dumpを用いますので、fasterq-dumpのヘルプを表示してみます。

$ fasterq-dump -h

以下のような内容が表示されれば成功です。

Usage: fasterq-dump [ options ] [ accessions(s)... ] Parameters: accessions(s) list of accessions to process Options: -o|--outfile <path> full path of outputfile (overrides usage of current directory and given accession) -O|--outdir <path> path for outputfile (overrides usage of current directory, but uses given accession) ...

アクセッション番号の取得

まずはNCBI SRAでダウンロードしたいデータを探します。アクセッション番号をすでにわかっている場合にはこちらの作業は不要です。

以下の画面で表示されるアクセッション番号をメモしておきます。
アクセッション番号

FASTQファイルの取得

FASTQファイルの取得にはfasterq-dumpを用います。fastq-dumpというツールもありますが、fasterq-dumpはその高速版に当たります。

以下のコマンドで FASTQファイルを取得します。

$ fasterq-dump SRR20791120

以下のように表示されたら取得完了です。

spots read : 24,448,654 reads read : 48,897,308 reads written : 24,448,654 reads 0-length : 24,448,654

カレントディレクトリに「SRR20791120.fastq」が作成されました。

ペアリードに対しては以下のようにすることで、ファイルを分けて取得することができます。

$ fasterq-dump --split-files SRR20791120

「SRR20791120_1.fastq」と「SRR20791120_2.fastq」が作成されました。

RNA-Seqデータ解析ツール

公共データをダウンロードするには非常に時間がかかります。

こちらのソフトウェアではクラウド上でRNA-Seqのデータ解析を行うことができますので、手元に公共データをダウンロードすることなく解析が実施可能です。