【fasterq-dumpの使い方】公共データベースからFASTQファイルを取得

はじめに

次世代シーケンサーから得られるシーケンスデータを用いた論文が投稿される際に、そのシーケンスデータは公共データベースに登録されることが一般的です。 本ページでは、SRA Toolkitのfasterq-dumpを使って公共データベースからFASTQファイルを取得する手順を説明します。

SRA Toolkitのインストール

こちらにバイナリが用意されているのでダウンロードしていきます。

以下の操作でダウンロードと解凍を行います。

(Macの場合)

$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-mac64.tar.gz $ tar -vxzf sratoolkit.current-mac64.tar.gz

sratoolkit.*-mac64/bin にパスを通しておくと良いでしょう。

FASTQファイルの取得にはfasterq-dumpを用いますので、fasterq-dumpのヘルプを表示してみます。

$ fasterq-dump -h

以下のような内容が表示されれば成功です。

Usage: fasterq-dump [ options ] [ accessions(s)... ] Parameters: accessions(s) list of accessions to process Options: -o|--outfile <path> full path of outputfile (overrides usage of current directory and given accession) -O|--outdir <path> path for outputfile (overrides usage of current directory, but uses given accession) ...

アクセッション番号の取得

まずはNCBI SRAでダウンロードしたいデータを探します。アクセッション番号をすでにわかっている場合にはこちらの作業は不要です。

以下の画面で表示されるアクセッション番号をメモしておきます。

アクセッション番号

FASTQファイルの取得

FASTQファイルの取得にはfasterq-dumpを用います。fastq-dumpというツールもありますが、fasterq-dumpはその高速版に当たります。

以下のコマンドで FASTQファイルを取得します。

$ fasterq-dump SRR20791120

以下のように表示されたら取得完了です。

spots read : 24,448,654 reads read : 48,897,308 reads written : 24,448,654 reads 0-length : 24,448,654

カレントディレクトリに「SRR20791120.fastq」が作成されました。

ペアリードに対しては以下のようにオプションを使用することで、ファイルを分けて取得することができます。

$ fasterq-dump --split-files SRR20791120

「SRR20791120_1.fastq」と「SRR20791120_2.fastq」が作成されました。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。