【fastpの使い方】FASTQファイルの前処理

はじめに

次世代シーケンサーから出力される生データ(FASTQファイル)には、アダプター配列が含まれているリードや品質の悪いリードが存在しています。 そのため、様々な解析を進める前に、まずはFASTQファイルからアダプター配列をトリミングしたり、品質の悪いリードをフィルタリングしたりする必要があります。

FASTQファイルの前処理を実施するためのソフトウェアの1つが、fastpです。他にもFASTQファイルの前処理に使われるソフトウェアはありますが、fastpはC++で実装されておりマルチスレッドに対応しているため、高速で処理が行える点で優れています。

インストール

CentOSやUbuntuであれば、以下でインストール可能です。

$ wget http://opengene.org/fastp/fastp $ chmod a+x ./fastp

Mac等では、上記操作で利用しようとすると以下のようになってしまいます。

./fastp: cannot execute binary file

その場合は、Bioconda経由でインストールできます。

$ conda install -c bioconda fastp

ヘルプを表示してみます。

$ fastp --help

以下のように表示されればインストール成功です。

usage: fastp [options] ... options: -i, --in1 read1 input file name (string [=]) -o, --out1 read1 output file name (string [=]) -I, --in2 read2 input file name (string [=]) -O, --out2 read2 output file name (string [=]) -D, --dedup enable deduplication to drop the duplicated reads/pairs...

前処理の実施

シングルエンドの場合、以下の操作で前処理を実施できます。

$ fastp -i raw.fastq -o filtered.fastq.gz

ペアエンドの場合、以下の操作で前処理を実施できます。

$ fastp -i raw_1.fastq -I raw_2.fastq -o filtered_1.fastq.gz -O filtered_2.fastq.gz

GZIP形式に圧縮されたFASTQファイルが出力されました。

以下のようなレポートも出力されます。

fastpサマリー

レポートの詳細はこちらからご覧いただけます。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。