【fastpの使い方】FASTQファイルの前処理
はじめに
次世代シーケンサーから出力される生データ(FASTQファイル)には、アダプター配列が含まれているリードや品質の悪いリードが存在しています。 そのため、様々な解析を進める前に、まずはFASTQファイルからアダプター配列をトリミングしたり、品質の悪いリードをフィルタリングしたりする必要があります。
FASTQファイルの前処理を実施するためのソフトウェアの1つが、fastpです。他にもFASTQファイルの前処理に使われるソフトウェアはありますが、fastpはC++で実装されておりマルチスレッドに対応しているため、高速で処理が行える点で優れています。
インストール
CentOSやUbuntuであれば、以下のコマンドでインストール可能です。
$ wget http://opengene.org/fastp/fastp
$ chmod a+x ./fastp
Mac等では、上記操作で利用しようとすると以下のようになってしまいます。
./fastp: cannot execute binary file
その場合は、Bioconda経由でインストールできます。
$ conda install -c bioconda fastp
ヘルプを表示してみます。
$ fastp --help
以下のように表示されればインストール成功です。
usage: fastp [options] ...
options:
-i, --in1 read1 input file name (string [=])
-o, --out1 read1 output file name (string [=])
-I, --in2 read2 input file name (string [=])
-O, --out2 read2 output file name (string [=])
-D, --dedup enable deduplication to drop the duplicated reads/pairs...
前処理の実施
シングルエンドの場合、以下の操作で前処理を実施できます。
$ fastp -i raw.fastq -o filtered.fastq.gz
ペアエンドの場合、以下の操作で前処理を実施できます。
$ fastp -i raw_1.fastq -I raw_2.fastq -o filtered_1.fastq.gz -O filtered_2.fastq.gz
GZIP形式に圧縮されたFASTQファイルが出力されました。
以下のようなレポートも出力されます。
レポートの詳細はこちらからご覧いただけます。
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。