【fastpの使い方】FASTQファイルの前処理

更新日: 2025/5/4

はじめに

次世代シーケンサーから出力される生データ（FASTQファイル）には、アダプター配列が含まれているリードや品質の悪いリードが存在しています。そのため、様々な解析を進める前に、まずはFASTQファイルからアダプター配列をトリミングしたり、品質の悪いリードをフィルタリングしたりする必要があります。

FASTQファイルの前処理を実施するためのソフトウェアの１つが、fastpです。他にもFASTQファイルの前処理に使われるソフトウェアはありますが、fastpはC++で実装されておりマルチスレッドに対応しているため、高速で処理が行える点で優れています。

インストール

CentOSやUbuntuであれば、以下のコマンドでインストール可能です。

$ wget http://opengene.org/fastp/fastp $ chmod a+x ./fastp

Mac等では、上記操作で利用しようとすると以下のようになってしまいます。

./fastp: cannot execute binary file

その場合は、Bioconda経由でインストールできます。

$ conda install -c bioconda fastp

ヘルプを表示してみます。

$ fastp --help

以下のように表示されればインストール成功です。

usage: fastp [options] ... options: -i, --in1 read1 input file name (string [=]) -o, --out1 read1 output file name (string [=]) -I, --in2 read2 input file name (string [=]) -O, --out2 read2 output file name (string [=]) -D, --dedup enable deduplication to drop the duplicated reads/pairs...