>
【Trimmomaticの使い方】FASTQファイルのトリミング・前処理

【Trimmomaticの使い方】FASTQファイルのトリミング・前処理

更新日: 2026/5/18

📖 RNA-Seqデータ解析の全体の流れも合わせてご覧ください。

はじめに

Trimmomaticは、Illuminaの次世代シーケンサーから得られたFASTQファイルのトリミング・フィルタリングを行うためのソフトウェアです。 アダプター配列の除去、低品質な塩基のトリミング、短すぎるリードの除去など、シーケンスデータの前処理に必要な操作を柔軟に行うことができます。 RNA-Seq解析やゲノム解析において、マッピングの前にデータの品質を向上させるための前処理として広く使われています。

インストール

Bioconda経由でインストールできます。

$ conda install -c bioconda trimmomatic

ヘルプを表示してみます。

$ trimmomatic

以下のような内容が表示されれば成功です。

Usage: PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>... or: SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>... or: -version

ペアエンドリードのトリミング(PE)

以下のコマンドでペアエンドリードのトリミングを行います。

$ trimmomatic PE -threads 4 -phred33 \ input_1.fastq.gz input_2.fastq.gz \ output_1P.fastq.gz output_1U.fastq.gz \ output_2P.fastq.gz output_2U.fastq.gz \ ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 \ LEADING:3 \ TRAILING:3 \ SLIDINGWINDOW:4:15 \ MINLEN:36

このコマンドでは、TruSeq3のアダプター配列を除去(ILLUMINACLIP)し、リードの先頭と末尾から品質値3未満の塩基を除去(LEADING、TRAILING)し、 4塩基のスライディングウィンドウで平均品質が15未満になった箇所から3'末端側をカット(SLIDINGWINDOW)し、 トリミング後に36bp未満になったリードを除去(MINLEN)しています。

出力ファイルは4つあります。

  • output_1P.fastq.gz: Read 1のうち、ペアが両方とも残ったリード(Paired)
  • output_1U.fastq.gz: Read 1のうち、ペアの片方が除去されたリード(Unpaired)
  • output_2P.fastq.gz: Read 2のうち、ペアが両方とも残ったリード(Paired)
  • output_2U.fastq.gz: Read 2のうち、ペアの片方が除去されたリード(Unpaired)

通常、下流のマッピング解析ではPaired出力(output_1P.fastq.gz と output_2P.fastq.gz)を使用します。

シングルエンドリードのトリミング(SE)

シングルエンドリードの場合は以下のように指定します。

$ trimmomatic SE -threads 4 -phred33 \ input.fastq.gz output.fastq.gz \ ILLUMINACLIP:TruSeq3-SE.fa:2:30:10 \ LEADING:3 \ TRAILING:3 \ SLIDINGWINDOW:4:15 \ MINLEN:36

出力ファイルは output.fastq.gz の1つで、トリミング後に残ったリードが格納されます。

実行結果の確認

Trimmomaticの実行後、以下のようなログが出力されます(PEの場合)。

TrimmomaticPE: Started with arguments: -threads 4 -phred33 input_1.fastq.gz input_2.fastq.gz output_1P.fastq.gz output_1U.fastq.gz output_2P.fastq.gz output_2U.fastq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 ILLUMINACLIP: Using adapter file from Trimmomatic installation folder: /opt/conda/share/trimmomatic-0.40-0/adapters/TruSeq3-PE.fa Using PrefixPair: 'TACACTCTTTCCCTACACGACGCTCTTCCGATCT' and 'GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT' ILLUMINACLIP: Using 1 prefix pairs, 0 forward/reverse sequences, 0 forward only sequences, 0 reverse only sequences Input Read Pairs: 1000000 Both Surviving: 950000 (95.00%) Forward Only Surviving: 30000 (3.00%) Reverse Only Surviving: 10000 (1.00%) Dropped: 10000 (1.00%) TrimmomaticPE: Completed successfully

「Both Surviving」がペアが両方とも残ったリードの割合、「Forward Only Surviving」「Reverse Only Surviving」がペアの片方のみ残ったリードの割合、「Dropped」が両方とも除去されたリードの割合を示しています。 なお、-summary <ファイル名> オプションを付けると、同じ統計が項目ごとに改行された形式で別ファイルに保存されます。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。以下のような方にオススメです。

✔︎ 外部委託や共同研究者への依頼は行いたくない

✔︎ Linuxコマンドでの操作に不安を感じる

✔︎ 解析に必要な高スペックなコンピュータを持っていない

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。

合同会社BxINFOロゴ

合同会社BxINFO

バイオインフォマティクスを専門とする研究支援企業です。

RNA-Seq解析を中心に、ライフサイエンスの研究に役立つツール・情報を提供しています。

→ 詳しくはこちら