FASTQファイル/FASTQ形式とは

はじめに

FASTQファイルはFASTQ形式で書かれたファイルで、塩基配列とそのクオリティスコア(確からしさ)を示したファイルです。 一般的にシーケンサーから出力された塩基配列を表現するために用いられます。

拡張子は「.fastq」や「.fq」等で、gzip圧縮されていることも多く、その場合は「.fastq.gz」や「.fq.gz」となります。 さらに、次世代シーケンサー(NGS)から出力されるリードはペアとなることも多く、ファイル名を「_1.fastq.gz」「_1.fq.gz」「_2.fastq.gz」「_2.fq.gz」 等のようにしてどのファイルがペアとなっているかわかりやすくしていることがあります。

クオリティスコアを含まず、塩基配列のみを記述するファイルはFASTAファイルと呼ばれます。FASTAファイルの詳しい説明はこちらからご覧ください。

FASTQ形式

FASTQ形式では4行が1セットとなっており、塩基配列とそのクオリティを表現しています。

FASTQファイルの例

@SRR21484222.626.1 626 length=51 GCCTTGGTGGTGAAATGGTAGACTGGAATTCTCGGGTGCCAAGGAACTCCA +SRR21484222.626.1 626 length=51 F:FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFF:,FFFFFFFFF @SRR21484222.627.1 627 length=51 TAGCGGCACCATGGAATTCTCGGGTGCCAAGGAACTCCAGTCACATCGTGA +SRR21484222.627.1 627 length=51 FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF ...

この例では8行あるので、2つ分の配列情報を表示しています。

各行の情報は以下のようになっています。

記載内容
1行目配列のIDや説明。@から始まる。@SRR21484222.626.1 626 length=51
2行目塩基配列GCCTTGGTGGTGAAATGGTAGACTGGAATTCTCGGGTGCCAAGGAACTCCA
3行目「+」が書かれる。その後ろに配列のIDを記載することもある。+SRR21484222.626.1 626 length=51
4行目クオリティスコアF:FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFF:,FFFFFFFFF

Phredクオリティスコア

クオリティスコアの表現方法はいくつかありますが、一般的にPhredクオリティスコアが用いられます。

Phredクオリティスコアは以下の数式で計算されます。\(p_{err}\)はシーケンシングがエラーである確率を表しています。

\(Q = \log_{10} p_{err}\)

つまり、Q10はエラーの確率が10%、Q20は1%、Q30は0.1%、Q40は0.01%となります。

FASTQファイルではこのクオリティスコアを1つの文字で表現しています。

以下が文字とスコアの対応表です。

クオリティスコア
文字
0!
1"
2#
3$
4%
5&
6'
7(
8)
9*
10+
11,
12-
13.
14/
150
161
172
183
194
205
216
227
238
249
25:
26;
27<
28=
29>
30?
31@
32A
33B
34C
35D
36E
37F
38G
39H
40I