FASTQファイル/FASTQ形式とは

はじめに

FASTQファイルはFASTQ形式で書かれたファイルで、塩基配列とそのクオリティスコア(確からしさ)を示したファイルです。 一般的にシーケンサーから出力された塩基配列を表現するために用いられます。

拡張子は「.fastq」や「.fq」等とされることが多いです。gzip圧縮されていることも多く、その場合の拡張子は「.fastq.gz」や「.fq.gz」となります。 さらに、次世代シーケンサー(NGS)から出力されるリードはペアとなることも多く、ファイル名を「[サンプル名]_1.fastq.gz」「[サンプル名]_1.fq.gz」「[サンプル名]_2.fastq.gz」「[サンプル名]_2.fq.gz」 等のようにしてどのファイルがペアとなっているかわかりやすくしていることがあります。

クオリティスコアを含まず、塩基配列のみを記述するファイルはFASTAファイルと呼ばれます。FASTAファイルの詳しい説明はこちらからご覧ください。

FASTQ形式

FASTQ形式では4行が1セットとなっており、塩基配列とそのクオリティを表現しています。

FASTQファイルの例

@SRR21484222.626.1 626 length=51 GCCTTGGTGGTGAAATGGTAGACTGGAATTCTCGGGTGCCAAGGAACTCCA +SRR21484222.626.1 626 length=51 F:FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFF:,FFFFFFFFF @SRR21484222.627.1 627 length=51 TAGCGGCACCATGGAATTCTCGGGTGCCAAGGAACTCCAGTCACATCGTGA +SRR21484222.627.1 627 length=51 FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF ...

この例では8行あるので、2つ分の配列情報を表示しています。

各行の情報は以下のようになっています。

記載内容
1行目配列のIDや説明。@から始まる。@SRR21484222.626.1 626 length=51
2行目塩基配列GCCTTGGTGGTGAAATGGTAGACTGGAATTCTCGGGTGCCAAGGAACTCCA
3行目「+」が書かれる。その後ろに配列のIDを記載することもある。+SRR21484222.626.1 626 length=51
4行目クオリティスコアF:FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFF:,FFFFFFFFF

Phredクオリティスコア

クオリティスコアの表現方法はいくつかありますが、一般的にPhredクオリティスコアが用いられます。

Phredクオリティスコアは以下の数式で計算されます。\(p_{err}\)はシーケンシングがエラーである確率を表しています。

\(Q = \log_{10} p_{err}\)

つまり、Q10はエラーの確率が10%、Q20は1%、Q30は0.1%、Q40は0.01%となります。

FASTQファイルではこのクオリティスコアを1つの文字で表現しています。

以下が文字とスコアの対応表です。

クオリティスコア
文字
0!
1"
2#
3$
4%
5&
6'
7(
8)
9*
10+
11,
12-
13.
14/
150
161
172
183
194
205
216
227
238
249
25:
26;
27<
28=
29>
30?
31@
32A
33B
34C
35D
36E
37F
38G
39H
40I

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。