FASTQファイル/FASTQ形式とは
はじめに
FASTQファイルはFASTQ形式で書かれたファイルで、塩基配列とそのクオリティスコア(確からしさ)を示したファイルです。 一般的にシーケンサーから出力された塩基配列を表現するために用いられます。
拡張子は「.fastq」や「.fq」等とされることが多いです。gzip圧縮されていることも多く、その場合の拡張子は「.fastq.gz」や「.fq.gz」となります。 さらに、次世代シーケンサー(NGS)から出力されるリードはペアとなることも多く、ファイル名を「[サンプル名]_1.fastq.gz」「[サンプル名]_1.fq.gz」「[サンプル名]_2.fastq.gz」「[サンプル名]_2.fq.gz」 等のようにしてどのファイルがペアとなっているかわかりやすくしていることがあります。
クオリティスコアを含まず、塩基配列のみを記述するファイルはFASTAファイルと呼ばれます。FASTAファイルの詳しい説明はこちらからご覧ください。
FASTQ形式
FASTQ形式では4行が1セットとなっており、塩基配列とそのクオリティを表現しています。
FASTQファイルの例
この例では8行あるので、2つ分の配列情報を表示しています。
各行の情報は以下のようになっています。
記載内容 | 例 | |
---|---|---|
1行目 | 配列のIDや説明。@から始まる。 | @SRR21484222.626.1 626 length=51 |
2行目 | 塩基配列 | GCCTTGGTGGTGAAATGGTAGACTGGAATTCTCGGGTGCCAAGGAACTCCA |
3行目 | 「+」が書かれる。その後ろに配列のIDを記載することもある。 | +SRR21484222.626.1 626 length=51 |
4行目 | クオリティスコア | F:FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFF:,FFFFFFFFF |
Phredクオリティスコア
クオリティスコアの表現方法はいくつかありますが、一般的にPhredクオリティスコアが用いられます。
Phredクオリティスコアは以下の数式で計算されます。\(p_{err}\)はシーケンシングがエラーである確率を表しています。
つまり、Q10はエラーの確率が10%、Q20は1%、Q30は0.1%、Q40は0.01%となります。
FASTQファイルではこのクオリティスコアを1つの文字で表現しています。
以下が文字とスコアの対応表です。
クオリティスコア | 文字 |
---|---|
0 | ! |
1 | " |
2 | # |
3 | $ |
4 | % |
5 | & |
6 | ' |
7 | ( |
8 | ) |
9 | * |
10 | + |
11 | , |
12 | - |
13 | . |
14 | / |
15 | 0 |
16 | 1 |
17 | 2 |
18 | 3 |
19 | 4 |
20 | 5 |
21 | 6 |
22 | 7 |
23 | 8 |
24 | 9 |
25 | : |
26 | ; |
27 | < |
28 | = |
29 | > |
30 | ? |
31 | @ |
32 | A |
33 | B |
34 | C |
35 | D |
36 | E |
37 | F |
38 | G |
39 | H |
40 | I |
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。