【FPKM/RPKM】遺伝子発現量の補正方法

はじめに

RNA-Seq解析によって得られたリードのカウント結果は、そのままでは遺伝子間やサンプル間での比較を行うことができません。

なぜなら、遺伝子の長さが長いほどその遺伝子にマッピングされるリードは多くなりますし、シーケンスにより得られた総リード数が多ければ多いほどそれぞれの遺伝子にマッピングされるリードが多くなるためです。

そのため様々な補正方法が提案されていますが、本ページではFPKM/RPKMについて説明します。ただし、最近ではFPKM/RPKMが適切に遺伝子発現量を表現できていないと指摘されており、TPMが用いられることが多くなってきています。

FPKM/RPKMの定義

FPKMは「Fragments Per Kilobase of exon per Million mapped reads」、RPKMは「Reads Per Kilobase of exon per Million mapped reads」の略で、その名の通り、マッピングされた全リード数を100万、転写産物長を1000塩基になるように補正します。 FPKMとRPKMはリードかフラグメントかの違いで計算式としては同じになります。

計算式は以下の通りです。(\(q_i\) はリードのカウント結果を、\(l_i\) は転写物の長さを表します。)

\(FPKM_i = \frac{q_i}{\frac{l_i}{10^3} * \frac{\sum_j q_j}{10^6}} = \frac{q_i}{l_i * \sum_j q_j} * 10^9\)

Effective length

FPKM/RPKMの計算方法はソフトウェアによって少しずつ異なっています。 例えば、ソフトウェアによっては\(l_i\)に実際の転写産物長を使用するのではなく、Effective lengthを使用することがあります。

Effetive Lengthは以下で計算できます。

\(\tilde{l_i} = l_i - μ_{FLD} + 1\)

\(μ_{FLD}\)は平均フラグメント長を示しています。

Effective lengthをFPKM/RPKMの計算に使用することで、より適切に長さの影響を補正することができると言われています。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。