【TPM】RNA-Seq解析における遺伝子発現量の補正方法

更新日: 2026/3/5

はじめに

RNA-Seq解析によって得られたリードのカウント結果は、そのままでは遺伝子間やサンプル間での比較を行うことができません。

なぜなら、遺伝子の長さが長いほどその遺伝子にマッピングされるリードは多くなりますし、シーケンスにより得られた総リード数が多ければ多いほどそのサンプルのそれぞれの遺伝子にマッピングされるリードが多くなるためです。

そのため様々な補正方法が提案されていますが、本ページではTPMについて説明します。以前は、FPKM/RPKMという指標も多く用いられていましたが、適切に遺伝子発現量を表現できていないと指摘があり、現在はTPMが用いられることが多くなってきています。

TPMは「transcripts per million」の略で、FPKM/RPKMの代替として提案された補正方法です。

マッピングされた全リード数を100万、転写産物長を1000塩基になるように補正する点ではFPKM/RPKMと同様ですが、補正する順番が異なり、先に長さの補正をしてから総リード数による補正を行います。

計算式は以下の通りです。（\(q_i\) はマッピングされたリード数、\(l_i\) は転写産物長を表します。）

\(A_i = \frac{q_i}{l_i} * 10^3\)

\(TPM_i = A_i * \frac{1}{\sum_j A_j} * 10^6\)

FPKMを用いて、以下のように表現することもできます。

\(TPM_i = \frac{FPKM_i}{\sum_j FPKM_j} * 10^6\)

TPMの計算方法はソフトウェアによって少しずつ異なっています。例えば、ソフトウェアによっては\(l_i\)に実際の転写産物長を使用するのではなく、Effective lengthを使用することがあります。

Effetive Lengthは以下で計算できます。

\(\tilde{l_i} = l_i - μ_{FLD} + 1\)

\(μ_{FLD}\)は平均フラグメント長を示しています。

Effective lengthをTPMの計算に使用することで、より適切に長さの影響を補正することができると言われています。

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。以下のような方にオススメです。

✔︎ 外部委託や共同研究者への依頼は行いたくない

✔︎ Linuxコマンドでの操作に不安を感じる

✔︎ 解析に必要な高スペックなコンピュータを持っていない

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等を簡単に実施できます。

合同会社BxINFO

バイオインフォマティクスを専門とする研究支援企業です。

RNA-Seq解析を中心に、ライフサイエンスの研究に役立つツール・情報を提供しています。