RNA-Seq解析における主成分分析(PCA)

RNA-Seq解析において、サンプル間の遺伝子発現の度合いの類似度を可視化する目的で主成分分析が実施されることが多くあります。

主成分分析(Principal component analysis, PCA)とは?

主成分分析は、高次元のデータをなるべく情報を損なわないように低次元に変換する手法です。

データの分散が最大となる軸を見つけ出し第1主成分(PC1)とし、第1主成分と直交する軸の中でデータの分散が最大となる軸を第2主成分(PC2)とします。 第3主成分(PC3)は第1主成分と第2主成分と直行する軸の中でデータの分散が最大となる軸、第4主成分(PC4)、第5主成分(PC5)、、、と同様に求めることができます。

それぞれの主成分がデータのどれくらいを説明できているかを示す値として寄与率というものがあります。 また、第m主成分までの寄与率の合計を累積寄与率と言います。例えば、第1主成分の寄与率が50%、第2主成分の寄与率が30%であった場合、第2主成分までの累積寄与率は80%となります。 これは、第1主成分と第2主成分だけで元のデータの80%を説明できることを意味します。

高次元のデータを可視化することは難しいですが、 第2主成分までの累積寄与率が高いデータであれば、 第1主成分と第2主成分を使って2次元の散布図を作成することで、 データの情報をほとんど損なうことなく可視化できるということになります。

RNA-Seq解析における主成分分析

RNA-Seq解析を行うと、以下のような遺伝子発現量テーブルが得られます。

発現量テーブルの例

各サンプルについて遺伝子数分の数値を持っているため、非常に高次元なデータとなります。(画像では10遺伝子分しか表示されていませんが、実際には生物種によっては数万遺伝子にもなります。)

このデータについて主成分分析を行い以下のように横軸を第1主成分、縦軸を第2主成分として2次元の散布図として表現することでサンプル間の類似度を可視化することができます。 この図からsample1~3は遺伝子の発現の度合いが似ていることが推測できます。

PC1、PC2の括弧の中には寄与率が示されています。第2主成分までの累積寄与率は38.57% + 19.55% = 58.12%ですので、この散布図で元のデータの58.12%は説明できていると言えます。

主成分分析の例

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。