GO解析とは?GO解析を行う方法
GO解析(Gene Ontologyエンリッチメント解析、Gene Ontology解析、GO analysis、Gene Ontology analysis)とは、ある遺伝子のリストにおいて、遺伝子全体と比較して有意に多く観測される遺伝子機能を抽出する解析手法です。
RNA-Seq解析において、発現が変動した遺伝子群を抽出した際に、その遺伝子群がどのような機能に関与しているのかを解釈するためによく実施されます。
Gene Ontology(GO)とは?
Gene Ontologyとは、遺伝子の機能を記述するための共通の語彙で、GOとも略されます。Gene Ontologyは以下の3つのカテゴリに分類されます。
Biological Process(BP)
遺伝子産物が関与している代謝経路やシグナル経路を記述します。例えば、アポトーシスや細胞周期などがあります。
Cellular Component(CC)
遺伝子産物が細胞内のどの部位に存在するかを記述します。例えば、細胞膜やミトコンドリアなどがあります。
Molecular Function(MF)
遺伝子産物の生化学的な活動を記述します。例えば、酵素活性やリガンド結合などがあります。
Gene Ontologyでは各定義に対して記号が割り振られており、これをGO termと呼びます。GO termは階層構造を持っており、下位のGO termがある遺伝子に関連付けられている場合、上位のGO termもその遺伝子に関連付けられていると見なされます。GO termの親をずっと辿っていくと、Biological Process、Cellular Component、Molecular Functionのいずれかに到達します。
GO term間の関係も定義されており、以下のような用語が主に使われます。
関係 | 説明 | 例 |
is a | 「B is a A」というのは、BがAの部分型であることを意味します。 | mitotic cell cycle is a cell cycle |
part of | 「B is part of A」というのは、AはBの一部であることを意味します。 | inner mitochondrial membrane is part of mitochondrion |
Gene Ontologyの例
GO解析とは?
GO解析を行うと、ある遺伝子のリストにおいて、遺伝子全体と比較して有意に多く観測されるGO termを検出できます。
たとえば、RNA-Seq解析を行った結果、発現が変動した遺伝子が357個検出されたとします。 このとき、対象とする遺伝子全体が9975個であり、遺伝子全体では「GO:0007156」を持つ遺伝子が71個存在していて、 発現変動遺伝子357個の中では「GO:0007156」を持つ遺伝子が13個含まれていた場合を考えます。
遺伝子全体からランダムに遺伝子を357個抽出した場合と比較してすると、発現変動遺伝子の中に「GO:0007156」を持つ遺伝子が有意に多く含まれているのでこのGO termがエンリッチされているとして検出されます。 なお、同様の検定をすべてのGO termについて行いますので、多重検定の補正を行なった上でエンリッチしているかどうかを判断します。
GO解析の結果例
GO解析の結果はDot plotによって表現されることがあります。 円の大きさはGO termを持つ遺伝子の数を示し、色はp値を示しています。
Dot plotの例
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
clusterProfilerやtopGO、GOseqといったGO解析が可能なパッケージが公開されていますので、これらを使用して解析を行うことができます。 ただし、GO解析を行うためには遺伝子のリストを準備する必要があり、RNA-Seq解析の生データ(FASTQファイル)からスタートする場合には事前に遺伝子発現量の定量や発現変動遺伝子抽出等の解析を行う必要があります。
RNA-Seqデータ解析ツールでは、 RNA-Seq解析の生データ(FASTQファイル)からスタートして遺伝子発現量の定量、発現変動遺伝子抽出、GO解析までをまとめて行うことができますので是非ご検討ください。