【featureCountsの使い方】RNA-Seq解析における遺伝子発現量の定量
はじめに
次世代シーケンサーを用いてRNA-Seq解析を行うと、FASTQファイルと呼ばれる生データ(リード)が得られます。 各リードを参照配列にマッピングした後に、それぞれの遺伝子にマッピングされたリードをカウントすることによって遺伝子発現量が定量されます。
本ページではリードカウントのソフトウェアであるfeatureCountsの使い方を説明します。
インストール
biocondaを利用してインストールするのが簡単です。featureCountsはSubreadというパッケージの中に含まれていますので、Subreadをインストールしていきます。
ヘルプを表示してみます。
以下のように表示されればインストール成功です。
リードカウントの実施
以下のコマンドでリードをカウントしていきます。sample1, sample2, sample3, sample4 の4つのサンプルを対象として行なっています。
オプションの説明
オプション | 説明 |
-p | ペアリードの場合で、リードではなくフラグメントでカウントしたい場合に使います。 |
-t | 集計対象とするGTFファイルのfeature typeを指定します。デフォルトはexonです。 |
-g | 集計単位とするGTFファイルのattributeを指定します。デフォルトでgene_idです。 |
この例では、リードではなくフラグメントでカウントしており、exonにマップされたリードを集計対象としていて、gene_idごとに集計を行っています。
結果
以下のような結果が得られました。
一行目では、使用したfeatureCountsのバージョンとコマンドが記載されており、7カラム目以降にリードカウントの結果が記載されています。
1~6カラム目については、以下のような内容となっています。
カラム | カラム名 | 説明 |
1 | Geneid | Gene ID |
2 | Chr | 染色体 |
3 | Start | exonの開始位置。セミコロン区切りですべてのexonについて記載。 |
4 | End | exonの終了位置。セミコロン区切りですべてのexonについて記載。 |
5 | Strand | exonの向き。セミコロン区切りですべてのexonについて記載。 |
6 | Length | 遺伝子の長さ。exonにオーバーラップがある場合には、すべてのexonの長さの合計より短くなる。 |
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。