【featureCountsの使い方】RNA-Seq解析における遺伝子発現量の定量

はじめに

次世代シーケンサーを用いてRNA-Seq解析を行うと、FASTQファイルと呼ばれる生データが得られます。生データを参照配列にマッピングした後に、それぞれの遺伝子にマッピングされたリードをカウントすることによって遺伝子発現量を定量していきます。

本ページではリードカウントのソフトウェアであるfeatureCountsの使い方を説明します。

インストール

biocondaを利用してインストールするのが簡単です。featureCountsはSubreadというパッケージの中に含まれていますので、Subreadをインストールしていきます。

$ conda install -c bioconda subread

ヘルプを表示してみます。

$ featureCounts

以下のように表示されればインストール成功です。

Version 2.0.1 Usage: featureCounts [options] -a <annotation_file> -o <output_file> input_file1 [input_file2] ... ## Mandatory arguments: -a <string> Name of an annotation file. GTF/GFF format by default. See -F option for more format information. Inbuilt annotations (SAF format) is available in 'annotation' directory of the package. Gzipped file is also accepted. ...

リードカウントの実施

以下のコマンドでリードをカウントしていきます。sample1, sample2, sample3, sample4 の4つのサンプルを対象として行なっています。

$ featureCounts -p -t exon -g gene_id -a annotation.gtf -o counts.txt sample1.bam sample2.bam sample3.bam sample4.bam

オプションの説明

オプション説明
-pペアリードの場合で、リードではなくフラグメントでカウントしたい場合に使います
-t集計対象とするGTFファイルのfeature typeを指定します。デフォルトはexonです。
-g集計単位とするGTFファイルのattributeを指定します。デフォルトでgene_idです。

この例では、リードではなくフラグメントでカウントしており、exonにマップされたリードを集計対象としていて、gene_idごとに集計を行っています。

結果

以下のような結果が得られました。

featureCountsの結果

一行目では、使用したfeatureCountsのバージョンとコマンドが記載されており、7カラム目以降にリードカウントの結果が記載されています。

1~6カラム目については、以下のような内容となっています。

カラムカラム名説明
1GeneidGene ID
2Chr染色体
3Startexonの開始位置。セミコロン区切りですべてのexonについて記載。
4Endexonの終了位置。セミコロン区切りですべてのexonについて記載。
5Strandexonの向き。セミコロン区切りですべてのexonについて記載。
6Length遺伝子の長さ。exonにオーバーラップがある場合には、すべてのexonの長さの合計より短くなる。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。