【RSEMの使い方】RNA-Seq解析における遺伝子発現量の定量

はじめに

次世代シーケンサーを用いてRNA-Seq解析を行うと、FASTQファイルと呼ばれる生データが得られます。生データを参照配列にマッピングした後に、それぞれの遺伝子にマッピングされたリードをカウントすることによって遺伝子発現量を定量していきます。

本ページではマッピング結果から遺伝子ごと・アイソフォームごとの発現量を推定するソフトウェアであるRSEMの使い方を説明します。

インストール

Bioconda経由でインストールできます。

$ conda install -c bioconda rsem

ヘルプを表示してみます。

$ rsem-prepare-reference -h

以下のように表示されればインストール成功です。

NAME rsem-prepare-reference - Prepare transcript references for RSEM and optionally build BOWTIE/BOWTIE2/STAR/HISAT2(transcriptome) indices. SYNOPSIS rsem-prepare-reference [options] reference_fasta_file(s) reference_name ARGUMENTS reference_fasta_file(s) Either a comma-separated list of Multi-FASTA formatted files OR a directory name. If a directory name is specified, RSEM will read all files with suffix ".fa" or ".fasta" in this directory. The files should contain either the sequences of transcripts or an entire genome, depending on whether the '--gtf' option is used. ... ...

index作成

以下のコマンドでindexを作成します。RSEM経由でマッピング処理も行うことができますので、その場合にはこのタイミングでマッピング用のindexも作成します。 マッピング処理に使用するソフトウェアはBowtie、Bowtie2、STAR、Hisat2から選べますが、今回はHisat2を使用しました。

$ rsem-prepare-reference --gtf annotation.gtf --hisat2-hca --hisat2-path [hisat2へのパス] reference.fa index/reference

リードカウント

以下のコマンドでマッピング処理とリードのカウントを行っていきます。

$ rsem-calculate-expression --hisat2-hca --hisat2-path [hisat2へのパス] --paired-end read_1.fastq.gz read_2.fastq.gz index/reference sample1

遺伝子ごとの結果は「sample1.genes.results」、アイソフォームごとの結果は「sample1.isoforms.results」に出力されています。

遺伝子ごとの結果RSEMの結果(遺伝子ごと)
アイソフォームごとの結果RSEMの結果(アイソフォームごと)

マージ

複数のサンプルについて解析を行ったら、結果をマージすることもできます。sample1 ~ sample4の結果についてマージしていきます。

$ rsem-generate-data-matrix sample1.genes.results sample2.genes.results sample3.genes.results sample4.genes.results > all.genes.results $ rsem-generate-data-matrix sample1.isoforms.results sample2.isoforms.results sample3.isoforms.results sample4.isoforms.results > all.isoforms.results

以下のように結果が得られました。

遺伝子ごとの結果RSEMのマージ結果(遺伝子ごと)
アイソフォームごとの結果RSEMのマージ結果(アイソフォームごと)

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。