はじめに
次世代シーケンサーを用いてRNA-Seq解析を行うと、FASTQファイルと呼ばれる生データが得られます。生データを参照配列にマッピングした後に、それぞれの遺伝子にマッピングされたリードをカウントすることによって遺伝子発現量を定量していきます。
本ページではマッピング結果から遺伝子ごと・アイソフォームごとの発現量を推定するソフトウェアであるRSEMの使い方を説明します。
インストール
Bioconda経由でインストールできます。
$ conda install -c bioconda rsem
ヘルプを表示してみます。
$ rsem-prepare-reference -h
以下のように表示されればインストール成功です。
NAME
rsem-prepare-reference - Prepare transcript references for RSEM and
optionally build BOWTIE/BOWTIE2/STAR/HISAT2(transcriptome) indices.
SYNOPSIS
rsem-prepare-reference [options] reference_fasta_file(s) reference_name
ARGUMENTS
reference_fasta_file(s)
Either a comma-separated list of Multi-FASTA formatted files OR a
directory name. If a directory name is specified, RSEM will read all
files with suffix ".fa" or ".fasta" in this directory. The files
should contain either the sequences of transcripts or an entire
genome, depending on whether the '--gtf' option is used.
...
...
index作成
以下のコマンドでindexを作成します。RSEM経由でマッピング処理も行うことができますので、その場合にはこのタイミングでマッピング用のindexも作成します。 マッピング処理に使用するソフトウェアはBowtie、Bowtie2、STAR、Hisat2から選べますが、今回はHisat2を使用しました。
$ rsem-prepare-reference --gtf annotation.gtf --hisat2-hca --hisat2-path [hisat2へのパス] reference.fa index/reference
リードカウント
以下のコマンドでマッピング処理とリードのカウントを行っていきます。
$ rsem-calculate-expression --hisat2-hca --hisat2-path [hisat2へのパス] --paired-end read_1.fastq.gz read_2.fastq.gz index/reference sample1
遺伝子ごとの結果は「sample1.genes.results」、アイソフォームごとの結果は「sample1.isoforms.results」に出力されています。
遺伝子ごとの結果
アイソフォームごとの結果
マージ
複数のサンプルについて解析を行ったら、結果をマージすることもできます。sample1 ~ sample4の結果についてマージしていきます。
$ rsem-generate-data-matrix sample1.genes.results sample2.genes.results sample3.genes.results sample4.genes.results > all.genes.results
$ rsem-generate-data-matrix sample1.isoforms.results sample2.isoforms.results sample3.isoforms.results sample4.isoforms.results > all.isoforms.results
以下のように結果が得られました。
遺伝子ごとの結果
アイソフォームごとの結果
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。