【DESeq2の使い方】発現変動遺伝子の検出
はじめに
次世代シーケンサーを用いてRNA-Seq解析を行うとそれぞれの遺伝子の発現量が得られます。複数のサンプルの遺伝子発現量の定量結果をもとに、グループ間比較を行うことで発現変動遺伝子の検出が行われます。
本ページでは、発現変動遺伝子を検出するソフトウェアであるDESeq2の使い方やインストール方法を解説します。
以下の操作が難しいと感じる場合には、WEBブラウザ上で簡単に発現変動遺伝子を検出できるツールも公開しておりますので、是非ご利用ください。
DESeq2のインストール
まずはじめに R がない場合には、R をインストールします。(以下はHomebrewを使ったインストール例です。)
$ brew install r
Rを起動して、以下を実行して BiocManager および DESeq2 をインストールします。
> if (!requireNamespace("BiocManager", quietly=TRUE))
> install.packages("BiocManager")
> BiocManager::install("DESeq2")
以下を実行して、エラーが表示されなければインストール成功です。
> library(DESeq2)
データの準備
DESeq2の使い方
> counts <- read.csv("counts.csv", sep=",", row.names=1)
> coldata <- data.frame(condition = factor(c("A", "A", "A", "A", "B", "B", "B", "B")))
> dds <- DESeqDataSetFromMatrix(countData = counts, colData = coldata, design = ~ condition)
> dds <- DESeq(dds)
estimating size factors
estimating dispersions
gene-wise dispersion estimates
mean-dispersion relationship
final dispersion estimates
fitting model and testing
カウントデータとサンプルの情報をDESeqDataSetFromMatrix関数に渡しました。 sample1~4とsample5~8の2群比較を行いたいので、サンプルをAとBの2群に分けました。
以下で結果を表示できます。
> res <- results(dds)
> res
log2 fold change (MLE): condition B vs A
Wald test p-value: condition B vs A
DataFrame with 62696 rows and 8 columns
baseMean log2FoldChange lfcSE stat pvalue padj
<numeric> <numeric> <numeric> <numeric> <numeric> <numeric>
ENSG00000290825.1 0.0000 NA NA NA NA NA
ENSG00000223972.6 0.0000 NA NA NA NA NA
ENSG00000227232.5 11.4438 -0.619619 0.758925 -0.816443 0.414247 NA
ENSG00000278267.1 1.6048 -0.826152 1.974423 -0.418427 0.675635 NA
ENSG00000243485.5 0.0000 NA NA NA NA NA
... ... ... ... ... ... ...
ENSG00000198695.2 0 NA NA NA NA NA
ENSG00000210194.1 0 NA NA NA NA NA
ENSG00000198727.2 0 NA NA NA NA NA
ENSG00000210195.2 0 NA NA NA NA NA
ENSG00000210196.2 0 NA NA NA NA NA
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。