【Salmonの使い方】超高速なRNA-Seqの遺伝子発現量定量 はじめに Salmonは超高速なRNA-Seqの遺伝子発現量定量ソフトウェアです。 多くの遺伝子発現量定量ソフトウェアでは事前にマッピング処理が必要ですが、Salmonでは不要です。 Salmonでは擬似的なマッピング処理(Quasi-Mapping)を行い、その結果をもとに遺伝子発現定量を行うことで高速な処理を実現しています。
RNA-Seq解析の受託を検討している方はこちら にて一括見積が可能です。 また、通常のマッピング処理を行うRNA-Seqのデータ解析の一連の流れはこちら をご覧ください。
インストール バイナリが用意されているので環境が適している場合にはそちらを使用すると良さそうです。
$ wget https://github.com/COMBINE-lab/salmon/releases/download/v1.10.0/salmon-1.10.0_linux_x86_64.tar.gz
$ tar -zxvf salmon-1.10.0_linux_x86_64.tar.gz
condaでもインストールできます。
$ conda install -c bioconda salmon
ヘルプを表示してみます。
$ salmon -h
以下のような内容が表示されれば成功です。
salmon -h
salmon v1.10.0
Usage: salmon -h|--help or
salmon -v|--version or
salmon -c|--cite or
salmon [--no-version-check] <COMMAND> [-h | options]
Commands:
index : create a salmon index
quant : quantify a sample
alevin : single cell analysis
swim : perform super-secret operation
quantmerge : merge multiple quantifications into a single file
index作成 まず以下のコマンドで参照配列のindexを作成していきます。
$ salmon index -t cdna.fasta.gz -i salmon_index
cdna.fasta.gzは転写産物のFASTAファイル です。ヒトであれば、Ensemblで公開されているHomo_sapiens.GRCh38.cdna.all.faのようなファイルを用いれば良いでしょう。
salmon_indexディレクトリ内に以下のような遺伝子発現定量に必要なファイルが作成されました。
complete_ref_lens.bin duplicate_clusters.tsv pos.bin refAccumLengths.bin refseq.bin
ctable.bin info.json pre_indexing.log ref_indexing.log seq.bin
ctg_offsets.bin mphf.bin rank.bin reflengths.bin versionInfo.json
遺伝子発現量定量 次に、遺伝子発現の定量を行なっていきます。
$ salmon quant -i salmon_index -l A -1 sample1_1.fastq.gz -2 sample1_2.fastq.gz --validateMappings -o sample1_salmon_result
validateMappingsオプションはマッピングの感度と特異度が向上するオプションです。少し解析時間は増えますが、基本的にはオンにすることが推奨 されています。
発現量の結果は以下のようにresultディレクトリの中のquant.sfに保存されています。
Name Length EffectiveLength TPM NumReads
AT1G76820.1 3857 3712.468 0.000000 0.000
ATMG00060.1 542 397.697 21.821769 83.000
AT4G16360.1 1685 1540.468 25.317486 373.000
AT5G26800.1 637 492.546 33.540907 158.000
AT4G16110.1 2666 2521.468 16.545652 399.000
AT5G39100.1 808 663.507 0.000000 0.000
AT4G15130.1 1234 1089.468 40.518705 422.188
ATMG01320.1 922 777.486 20.897638 155.391
...
発現変動遺伝子(DEG)抽出の準備 DESeq2やedgeRで解析ができるように、tximportを用いて以下のようにテーブルにまとめます。
library(tximport)
files <- file.path(list.files('.', pattern = 'salmon_result'), 'quant.sf')
names(files) <- c('sample1', 'sample2', 'sample3', ...)
txi <- tximport(files, type = "salmon", txOut = TRUE)
head(txi$counts)
以下でCSVファイルに出力できます。write.csv(txi$counts, file="counts.csv")
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール RNA-Seqデータ解析ツール を利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツールへ