【Salmonの使い方】超高速なRNA-Seqの遺伝子発現量定量

はじめに

Salmonは超高速なRNA-Seqの遺伝子発現量定量ソフトウェアです。 多くの遺伝子発現量定量ソフトウェアでは事前にマッピング処理が必要ですが、Salmonでは不要です。 Salmonでは擬似的なマッピング処理(Quasi-Mapping)を行い、その結果をもとに遺伝子発現定量を行うことで高速な処理を実現しています。

RNA-Seq解析の受託を検討している方はこちらにて一括見積が可能です。 また、通常のマッピング処理を行うRNA-Seqのデータ解析の一連の流れはこちらをご覧ください。

インストール

バイナリが用意されているので環境が適している場合にはそちらを使用すると良さそうです。

$ wget https://github.com/COMBINE-lab/salmon/releases/download/v1.10.0/salmon-1.10.0_linux_x86_64.tar.gz $ tar -zxvf salmon-1.10.0_linux_x86_64.tar.gz

condaでもインストールできます。

$ conda install -c bioconda salmon

ヘルプを表示してみます。

$ salmon -h

以下のような内容が表示されれば成功です。

salmon -h salmon v1.10.0 Usage: salmon -h|--help or salmon -v|--version or salmon -c|--cite or salmon [--no-version-check] <COMMAND> [-h | options] Commands: index : create a salmon index quant : quantify a sample alevin : single cell analysis swim : perform super-secret operation quantmerge : merge multiple quantifications into a single file

index作成

まず以下のコマンドで参照配列のindexを作成していきます。

$ salmon index -t cdna.fasta.gz -i salmon_index

cdna.fasta.gzは転写産物のFASTAファイルです。ヒトであれば、Ensemblで公開されているHomo_sapiens.GRCh38.cdna.all.faのようなファイルを用いれば良いでしょう。

salmon_indexディレクトリ内に以下のような遺伝子発現定量に必要なファイルが作成されました。

complete_ref_lens.bin duplicate_clusters.tsv pos.bin refAccumLengths.bin refseq.bin ctable.bin info.json pre_indexing.log ref_indexing.log seq.bin ctg_offsets.bin mphf.bin rank.bin reflengths.bin versionInfo.json

遺伝子発現量定量

次に、遺伝子発現の定量を行なっていきます。

$ salmon quant -i salmon_index -l A -1 sample1_1.fastq.gz -2 sample1_2.fastq.gz --validateMappings -o sample1_salmon_result

validateMappingsオプションはマッピングの感度と特異度が向上するオプションです。少し解析時間は増えますが、基本的にはオンにすることが推奨されています。

発現量の結果は以下のようにresultディレクトリの中のquant.sfに保存されています。

Name Length EffectiveLength TPM NumReads AT1G76820.1 3857 3712.468 0.000000 0.000 ATMG00060.1 542 397.697 21.821769 83.000 AT4G16360.1 1685 1540.468 25.317486 373.000 AT5G26800.1 637 492.546 33.540907 158.000 AT4G16110.1 2666 2521.468 16.545652 399.000 AT5G39100.1 808 663.507 0.000000 0.000 AT4G15130.1 1234 1089.468 40.518705 422.188 ATMG01320.1 922 777.486 20.897638 155.391 ...

発現変動遺伝子(DEG)抽出の準備

DESeq2やedgeRで解析ができるように、tximportを用いて以下のようにテーブルにまとめます。
library(tximport) files <- file.path(list.files('.', pattern = 'salmon_result'), 'quant.sf') names(files) <- c('sample1', 'sample2', 'sample3', ...) txi <- tximport(files, type = "salmon", txOut = TRUE) head(txi$counts)
以下でCSVファイルに出力できます。
write.csv(txi$counts, file="counts.csv")

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。