【STARの使い方】RNA-Seq解析におけるマッピング
はじめに
RNA-Seqのシーケンスデータを用いて遺伝子発現量を定量していく際に、一般的に事前にマッピング処理を行います。 マッピングとはリード配列 (FASTQファイル)を参照配列の一致する箇所に並べていく処理のことを言います。 RNA-Seqのマッピングによく使われるソフトウェアとして、HISAT2、STAR、Bowtie2といったものがあります。 本ページではSTARの使い方を説明します。
RNA-Seq解析の受託を検討している方はこちらにて一括見積が可能です。 また、RNA-Seqのデータ解析の一連の流れはこちらをご覧ください。
インストール
STARの公式の情報では、哺乳類のゲノムを扱うには少なくともメモリ16GB、理想的には32GBが必要と書かれていますのでこの点注意が必要です。
Bioconda経由でインストールできます。
ヘルプを表示してみます。
以下のように表示されればインストール成功です。
index作成
以下のコマンドでindexを作成します。
--genomeFastaFilesで参照配列のFASTAファイル、--sjdbGTFfileでそのアノテーション(GTFファイル)を渡しています。 「genome」ディレクトリにindexが作成されました。
ちなみに、ヒトのゲノムに対してメモリ16GBの環境で解析を行なった場合に、上記のコマンドでは途中でエラーとなってしまいました。 私の環境では、--limitGenomeGenerateRAMと--genomeSAsparseDオプションを使うことで無事indexを作成することができました。
indexファイルは文字列を高速に検索するために必要なファイルで、STARに限らずほぼすべてのマッピングソフトウェアにおいて事前作成が必要です。
マッピング
以下のコマンドでマッピング処理を行います。
無事マッピング結果が得られました。
--outSAMtype BAM SortedByCoordinateオプションを付けておくことで、ソート済みのBAMファイルが出力されます。
結果をIGV等のゲノムブラウザで可視化すると以下のようにマッピングされた様子が確認できます。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
以下のような方にオススメのRNA-Seqデータ解析ツールです。
✔︎ 外部委託や共同研究者への依頼は行いたくない
✔︎ 自分で解析手法を勉強する時間がない
✔︎ 他社のソフトウェアを試したが操作が難しいと感じた

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。