【STARの使い方】RNA-Seq解析におけるリードのマッピング
はじめに
RNA-Seqのシーケンスデータを用いて遺伝子発現量を定量していく際に、一般的に事前にマッピング処理を行います。 マッピングとはリード配列 (FASTQファイル)を参照配列の一致する箇所に並べていく処理のことを言います。 RNA-Seqのマッピングによく使われるソフトウェアとして、HISAT2、STAR、Bowtie2といったものがあります。 本ページではSTARの使い方を説明します。
RNA-Seq解析の受託を検討している方はこちらにて一括見積が可能です。 また、RNA-Seqのデータ解析の一連の流れはこちらをご覧ください。
インストール
STARの公式の情報では、哺乳類のゲノムを扱うには少なくともメモリ16GB、理想的には32GBが必要と書かれていますのでこの点注意が必要です。
Bioconda経由でインストールできます。
ヘルプを表示してみます。
以下のように表示されればインストール成功です。
index作成
以下のコマンドでindexを作成します。
--genomeFastaFilesで参照配列のFASTAファイル、--sjdbGTFfileでそのアノテーション(GTFファイル)を渡しています。
「genome」ディレクトリにインデックスが作成されました。
ちなみに、ヒトのゲノムに対してメモリ16GBの環境で解析を行なっていましたので、上記のコマンドでは途中でエラーとなってしまいました。 私の環境では、--limitGenomeGenerateRAMと--genomeSAsparseDオプションを使うことで無事インデックスを作成することができました。
マッピング
以下のコマンドでマッピング処理を行います。
無事マッピング結果のBAMファイルが得られました。
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。