【STARの使い方】RNA-Seq解析におけるリードのマッピング

はじめに

RNA-Seqのシーケンスデータを用いて遺伝子発現量を定量していく際に、一般的に事前にマッピング処理を行います。 マッピングとはリード配列 (FASTQファイル)を参照配列の一致する箇所に並べていく処理のことを言います。 RNA-Seqのマッピングによく使われるソフトウェアとして、HISAT2、STAR、Bowtie2といったものがあります。 本ページではSTARの使い方を説明します。

RNA-Seq解析の受託を検討している方はこちらにて一括見積が可能です。 また、RNA-Seqのデータ解析の一連の流れはこちらをご覧ください。

インストール

STARの公式の情報では、哺乳類のゲノムを扱うには少なくともメモリ16GB、理想的には32GBが必要と書かれていますのでこの点注意が必要です。

Bioconda経由でインストールできます。

$ conda install -c bioconda star

ヘルプを表示してみます。

$ star --help

以下のように表示されればインストール成功です。

Usage: STAR [options]... --genomeDir /path/to/genome/index/ --readFilesIn R1.fq R2.fq Spliced Transcripts Alignment to a Reference (c) Alexander Dobin, 2009-2020 STAR version=2.7.10a STAR compilation time,server,dir= :/Users/travis/build/alexdobin/travis-tests/STARcompile/source For more details see: <https://github.com/alexdobin/STAR> <https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf> ### versions versionGenome 2.7.4a string: earliest genome index version compatible with this STAR release. Please do not change this value! ### Parameter Files parametersFiles - string: name of a user-defined parameters file, "-": none. Can only be defined on the command line. ...

index作成

以下のコマンドでindexを作成します。

$ mkdir genome $ star --runThreadN 4 --runMode genomeGenerate --genomeDir genome --genomeFastaFiles genome.fa --sjdbGTFfile annotation.gtf

--genomeFastaFilesで参照配列のFASTAファイル、--sjdbGTFfileでそのアノテーション(GTFファイル)を渡しています。

「genome」ディレクトリにインデックスが作成されました。

ちなみに、ヒトのゲノムに対してメモリ16GBの環境で解析を行なっていましたので、上記のコマンドでは途中でエラーとなってしまいました。 私の環境では、--limitGenomeGenerateRAMと--genomeSAsparseDオプションを使うことで無事インデックスを作成することができました。

マッピング

以下のコマンドでマッピング処理を行います。

$ star --runThreadN 4 --genomeDir genome --readFilesIn read_1.fastq.gz read_2.fastq.gz --readFilesCommand gunzip -c --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample1

無事マッピング結果のBAMファイルが得られました。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。