【HISAT2の使い方】RNA-Seq解析におけるマッピング

はじめに

RNA-Seq解析によって得られたシーケンスデータを用いて遺伝子発現量を定量していく際に、一般的にマッピング処理が行われます。 マッピングとはリード配列 (FASTQファイル)を参照配列の一致する箇所に並べていく処理のことを言います。 RNA-Seqにおけるマッピングによく使われるソフトウェアとして、HISAT2、STARBowtie2といったものがあります。 本ページではHISAT2の使い方を説明します。

RNA-Seqのデータ解析の一連の流れはこちらをご覧ください。

インストール

こちらにバイナリが用意されているのでダウンロードします。

HISAT2ダウンロード

解凍してパスを通しておきましょう。(以下はMacの場合です。)

$ unzip hisat2-2.2.1-OSX_x86_64.zip

ヘルプを表示してみます。

$ hisat2 -h

以下のような内容が表示されれば成功です。

HISAT2 version 2.2.1 by Daehwan Kim (infphilo@gmail.com, www.ccb.jhu.edu/people/infphilo) Usage: hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <sam>] <ht2-idx> Index filename prefix (minus trailing .X.ht2). <m1> Files with #1 mates, paired with files in <m2>. Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <m2> Files with #2 mates, paired with files in <m1>. Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <r> Files with unpaired reads. Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <SRA accession number> Comma-separated list of SRA accession numbers, e.g. --sra-acc SRR353653,SRR353654. <sam> File for SAM output (default: stdout) <m1>, <m2>, <r> can be comma-separated lists (no whitespace) and can be specified many times. E.g. '-U file1.fq,file2.fq -U file3.fq'. ...

index作成(build)

まず以下のコマンドで参照配列のindexを作成していきます。

$ hisat2-build genome.fa genome

genome.faはマッピングしたい参照配列のFASTAファイルです。

この操作によりgenome.1.ht2 ~ genome.8.ht2 の8つのファイルが作成されます。 indexファイルは文字列を高速に検索するために必要なファイルで、HISAT2に限らずほぼすべてのマッピングソフトウェアにおいて事前作成が必要です。

マッピング

次に、リード配列を参照配列にマッピングしていきます。

$ hisat2 -x genome -1 reads1.fastq.gz -2 reads2.fastq.gz -S output.sam

この操作によりSAMファイルが出力されました。SAMファイルはマッピング結果のファイルですが、BAMファイルに変換してソートしておくと便利なので以下の操作を行います。

$ samtools view -bS output.sam > output.bam $ samtools sort output.bam > output.sorted.bam

結果をIGV等のゲノムブラウザで可視化すると以下のようにマッピングされた様子が確認できます。

マッピング結果

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。