【Bowtie2の使い方】RNA-Seq解析におけるマッピング

はじめに

RNA-Seq解析によって得られたシーケンスデータを用いて遺伝子発現量を定量していく際に、一般的にマッピング処理が行われます。 マッピングとはリード配列 (FASTQファイル)を参照配列の一致する箇所に並べていく処理のことを言います。 RNA-Seqにおけるマッピングによく使われるソフトウェアとして、HISAT2STAR、 Bowtie2といったものがあります。 本ページではBowtie2の使い方を説明します。

RNA-Seqのデータ解析の一連の流れはこちらをご覧ください。

インストール

condaを利用してインストール可能です。

$ conda install -c bioconda bowtie2

ヘルプを表示してみます。

$ bowtie2 -h

以下のような内容が表示されれば成功です。

bowtie2 -h Bowtie 2 version 2.4.1 by Ben Langmead (langmea@cs.jhu.edu, www.cs.jhu.edu/~langmea) Usage: bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>] <bt2-idx> Index filename prefix (minus trailing .X.bt2). NOTE: Bowtie 1 and Bowtie 2 indexes are not compatible. <m1> Files with #1 mates, paired with files in <m2>. Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <m2> Files with #2 mates, paired with files in <m1>. Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <r> Files with unpaired reads. Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <i> Files with interleaved paired-end FASTQ/FASTA reads Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2). <bam> Files are unaligned BAM sorted by read name. <sam> File for SAM output (default: stdout) <m1>, <m2>, <r> can be comma-separated lists (no whitespace) and can be specified many times. E.g. '-U file1.fq,file2.fq -U file3.fq'. ...

index作成(build)

まず以下のコマンドで参照配列のindexを作成していきます。

$ bowtie2-build -f genome.fa genome

genome.faはマッピングしたい参照配列のFASTAファイルです。gzipで圧縮されたままでも問題ありません。

この操作によりgenome.1.bt2〜genome10.4.bt2とgenome.rev.1.bt2、genome.rev.2.bt2の6つのファイルが作成されます。 indexファイルは文字列を高速に検索するために必要なファイルで、Bowtie2に限らずほぼすべてのマッピングソフトウェアにおいて事前作成が必要です。

マッピング

次に、リード配列を参照配列にマッピングしていきます。

$ bowtie2 -x genome -1 reads1.fastq.gz -2 reads2.fastq.gz -S output.sam

この操作によりSAMファイルが出力されました。SAMファイルはマッピング結果のファイルですが、BAMファイルに変換してソートしておくと便利なので以下の操作を行います。

$ samtools view -bS output.sam > output.bam $ samtools sort output.bam > output.sorted.bam

結果をIGV等のゲノムブラウザで可視化すると以下のようにマッピングされた様子が確認できます。

マッピング結果

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。