【BWAの使い方】ゲノム解析におけるマッピング
はじめに
BWA(Burrows-Wheeler Aligner)は、次世代シーケンサーから得られたリード配列(FASTQファイル)を参照ゲノム配列にマッピングするためのソフトウェアです。 BWAはDNAシーケンスデータのマッピングに広く使用されており、特にゲノムリシーケンスやChIP-Seq解析などでよく使われています。
BWAにはいくつかのアルゴリズムが含まれています。
- BWA-backtrack: 100bp以下のIlluminaリードに適したアルゴリズムです。
- BWA-SW: 70bp〜1Mbpのリードに対応しており、ロングリードやスプリットアライメントをサポートしています。
- BWA-MEM: 70bp〜1Mbpのリードに対応しており、BWA-SWと同様にロングリードやスプリットアライメントをサポートしつつ、より高速・高精度です。70-100bpのIlluminaリードに対してもBWA-backtrackより高いパフォーマンスを発揮するため、現在最も推奨されているアルゴリズムです。
本ページでは、現在最もよく使われるBWA-MEMの使い方を中心に説明します。
RNA-Seqにおけるマッピングには、スプライスジャンクションを考慮したHISAT2やSTARが一般的に使用されます。BWAはスプライスジャンクションを考慮しないため、全ゲノムシーケンス(WGS)やエクソームシーケンス、ChIP-Seqなど、DNAシーケンスデータのマッピングに主に使用されます。
インストール
Bioconda経由でインストールできます。
ヘルプを表示してみます。
以下のように表示されればインストール成功です。
index作成
マッピングを行う前に、参照配列のindexを作成する必要があります。
genome.faはマッピングしたい参照配列のFASTAファイルです。
この操作によりgenome.fa.amb、genome.fa.ann、genome.fa.bwt、genome.fa.pac、genome.fa.saの5つのファイルが作成されます。 indexファイルは文字列を高速に検索するために必要なファイルで、BWAに限らずほぼすべてのマッピングソフトウェアにおいて事前作成が必要です。
マッピング(BWA-MEM)
以下のコマンドでペアエンドリードのマッピングを行います。
-tオプションでスレッド数を指定しています。この操作によりSAMファイルが出力されます。
シングルエンドリードの場合は、FASTQファイルを1つだけ指定します。
出力されたSAMファイルは、BAMファイルに変換してソートしておくと便利なので以下の操作を行います。
samtools indexで作成されるインデックスは、IGV等のゲノムブラウザでの閲覧や、多くの下流解析ツールで必要になります。
BWA-MEM2について
BWA-MEM2はBWA-MEMの後継ソフトウェアで、BWA-MEMよりも高速にマッピングを行うことができます。 使い方はBWA-MEMとほぼ同様です。
Bioconda経由でインストールできます。
index作成とマッピングは以下のように行います。
BWA-MEMと同じ結果が得られますが、処理速度が大幅に向上しています。特に大規模なデータを扱う場合にはBWA-MEM2の利用を検討すると良いでしょう。
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。