FASTAファイル/FASTA形式とは
はじめに
FASTAファイルとはFASTA形式で書かれたファイルで、塩基配列やアミノ酸配列を記述したファイルです。 拡張子は「.fasta」、「.fa」、「.fna」、「.fas」等が使われます。
">"で始まる行には、配列の名前やID、説明等が記述されます。その次の行から次の">"の行の前までが、1つの配列情報となっています。
改行は配列の途中で自由に入れることができます。 改行が入っている場合には、一行が数十文字程度に揃えられていることが多いです。 通常のテキストエディタを利用して配列の検索を行う場合に、改行を挟んだ配列を検索できませんので注意が必要です。
塩基配列だけでなく、そのクオリティスコアも含めて記述するファイルはFASTQファイルと呼ばれます。FASTQファイルの詳しい説明はこちらからご覧ください。
FASTAファイルの例
>NC_003070.9 Arabidopsis thaliana chromosome 1 sequence
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCC
TACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGT
GTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCA
...
>NC_003076.8 Arabidopsis thaliana chromosome 5 sequence
TATACCATGTACCCTCAACCTTAAAACCCTAAAACCTATACTATAAATCTTTAAAACCTATACTCTAAAC
CATAGGGTTTGTGAGTTTGCATAAAGTGTCACGTATAAGTGTTTCTAACATGTGAGTTTGCATAAGAGTC
TCGACTATGTGTTTGTTCAAAAGTGACGTAAGTGTTTAGACTAGAGCCGGCCGTGAGCACAAGCGGGCCA
...
FASTAファイルで使用される核酸塩基
文字 | 核酸塩基 |
---|---|
G | グアニン |
C | シトシン |
A | アデニン |
T | チミン |
M | アデニン or シトシン |
R | アデニン or グアニン |
W | アデニン or チミン |
S | シトシン or グアニン |
Y | シトシン or チミン |
K | グアニン or チミン |
V | アデニン or シトシン or グアニン |
H | アデニン or シトシン or チミン |
D | アデニン or グアニン or チミン |
B | シトシン or グアニン or チミン |
N | アデニン or シトシン or グアニン or チミン |
- | ギャップ |
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。