FASTAファイル/FASTA形式とは
はじめに
FASTAファイルとはFASTA形式で書かれたファイルで、塩基配列やアミノ酸配列を記述したファイルです。
">"で始まる行には、配列の名前やID、説明等が記述されます。その次の行から次の">"の行の前までが、1つの配列情報となっています。
改行は配列の途中で自由に入れることができます。 改行が入っている場合には、一行が数十文字程度に揃えられていることが多いです。 通常のテキストエディタを利用して配列の検索を行う場合に、改行を挟んだ配列を検索できませんので注意が必要です。
塩基配列だけでなく、そのクオリティスコアも含めて記述するファイルはFASTQファイルと呼ばれます。FASTQファイルの詳しい説明はこちらからご覧ください。
FASTAファイルの例
>NC_003070.9 Arabidopsis thaliana chromosome 1 sequence
CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCC
TACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGT
GTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCA
...
>NC_003076.8 Arabidopsis thaliana chromosome 5 sequence
TATACCATGTACCCTCAACCTTAAAACCCTAAAACCTATACTATAAATCTTTAAAACCTATACTCTAAAC
CATAGGGTTTGTGAGTTTGCATAAAGTGTCACGTATAAGTGTTTCTAACATGTGAGTTTGCATAAGAGTC
TCGACTATGTGTTTGTTCAAAAGTGACGTAAGTGTTTAGACTAGAGCCGGCCGTGAGCACAAGCGGGCCA
...
使用される塩基配列
文字 | 核酸塩基 |
---|---|
G | グアニン |
C | シトシン |
A | アデニン |
T | チミン |
M | アデニン or シトシン |
R | アデニン or グアニン |
W | アデニン or チミン |
S | シトシン or グアニン |
Y | シトシン or チミン |
K | グアニン or チミン |
V | アデニン or シトシン or グアニン |
H | アデニン or シトシン or チミン |
D | アデニン or グアニン or チミン |
B | シトシン or グアニン or チミン |
N | アデニン or シトシン or グアニン or チミン |
- | ギャップ |