FASTAファイル/FASTA形式とは

はじめに

FASTAファイルとはFASTA形式で書かれたファイルで、塩基配列やアミノ酸配列を記述したファイルです。

">"で始まる行には、配列の名前やID、説明等が記述されます。その次の行から次の">"の行の前までが、1つの配列情報となっています。

改行は配列の途中で自由に入れることができます。 改行が入っている場合には、一行が数十文字程度に揃えられていることが多いです。 通常のテキストエディタを利用して配列の検索を行う場合に、改行を挟んだ配列を検索できませんので注意が必要です。

塩基配列だけでなく、そのクオリティスコアも含めて記述するファイルはFASTQファイルと呼ばれます。FASTQファイルの詳しい説明はこちらからご覧ください。

FASTAファイルの例

>NC_003070.9 Arabidopsis thaliana chromosome 1 sequence CCCTAAACCCTAAACCCTAAACCCTAAACCTCTGAATCCTTAATCCCTAAATCCCTAAATCTTTAAATCC TACATCCATGAATCCCTAAATACCTAATTCCCTAAACCCGAAACCGGTTTCTCTGGTTGAAAATCATTGT GTATATAATGATAATTTTATCGTTTTTATGTAATTGCTTATTGTTGTGTGTAGATTTTTTAAAAATATCA ... >NC_003076.8 Arabidopsis thaliana chromosome 5 sequence TATACCATGTACCCTCAACCTTAAAACCCTAAAACCTATACTATAAATCTTTAAAACCTATACTCTAAAC CATAGGGTTTGTGAGTTTGCATAAAGTGTCACGTATAAGTGTTTCTAACATGTGAGTTTGCATAAGAGTC TCGACTATGTGTTTGTTCAAAAGTGACGTAAGTGTTTAGACTAGAGCCGGCCGTGAGCACAAGCGGGCCA ...

使用される塩基配列

文字核酸塩基
Gグアニン
Cシトシン
Aアデニン
Tチミン
Mアデニン or シトシン
Rアデニン or グアニン
Wアデニン or チミン
Sシトシン or グアニン
Yシトシン or チミン
Kグアニン or チミン
Vアデニン or シトシン or グアニン
Hアデニン or シトシン or チミン
Dアデニン or グアニン or チミン
Bシトシン or グアニン or チミン
Nアデニン or シトシン or グアニン or チミン
-ギャップ