GFFファイルとは?
はじめに
GFF(General Feature Format)ファイルは、ゲノム上の遺伝子やその構成要素(転写産物、エクソン、CDSなど)の位置情報を記録するためのファイル形式です。 拡張子は「.gff」もしくは「.gff3」とすることが多く、gzip圧縮されて「.gff.gz」「.gff3.gz」とされることもあります。 EnsemblやUCSC等から配布されている遺伝子アノテーションは、GTF形式またはGFF形式で提供されています。
本記事では、GFFファイルの基本構造とGTFファイルとの違いについて解説します。
GFFフォーマット
GFFファイルの1行は1つのゲノム上の特徴を表し、タブ区切りで9つのフィールドを持ちます。 1列目から8列目まではGTFフォーマットと同様です。
列 | フィールド名 | 説明 |
---|---|---|
1 | seqname | 染色体名(例: chr1, 1) |
2 | source | アノテーションの由来(例: ensembl) |
3 | feature | 特徴の種類(例: gene, exon, CDS) |
4 | start | 開始座標 |
5 | end | 終了座標 |
6 | score | スコア |
7 | strand | + (forward) または - (reverse) |
8 | frame | CDSの読み枠(0, 1, 2) |
9 | attribute | 属性情報(キーと値のペア) |
GFFファイルの例
属性情報(attributes)
attributes欄には、各行に関する追加情報をセミコロン区切りの「key=value」で記述します。以下は主な属性情報の例です。
主な属性情報の例
キー | 説明 |
---|---|
ID | 要素の一意な識別子 |
Parent | 親要素のID。階層構造を示す |
Name | 表示名(例: BRCA1) |
GFFファイルとGTFファイルの違い
GTFはGFF2(GFFバージョン2)とほぼ同一です。 一般的に「GFF」といった場合にはGFF3(GFFバージョン3)を指すことが多いです。
GTFとGFF3の大きな違いとして、属性情報の記述方法の違いがあります。 GTFでは「key "value"」の形式で記述されるのに対し、GFF3では「key=value」の形式が使われます。 加えて、GFF3ではID および Parent 属性を用いることで、遺伝子・転写産物・エクソンといった階層的な親子関係を明示的に記述できます。
このような違いはありますが、GTFとGFF3の形式は基本的に相互変換が可能です。 使用するソフトウェアによっては、GTF形式またはGFF3形式のいずれか一方しか扱えないこともあるため、対応形式を確認し、それに合わせて選択することが重要です。
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。
この記事の著者
