>
> GFFファイルとは?

GFFファイルとは?

更新日: 2025-06-13

はじめに

GFF(General Feature Format)ファイルは、ゲノム上の遺伝子やその構成要素(転写産物、エクソン、CDSなど)の位置情報を記録するためのファイル形式です。 拡張子は「.gff」もしくは「.gff3」とすることが多く、gzip圧縮されて「.gff.gz」「.gff3.gz」とされることもあります。 EnsemblやUCSC等から配布されている遺伝子アノテーションは、GTF形式またはGFF形式で提供されています。

本記事では、GFFファイルの基本構造とGTFファイルとの違いについて解説します。

GFFフォーマット

GFFファイルの1行は1つのゲノム上の特徴を表し、タブ区切りで9つのフィールドを持ちます。 1列目から8列目まではGTFフォーマットと同様です。

フィールド名説明
1seqname染色体名(例: chr1, 1)
2sourceアノテーションの由来(例: ensembl)
3feature特徴の種類(例: gene, exon, CDS)
4start開始座標
5end終了座標
6scoreスコア
7strand+ (forward) または - (reverse)
8frameCDSの読み枠(0, 1, 2)
9attribute属性情報(キーと値のペア)

GFFファイルの例

1 havana pseudogene 10054445 10054781 . - . ID=gene:ENSG00000224340;Name=RPL21P21;biotype=processed_pseudogene;description=ribosomal protein L21 pseudogene 21 [Source:HGNC Symbol%3BAcc:HGNC:35728];gene_id=ENSG00000224340;logic_name=havana_homo_sapiens;version=1 1 havana pseudogenic_transcript 10054445 10054781 . - . ID=transcript:ENST00000456484;Parent=gene:ENSG00000224340;Name=RPL21P21-201;biotype=processed_pseudogene;tag=gencode_basic,gencode_primary,Ensembl_canonical;transcript_id=ENST00000456484;transcript_support_level=NA;version=1 1 havana exon 10054445 10054781 . - . Parent=transcript:ENST00000456484;Name=ENSE00001599927;constitutive=1;ensembl_end_phase=-1;ensembl_phase=-1;exon_id=ENSE00001599927;rank=1;version=1

属性情報(attributes)

attributes欄には、各行に関する追加情報をセミコロン区切りの「key=value」で記述します。以下は主な属性情報の例です。

主な属性情報の例

キー説明
ID要素の一意な識別子
Parent親要素のID。階層構造を示す
Name表示名(例: BRCA1)

GFFファイルとGTFファイルの違い

GTFはGFF2(GFFバージョン2)とほぼ同一です。 一般的に「GFF」といった場合にはGFF3(GFFバージョン3)を指すことが多いです。

GTFとGFF3の大きな違いとして、属性情報の記述方法の違いがあります。 GTFでは「key "value"」の形式で記述されるのに対し、GFF3では「key=value」の形式が使われます。 加えて、GFF3ではID および Parent 属性を用いることで、遺伝子・転写産物・エクソンといった階層的な親子関係を明示的に記述できます。

このような違いはありますが、GTFとGFF3の形式は基本的に相互変換が可能です。 使用するソフトウェアによっては、GTF形式またはGFF3形式のいずれか一方しか扱えないこともあるため、対応形式を確認し、それに合わせて選択することが重要です。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。

合同会社BxINFOロゴ

合同会社BxINFO

バイオインフォマティクスを専門とする研究支援企業です。

RNA-Seq解析を中心に、ライフサイエンスの研究に役立つツール・情報を提供しています。

→ 詳しくはこちら