>
> GTFファイルとは?

GTFファイルとは?

更新日: 2025-06-13

はじめに

GTF(Gene Transfer Format)ファイルは、ゲノム上の遺伝子やその構成要素(転写産物、エクソン、CDSなど)の位置情報を記録するためのファイル形式です。 拡張子は「.gtf」とすることが多く、gzip圧縮されて「.gtf.gz」とされることもあります。 EnsemblやUCSC等から配布されている遺伝子アノテーションは、GTF形式や、その類似形式であるGFF形式で提供されています。

本記事では、GTFファイルの基本構造とGFFファイルとの違いについて解説します。

GTFフォーマット

GTFファイルの1行は1つのゲノム上の特徴を表し、タブ区切りで9つのフィールドを持ちます。 1列目から8列目まではGFFフォーマットと同様です。

フィールド名説明
1seqname染色体名(例: chr1, 1)
2sourceアノテーションの由来(例: ensembl)
3feature特徴の種類(例: gene, exon, CDS)
4start開始座標
5end終了座標
6scoreスコア
7strand+ (forward) または - (reverse)
8frameCDSの読み枠(0, 1, 2)
9attribute属性情報(キーと値のペア)

GTFファイルの例

1 havana gene 10054445 10054781 . - . gene_id "ENSG00000224340"; gene_version "1"; gene_name "RPL21P21"; gene_source "havana"; gene_biotype "processed_pseudogene"; 1 havana transcript 10054445 10054781 . - . gene_id "ENSG00000224340"; gene_version "1"; transcript_id "ENST00000456484"; tr anscript_version "1"; gene_name "RPL21P21"; gene_source "havana"; gene_biotype "processed_pseudogene"; transcript_name "RPL21P21-201"; transcript_source "havana"; trans cript_biotype "processed_pseudogene"; tag "gencode_basic"; tag "Ensembl_canonical"; transcript_support_level "NA"; 1 havana exon 10054445 10054781 . - . gene_id "ENSG00000224340"; gene_version "1"; transcript_id "ENST00000456484"; transcript_version "1"; exon_number "1"; gene_name "RPL21P21"; gene_source "havana"; gene_biotype "processed_pseudogene"; transcript_name "RPL21P21-201"; transcript_source "havana"; transcript_biotype "processed_pseudogene"; exon_id "ENSE00001599927"; exon_version "1"; tag "gencode_basic"; tag "Ensembl_canonical"; transcript_support_level "NA"; ...

属性情報(attribute)

attribute欄には、各行に関する追加情報をセミコロン区切りの「key "value"」で記述します。以下は主な属性情報の例です。

主な属性情報の例

キー説明
gene_id遺伝子ID
transcript_id転写産物ID
gene_name遺伝子名(例: TP53)
gene_biotype遺伝子の種類(例: protein_coding)
exon_numberエクソン番号

GTFファイルとGFFファイルの違い

GTFはGFF2(GFFバージョン2)とほぼ同一です。 一般的に「GFF」といった場合にはGFF3(GFFバージョン3)を指すことが多いです。

GTFとGFF3の大きな違いとして、属性情報の記述方法の違いがあります。 GTFでは「key "value"」の形式で記述されるのに対し、GFF3では「key=value」の形式が使われます。 加えて、GFF3ではID および Parent 属性を用いることで、遺伝子・転写産物・エクソンといった階層的な親子関係を明示的に記述できます。

このような違いはありますが、GTFとGFF3の形式は基本的に相互変換が可能です。 使用するソフトウェアによっては、GTF形式またはGFF3形式のいずれか一方しか扱えないこともあるため、対応形式を確認し、それに合わせて選択することが重要です。

論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール

RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。

概要

遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。

合同会社BxINFOロゴ

合同会社BxINFO

バイオインフォマティクスを専門とする研究支援企業です。

RNA-Seq解析を中心に、ライフサイエンスの研究に役立つツール・情報を提供しています。

→ 詳しくはこちら