NCBIとは?NCBIの使い方
NCBIとは
NCBI(National Center for Biotechnology Information)は、1988年にアメリカ国立医学図書館(NLM)の一部門として設立された生命科学情報の中核機関です。 PubMedやGenBank、SRAなど数十種類のデータベース・ツールを無料で提供しており、文献検索から塩基配列の取得・相同性検索まで幅広い用途に対応しています。NCBIのWebサイトから誰でも無料で利用できます。
主要なデータベース一覧
NCBIが提供する主要なデータベースを以下にまとめます。
| データベース名 | 内容 |
|---|---|
| PubMed | 生物医学・ライフサイエンス分野の論文データベース |
| BLAST | 配列相同性検索ツール(Basic Local Alignment Search Tool) |
| GenBank | 研究者が登録した塩基配列データベース |
| RefSeq | NCBIがキュレーションした参照配列データベース |
| Genome | 各生物種のゲノム情報・アセンブリデータ |
| Gene | 各生物種の遺伝子情報(機能・位置・配列など) |
| Protein | タンパク質配列データベース |
| dbSNP | 一塩基多型(SNP)などの変異情報データベース |
| PubChem | 化合物・生物活性データのデータベース |
PubMedの使い方
PubMedは生命科学・医学分野で最も広く利用されている論文データベースです。 3,500万件以上の文献が収録されており、無料で検索・閲覧できます(全文の無料公開はオープンアクセス論文のみ)。
基本的な検索方法
PubMedのトップページ中央にある検索ボックスにキーワードを入力して検索します。
検索結果の絞り込み
検索結果のページ左側にある「Filters」から、以下のような条件で絞り込めます。
- Article type(論文の種類): Review、Clinical Trialなど
- Publication date(発表年): 期間を指定して最新研究に絞る
- Text availability: 「Free full text」を選択すると全文が無料で読める論文だけを表示
- Additional filters → Species(生物種): Humansなどで絞り込む
詳細検索(Advanced Search)
「Advanced」をクリックすると、著者名・雑誌名・MeSHなどを指定した詳細検索ができます。
GenBankの使い方
GenBankはDNA・RNA・タンパク質の配列を登録・公開しているデータベースです。 論文発表の際に配列データをGenBankに登録することが求められ、アクセッション番号(例: AY123456)が発行されます。
アクセッション番号から配列を取得する
例えば「AY123456」のFASTAファイルを取得したい場合は、GenBankにアクセスして以下の手順で取得できます。
- 検索ボックスに「AY123456」と入力して検索
- 結果ページで「Send to」→「File」→ Format を「FASTA」に選択してダウンロード
ダウンロード形式について
ダウンロード形式はFASTA形式が一般的です(FASTAファイルの詳しい説明はこちら)。また、GenBank形式(拡張子 .gb / .gbk)を選ぶと、エクソン・CDSなどのアノテーション情報も含めて取得できます。
RefSeqの使い方
RefSeqはNCBIがキュレーションした参照配列データベースです。ゲノム・mRNA・タンパク質のリファレンス配列として広く利用されており、RNA-Seq解析などのリファレンス配列としても使われます。
- RefSeqにアクセスし、遺伝子名やアクセッション番号(例: NM_001101)で検索
- 検索結果から目的の配列を選択し、ページ右上の「Send to」→「File」→ Format を「FASTA」にしてダウンロード
RefSeqとGenBankの違い
GenBankは研究者が直接投稿する配列データベースであるのに対し、RefSeqはNCBIのスタッフが品質管理をしてキュレーションした参照配列データベースです。 RefSeqのアクセッション番号はプレフィックスで区別できます。
| プレフィックス | 意味 | 例 |
|---|---|---|
| NM_ | mRNA(RefSeq) | NM_001101.5 |
| NP_ | タンパク質(RefSeq) | NP_001092.1 |
| NC_ | ゲノム配列(RefSeq) | NC_000001.11 |
| AK_ / BC_ 等 | GenBank登録配列 | AK000001.1 |
RNA-Seq解析のリファレンス配列として、RefSeq配列またはEnsemblの配列を利用するのが一般的です。
BLASTの使い方
BLAST(Basic Local Alignment Search Tool)は、手元の配列に類似した既知の配列をデータベースから探し、その機能や由来を推定するのに役立つツールです。
BLASTの種類
| ツール名 | 入力 | 検索対象 |
|---|---|---|
| blastn | 塩基配列 | 塩基配列データベース |
| blastp | アミノ酸配列 | タンパク質データベース |
| blastx | 塩基配列 | タンパク質データベース |
| tblastn | アミノ酸配列 | 塩基配列データベース |
blastnの基本的な使い方
BLASTにアクセスし、以下の手順で検索します。
- 「Nucleotide BLAST(blastn)」をクリック
- 「Enter Query Sequence」欄に調べたい塩基配列を貼り付けるか、FASTA形式のファイルをアップロードする
- 「Database」で検索対象を選択(通常はデフォルトの「Core nucleotide database (core_nt)」でOK)
- 「BLAST」ボタンをクリックして検索開始
- 数十秒〜数分後に結果が表示され、類似配列と相同性スコア(E-value)が確認できる
E-valueが小さいほど(例: 1e-50など)、偶然の一致ではなく本当に類似している可能性が高いことを意味します。
SRA(Sequence Read Archive)の使い方
SRAは次世代シーケンサーで取得された生データが公開されているデータベースです。 他の研究者が公開したRNA-SeqやChIP-Seqなどのデータを無料で取得し、再解析することができます。
SRAデータの検索方法
- SRAにアクセスし、キーワードまたは論文に記載されているアクセッション番号(例: SRP001537)で検索
- SRX(Experiment)を選択すると実験条件やサンプル情報を確認できる
- その中のRun(SRR)からシーケンスデータ(リード数・ファイルサイズなど)を確認できる
FASTQファイルのダウンロード
SRRのページを開くと「FASTA/FASTQ download」タブが表示され、そこからFASTQファイルをダウンロードできます。 大量のデータをコマンドラインで一括取得したい場合は、SRA Toolkitのfasterq-dumpを使う方法もあります。
GEO(Gene Expression Omnibus)の使い方
GEOは、マイクロアレイやRNA-Seqなどの結果から得られた発現量データが公開されているリポジトリです。
GEOデータの探し方
- GEOにアクセス
- キーワードや論文に記載されたアクセッション番号(例: GSE45827)で検索
- 発現量データは「Supplementary file」に入っていることが多い
GEOとSRAの使い分け
GEOには発現量データが、SRAには生のシーケンスデータ(FASTQファイル)が格納されています。 発現量データをそのまま使いたい場合はGEOから、自分で生データから発現量データを算出したい場合はSRAからFASTQを取得します。
論文に必要な解析が簡単にできるRNA-Seqデータ解析ツール
RNA-Seqデータ解析ツールを利用すれば、外部委託や共同研究者への依頼は必要ありません。高スペックなコンピュータの準備やLinuxコマンドの操作も不要ですので、いますぐにご自身で解析できるようになります。
遺伝子発現量の定量、発現変動遺伝子抽出(DEG解析)、Volcano plot描画、MAプロット描画、ヒートマップ描画、GO解析、パスウェイ解析等 を簡単に実施できます。