AlphaFold2を用いたタンパク質立体構造予測

AlphaFold2とは?

AlphaFold2は、アミノ酸配列からタンパク質の立体構造を予測するソフトウェアです。 2020年11月にDeepMind社から発表され、AIを使ってアミノ酸配列からその立体構造を高い精度で予測できることを示し、衝撃を与えました。 さらに2021年7月には、ソースコードがGitHub上で無償公開され、誰でも利用することが可能になりました。 また、AlphaFold2によって予測された2億以上ものタンパク質構造が、AlphaFold Protein Structure Databaseで公開されており、Uniprotで公開されているタンパク質であれば自分でAlphafold2を動かすことなく構造を閲覧することが可能です。

立体構造予測について

タンパク質の立体構造を実験的に決定することは可能ですが、実験は多くの手間と時間がかかるため、すべてのタンパク質について実験的に立体構造を決定することは現実的ではありません。 そこで、コンピュータを用いてミノ酸配列情報から立体構造を予測する様々な方法が開発されてきました。 1994年からは2年ごとに、タンパク質立体構造予測の技術を競うコンテンスト「CASP(Critical Assessment of protein Structure Prediction)」が開催されるようになり、構造予測の手法を客観的に評価する場が持たれてきました。

AlphaFoldの歴史

2018年に開催されたCASP13にてAlphaFold(version 1)が公開され、参加チーム中のトップの成績を達成しました。 2020年に開催されたCASP14では、AlphaFold2が公開され、2位以下をはるかに大きく引き離す成績を収めたことで注目を集めました。

AlphaFold2の使い方

AlphaFoldのソースコードはGitHub上で公開されています。現時点(2023年1月)での最新版はv2.3.0です。 Dockerを利用して実行する方法がGitHub上に記載されています。 Dockerを使わない方法はこちらを参考にすると良さそうです。

解析に使用するマシンのスペックはREADMEによると、GCP上で12 vCPU、85 GBのRAM、100GBのブートディスク、3TBのストレージとA100 GPUでテストされているとのことです。 解析に必要なマシンの準備が難しい場合にはスパコンの利用を検討すると良さそうです。遺伝研スパコンではすでにAlphaFoldがインストールされており、簡単に利用できるようです。

ColabFoldについて

AlphaFold2を動かすにはハイスペックなマシンが必要となり、準備することが難しい場合もあるかと思います。 その場合には、Google Colab上で動かすことができるAlphaFold2の簡易版であるColabFoldを使用することもできます。 こちらであればCUIの操作も不要で簡単に構造予測を実施することが可能です。

参考