Fusic Tech Blog

Fusion of Society, IT and Culture

AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解
2021/01/08

AlphaFoldを理解したいけど生物学系の知識がないので勉強してみた 前編:事前知識、背景理解

(2021/01/18)アップデート\ 獣医学を専攻している友人からコメントをいただいたので適宜修正を入れました(ありがとう!!!)

2020年冬の頃、獣医学部で獣医学を専攻している、高校時代の友人から連絡があった。

「AlphaFold2っていう機械学習モデルがすごいんだけど知ってる?」

恥ずかしながら私はAlphaFoldがなんなのかは知らなかった。

その週の弊社機械学習チーム勉強会でAlphaFold2に関する記事が出てきた。

しかし、その内容は私にとっては難解で、概要はなんとなくわかったが何がすごいのか、どういうインパクトがあるのかということがいまいちピンとこなかった。

そこに畳み掛けて、大学時代の医学部で医学を専攻している友人からもAlphaFold2に関する連絡がきた。

そこで私はどうやらバイオ系の分野では相当インパクトの大きいものだったんだろうなということで資料を探してみた。しかし大学で電子情報工学を専攻していた私には生物学関連のドメイン知識が足りずイマイチ理解ができなかった。

そこで、解説動画やpodcastなどを聞き、資料を読み、タンパク質に関わる基本的な生物学を少し勉強してなんとなく全体像を把握することができた気がするので、一旦このタイミングでまとめてみる。

また、本記事ではAlphaFold1に注目してリサーチを行う。 Yannic Kilcher氏のYouTubeチャンネルでのAlphaFold2の解説動画を拝見したところ、AlphaFold2を理解するためにはAlphaFold1の理解をしておくことが望ましいとのことだったので、第一歩としてAlphaFold1に関して調べていく。

TL;DR

  • タンパク質の機能を理解する上でタンパク質の三次元構造を理解することは非常に重要である
  • アミノ酸配列測定技術の発展により、タンパク質のアミノ酸配列を測定することに関しては比較的高速に行える アミノ酸配列を「直接」解析することはまだそんなに早くない印象とのこと。アミノ酸を作る指示を出す塩基配列(DNA)の解析においては、次世代シークエンサーという機械の登場で格段に速くなった(※アミノ酸配列を特定する方法には、直接タンパク質のアミノ酸を確かめていく方法と、そのタンパク質を発現させている遺伝子(塩基配列)の塩基配列を読んでアミノ酸の配列を特定する二つの方法があります。)
  • 存在が認識されているタンパク質のうち立体構造が解き明かされているものはわずか0.6%程度
  • タンパク質の構造を観測するためにXRDなどの手法があるがコストも時間もかかる
  • In silicoでタンパク質の三次元構造の推定をすることが望まれる
  • 2018年のCASP13でAlphaFoldがCASPの歴史(約20年以上の)精度向上の幅よりも大きな精度向上を叩き出した
  • 2020年のCASP14ではAlphaFold2がさらに精度をあげた

AlphaFoldとは

AlphaFoldは囲碁で世界チャンピオンを倒したことで一躍話題になったAlphaGoを開発したgooleの研究チームであるdeepmindが開発した機械学習モデルです。

まずはAlphaFoldの入力と出力から整理します。

AlphaFoldにおいては

入力:アミノ酸配列

出力:タンパク質の三次元構造

となっております。

細かくいうと、AlphaFoldは内部では二段構えになっていて、

1段目で:アミノ酸の結合角と距離を予測し

2段目で:三次元構造を予測する

ということを行っているそうです。

さらに、実際には単純なアミノ酸のシーケンスが入力になっているわけではなく、類縁種の多重配列アライメントが入力となっているとのこと。

また、残基同士の結合角を推測するときにはφとψを-π ~ πまで予測するのではなく、ラマチャンドランプロットを利用し、存在し得ない角度のペアに関しては予測しないなど、生物学のドメイン知識をフル動員して、機械学習を行っています。

AlphaFoldの細かい中身や出力の意味を理解するためには先にタンパク質の知識があった方が意味が掴みやすいはずなので、まずはタンパク質から話を進めていきます(今回はこれが目的)。

タンパク質について

タンパク質とはアミノ酸が鎖状に結合(重合)して作られる高分子化合物。

タンパク質は構成するアミノ酸の種類や数、結合の順序などによって種類が異なる。 分子量は4000前後のものから数千万、数億まで様々なものがある。 最小のタンパク質としては分子量1104のものが作成されている(産総研が10個のアミノ酸で作成した:https://www.aist.go.jp/aist_j/new_research/2008/nr20081027/nr20081027.html

サイズは、おおよそ数ナノメートルオーダーであるものが多いらしい。 花粉症などに関わってくるIgEは15nmらしく、比較的大きなタンパク質とのこと。

タンパク質は様々な役割があり、例えば本来であれば高温高圧でしか反応を起こさないような現象を、あるタンパク質が触媒として働いてくれることで比較的ゆるやかな条件でも反応を起こしてくれる(酵素)働きがあったりする。

「生物機能・分子機能の主たる担い手はタンパク質で あり,特にタンパク質の立体構造が重要な役割を果たしている」とも言われており、私たちの体で起こっている反応もほとんどタンパク質によるものと言っても過言ではない。

身近なものだとヘモグロビンも人体に重要な機能を持つタンパク質の一つ。

ヘモグロビンは赤血球に存在するタンパク質で酸素濃度の高いところで酸素と結合し、逆に酸素濃度の低いところで酸素を放出する性質を持つ。これにより、赤血球とともにヘモグロビンが血中を巡回することで呼吸で取り入れた酸素を肺でヘモグロビンが受け取り、血液に乗って各臓器に酸素を届けてくれる役割を果たしている。

このように、タンパク質は機能を持っており、ある種のナノマシンと考えることもできる。

そのナノマシンの機能を決定するのは上述した構成するアミノ酸の種類や数、結合の順序などによって決定される。

このように、タンパク質を理解することは非常に重要で

例えばウイルスのスパイクのタンパク質構造や、膜タンパク質の構造を理解するとウイルスに対してどのような対策を取れば良いのか、製薬分野でも応用ができる。

しかし、ある調査によると存在が認識されているタンパク質のうち立体構造が解き明かされているものはわずか0.6%程度とのこと(Guardianより)。

近年はアミノ酸配列測定技術の発展により、タンパク質のアミノ酸配列を測定することに関しては比較的高速に行うことができるようになってきているとのことだが、測定された配列から三次元構造を決定することに関してはまだまだ手法や技術が追いついていないと言える。

アミノ酸とは

自然界には約500種類ほどあることが知られているアミノ酸。その500種類ほどのアミノ酸のうち私たちの体で利用されているアミノ酸は20種類。このうち11種類のアミノ酸に関しては体の内部で合成することができる一方で、9種は私たちの体で生成することはできない。故にその9種のアミノ酸は必須アミノ酸と呼ばれており、食べ物から取得しないといけないことで有名。

定義としてアミノ酸は、分子内にアミノ基(-NH2)とカルボキシル基(-COOH)をもつ化合物の総称。

アミノ基とカルボキシル基が結合する炭素の位置によってα、βなど種類はあるもののタンパク質を構成するアミノ酸は全てα-アミノ酸。

タンパク質分子の話をしているときに、そのタンパク質を構成しているアミノ酸の1単位をアミノ酸残基と呼ぶこともある。

タンパク質の折り畳み問題

同じ意味で、「タンパク質フォールディング」「Protein folding」と呼ばれることもある。

タンパク質はゲノム上の遺伝情報にしたがって合成が始まり、アミノ酸が100~300個程度連結されたポリペプチド鎖が細胞内に発現する。このときタンパク質はまだ無定形の鎖状高分子だが、アミノ酸残基と溶媒の水分子間の物理化学的相互作用によって、きわめて正確に一定の秩序(立体)構造に折りたたまれ、アミノ酸配列に固有の生物機能を獲得する。100残基で構成されるタンパク質でもとりうる立体構造の形の総数は10 ^ 60という膨大な数になるが、一般に一つの立体構造しか選択されない。この三次元構造を決定する要因になる力としてはファンデルワールス力や水素結合、タンパク質表面における水との相互作用(疎水性、親水性)などが影響しあって決定していると考えられている。

余談にはなるが、ミスフォールディング病というものがある。アミノ酸置換が起きてタンパク質の正しい(本来取りうるべきだった形)形成できないために起きる遺伝的疾患である。またアミノ酸置換が起きなくても物理的な立体構造が間違っているために起きるアミロイド疾患なども存在する。プリオン病と呼ばれる神経疾患もプリオンタンパク質のαへリックスがβシートに転換されることによって起きると考えられています。

このようにタンパク質の折り畳みは私たち生体において非常に大きな影響を及ぼすものである。しかし、三次元構造の取りうる数が膨大すぎるため一つ一つの構造を巡り歩いて最終の天然構造にたどり着く確率は実質的に0である。故に、折り畳み反応には明確な経路があると考えられており様々な研究がされているが実験的にも理論的にも未解明のまま40年近くの年月が経過している。

タンパク質の三次元構造を調べるための手法

ここでは、従来から行われているタンパク質の三次元構造の調べかたを紹介する。

X線結晶構造解析(XRD)

タンパク質の結晶に対してX線を投射して、その回折像を得ることで構造を推定するというもの。

タンパク質は先ほども書きましたが、数nm ~ 数十nmのオーダーであることが多い。ここまで小さいと顕微鏡を使っても観察はできない。そこでタンパク質の結晶を作り、X線を用いた観察が行われる。

この時、結晶の質が観測精度を大きく左右する。結晶のが低品質なものだと回折像が綺麗に得ることができずはっきりと構造を決定することが難しくなる。この観測原理に関しては高校の物理でやる「ブラッグの法則」の考え方を応用したものなので、手法が気になった方は高校の教科書を開いて見ると良いかも。

目的のタンパク質を発現させるためには大腸菌がよく利用されるそう。

大腸菌に対象の遺伝子を組み込むことで、目的のタンパク質を大量に発現させることができる。しかし、大腸菌で全てのタンパク質を効率よく発現できるわけではなく、大腸菌に対して毒性を有するようなタンパク質では十分な発現量は得られないとのこと。

さらに、十分な量のタンパク質を発現できたとしても結晶化がかなり難易度が高い。特に地上では重力の影響で対流が起こるために高品質な結晶を作ることは難しい。結晶は核を生成したのち、近傍のタンパク質から取り込み成長していくが、この時、密度差対流によって分子配列が乱れたり、クラスターが発生したりするため地上で高品質な結晶を生成することは非常に難しい。一方、ほとんど無重力の状態の宇宙ステーションなどでは密度差対流が地上よりも抑制されて、高品質な結晶を生成することができる。

核磁気共鳴(NMR)

正電荷を持ち自転する原子核は磁気モーメントを持ち,一種の磁石と見なすことができ、これは核スピンと呼ばれる。これを磁場をかけたところに設置すると、磁場と同じ向きか逆向きになる。核スピンがその静磁場と同じ方向と逆向きの間を行き来する時、そのエネルギー差をゼーマンエネルギーと呼ぶ。ゼーマンエネルギーと等しいエネルギーを持つ電磁波を吸収・放出する(共鳴) 現象が NMR 現象。

この原理を利用してタンパク質を構成するアミノ酸の位置を推定しタンパク質の形を推定する手法のことを核磁気共鳴(NMR)と呼ぶ。

XRDのほうが主流な手法らしいので、今回はNMRの解説は割愛する。

クライオ電子顕微鏡

2017年にノーベル科学賞を受賞したものなので耳にしたことがあるかも知れません。観測手法でノーベル賞を獲得した珍しいもので、先ほど紹介したX線結晶構造解析よりも安価に行うことができるとして、生物学界隈ではかなりアツい話題とのこと。

クライオ電子顕微鏡では名前の通り、サンプルを極低温にして、周囲の水を急速に凍結させた状態で電子顕微鏡で測定を行うというものです。

一般的な電子顕微鏡では真空状態での観測を行います。これは電子線を用いて観測する際に空気中の分子によって電子が反射してしまうことを防ぐためです。しかし、タンパク質などの生体分子では水中で機能を発揮するものがほとんどのため真空中での観測では意味が薄れてしまう。さらに、生態分子に直接電子線を当ててしまうと分子は簡単に壊れてしまい、調べたかった情報が失われてしまいます。

そこで、クライオ電子顕微鏡ではサンプルを極低温にして非晶質という状態にすることで上記の問題をある程度解決した状態で観測ができる。

この状態で、複数の角度から撮影を行い三次元構造を二次元画像から構成するという手法。

また、クライオ電子顕微鏡では分子レベルの観測もできるように改善がされているとのこと。

今後の応用に期待が集まる。

in silicoの需要

上にまとめたように、タンパク質の三次元構造を解析する手法はありますがいずれもコストが高く、時間もお金がかかってしまうのが問題。

もちろん、完全な答え合わせをするためには上記の手法で調べる必要があるとは思いますが、何もない手探りの状態からスタートするよりも、比較的簡単に得られるアミノ酸のシーケンス情報からある程度あたりをつけてから製薬をはじめとしたバイオ系の研究や応用が加速することが期待されている。

そんな背景もあり、タンパク質の構造をコンピュータで予測する「タンパク質構造予測精密評価(CASP、Critical Assessment of protein Structure Prediction)」というコンペが1994年から二年おきに行われている大会が開催されている。

AlphaFoldはこの2018年のCASP13で優勝をし大きな話題を呼んだ。

Alphafoldが叩き出した精度向上は、CASP開催の歴史における精度向上よりも大きな伸びだったとのこと。

さらに、CASP14では改良版であるAlphaFold2で予測精度がさらに向上したことで大きな話題になった。

ディープラーニングが利用できる嬉しさ

in silicoにおける手法のうちよく使われていたものの一つが、シミュレーションだそうです。アミノ酸の特徴や周囲の水の環境などなどを定義してシミュレートするという手法がとられていた。しかしこれには大きな課題があり、環境など様々なパラメータは人間が定義しているので必要な特徴を全て網羅し切れているのかが分からないということです。

そこでディープラーニングの出番です。

ディープラーニングではデータ(今回の場合はアミノ酸配列と、タンパク質の三次元構造のペア)が揃ってさえいれば、データから必要な特徴を考慮した中間構造を獲得できる可能性があります。タスクが難しいが故にE2E学習のようなことができると非常に嬉しそうですね。

前編まとめ

  • タンパク質の機能を理解する上でタンパク質の三次元構造を理解することは非常に重要である
  • アミノ酸配列測定技術の発展により、タンパク質のアミノ酸配列を測定することに関しては比較的高速に行える アミノ酸配列を「直接」解析することはまだそんなに早くない印象とのこと。アミノ酸を作る指示を出す塩基配列(DNA)の解析においては、次世代シークエンサーという機械の登場で格段に速くなった(※アミノ酸配列を特定する方法には、直接タンパク質のアミノ酸を確かめていく方法と、そのタンパク質を発現させている遺伝子(塩基配列)の塩基配列を読んでアミノ酸の配列を特定する二つの方法があります。)
  • 存在が認識されているタンパク質のうち立体構造が解き明かされているものはわずか0.6%程度
  • タンパク質の構造を観測するためにXRDなどの手法があるがコストも時間もかかる
  • In silicoでタンパク質の三次元構造の推定をすることが望まれる
  • 2018年のCASP13でAlphaFoldがCASPの歴史(約20年以上の)精度向上の幅よりも大きな精度向上を叩き出した
  • 2020年のCASP14ではAlphaFold2がさらに精度をあげた

後書きと次回予告

さて、今回書いたのはAlphaFoldの説明を読んだり聞いたりしても、生物学の背景知識が無いと、どういうインパクトがあるんだろうということのイメージがわかないということでAlphaFoldの凄さを感じるために必要な知識や背景をまとめてみました。

次回はAlphaFold1のネットワーク構造や工夫点を紹介していきます。 かなりドメイン知識を駆使したものとなっており、チームメンバーにUCLAのバイオインフォマティクスを研究されてる教授を擁していたり、非常に洗練されたものとなっている印象を受けました。

参考資料

  1. 白金鉱業.FM [31. Alphaの系譜を持つアルゴリズム タンパク質立体構造を解くAlphaFold 2020年06月08日] https://shirokane-kougyou.fm/episode/31
  2. DeepMind's AlphaFold 2 Explained! AI Breakthrough in Protein Folding! What we know (& what we don't)https://www.youtube.com/watch?v=B9PL__gVxLI
  3. 東京大学 大学院農学生命科学研究科 応用生命工学専攻 酵素学研究室:http://enzyme13.bt.a.u-tokyo.ac.jp/enzymology.html
  4. ナノとタンパク質のいい関係利点を相補完するハイブリッドタンパク質設計 : https://katosei.jsbba.or.jp/view_html.php?aid=559
  5. アミノ酸とペプチドとタンパク質の違い(田中消化器科クリニック)https://www.tanaka-cl.or.jp/aging-topics/topics-094/
  6. 関西学院大学・理工学部・瀬川研究室HP:https://sci-tech.ksc.kwansei.ac.jp/~segawa/ProteinFold.htm
  7. 核磁気共鳴(NMR)法を用いた立体構造解析及び分子間相互作用解析による有用タンパク質の機能解明 http://www.naro.affrc.go.jp/org/nfri/publications/pdf/sousetsu/kanko_sou49/49_p067.pdf
  8. JAXA タンパク質の構造解析 https://iss.jaxa.jp/kiboexp/theme/first/protein/public/about/structural_analysis.html
  9. タンパク質研究の最先端―構造ゲノミクス―https://www.jstage.jst.go.jp/article/jsssj/24/11/24_11_689/_pdf
  10. X 線結晶構造解析による高精度立体構造解析 東京大学大学 院農学生命科学研究科研究員,加茂 昌之, 田 之倉 教授 https://www.jstage.jst.go.jp/article/kakyoshi/52/7/52_KJ00007743895/_pdf
  11. クライオ電子顕微鏡 https://www.chem-station.com/blog/2017/10/nobel2017cryo.html
  12. クライオ電子顕微鏡法の技術開発と生命科学への貢献 https://www.jeol.co.jp/applications/detail/1681.html
  13. タンパク質の構造予測と創薬への応用https://www.jstage.jst.go.jp/article/massspec/52/3/52_3_130/_pdf

Ryu Ishibashi

Ryu Ishibashi

機械学習/Vue/React/Laravelとかやってます