AlphaFold又更新迭代!第三代比之前厲害在哪里?
來(lái)源:科普中國(guó)
發(fā)布時(shí)間:2024-05-20
瀏覽次數(shù):843

版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

導(dǎo)讀:5月9日,AlphaFold 3重磅問(wèn)世,準(zhǔn)確性遠(yuǎn)超以往水平。在很多學(xué)者看來(lái),這相當(dāng)于給他們“戴上一副高清眼鏡”,對(duì)生物分子系統(tǒng)結(jié)構(gòu)進(jìn)行更準(zhǔn)確的預(yù)測(cè)。

此次發(fā)布的AlphaFold 3能預(yù)測(cè)蛋白質(zhì)與其他蛋白質(zhì)、核酸、小分子、離子、修飾蛋白質(zhì)殘基的復(fù)合物,以及抗體-抗原的相互作用,準(zhǔn)確性顯著超過(guò)當(dāng)前的預(yù)測(cè)工具。

我們第一時(shí)間聯(lián)系深圳灣實(shí)驗(yàn)室系統(tǒng)與物理生物學(xué)研究所副所長(zhǎng)、資深研究員周耀旗老師,早在去年11月,周耀旗通過(guò)對(duì)Deepmind與Isomorphic Labs 共同發(fā)布了的新聞稿對(duì)新一代AlphaFold模型:

AlphaFold3進(jìn)行評(píng)論,他指出“AlphaFold3改變了以前AlphaFold2只能用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的局限性,而使它能夠預(yù)測(cè)跟其它分子的復(fù)合物結(jié)構(gòu),包括小分子配體、多肽、多糖、蛋白質(zhì)、核酸(DNA 和 RNA)以及含有翻譯后修飾(PTM)的生物分子,可以說(shuō)是包羅萬(wàn)象了?!笨梢哉f(shuō),提早就預(yù)判了AlphaFfold3的主要特點(diǎn)。

今天,周耀旗老師將為我們解答AlphaFold3究竟厲害在哪里?

葉水送 | 采訪

周耀旗(深圳灣實(shí)驗(yàn)室)| 嘉賓

為什么蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)很重要?

問(wèn):為什么蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)很重要?

周耀旗:我們生命體系的存在和發(fā)展主要靠幾類(lèi)重要的生物大分子的協(xié)同相互作用。其中一條重要中心法則是包含遺傳信息的DNA分子,通過(guò)RNA分子,翻譯生成蛋白質(zhì)分子。蛋白質(zhì)分子是一個(gè)幾乎全能的分子機(jī)器,有記錄在案的就有一萬(wàn)多種功能,包括分子馬達(dá)、結(jié)構(gòu)支持、信號(hào)傳遞、運(yùn)輸、加速生命必需化學(xué)反應(yīng)、以及抵抗病毒、細(xì)菌侵入的抗體等等。

從化學(xué)組成來(lái)講,蛋白質(zhì)是一個(gè)非常簡(jiǎn)單的線性高分子,由20個(gè)氨基酸排列組合而成,不同氨基酸排列就構(gòu)成了不同功能的蛋白質(zhì)。這跟我們的英語(yǔ)單詞很相似,每個(gè)字是20個(gè)字母所組成,不同數(shù)量字母的組合,形成不同意義的單詞。

跟英語(yǔ)單詞不一樣的地方是,蛋白質(zhì)之所以能夠具有各種各樣的功能,是因?yàn)槎鄶?shù)蛋白質(zhì)能夠自己折疊成一個(gè)穩(wěn)定的、獨(dú)特的三維結(jié)構(gòu)來(lái)執(zhí)行它的功能。譬如有的蛋白質(zhì)在細(xì)胞膜內(nèi)能夠形成一個(gè)通道,控制某些分子在細(xì)胞內(nèi)部的進(jìn)進(jìn)出出。因此知道蛋白質(zhì)所形成的結(jié)構(gòu)形狀就可以知道蛋白質(zhì)這個(gè)分子機(jī)器是干什么的,怎么工作的。知道蛋白質(zhì)怎么工作非常重要,因?yàn)槿祟?lèi)的大多數(shù)疾病是由于一個(gè)或者一些蛋白質(zhì)出了問(wèn)題,把這些出了問(wèn)題的蛋白質(zhì)關(guān)掉是治病的手段之一。因此,高精度的蛋白質(zhì)結(jié)構(gòu)是藥物設(shè)計(jì)的一個(gè)重要組成部分。

長(zhǎng)期以來(lái),蛋白質(zhì)所形成的結(jié)構(gòu)主要靠非常昂貴的儀器,非常耗時(shí)耗人工的實(shí)驗(yàn)方法來(lái)解析,主要的儀器是核磁共振,X射線晶體衍射,冷凍電鏡。60年來(lái),也才解析了20萬(wàn)個(gè)蛋白質(zhì),是已知蛋白質(zhì)數(shù)目的千分之一,所以全部用實(shí)驗(yàn)手段來(lái)解析所有的蛋白質(zhì)結(jié)構(gòu),無(wú)論是金錢(qián)上還是時(shí)間上都是不現(xiàn)實(shí)的, 因此,計(jì)算生物學(xué)家一直在努力發(fā)展計(jì)算方法來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),促進(jìn)我們對(duì)生命機(jī)制的理解和疾病的藥物開(kāi)發(fā)。

回顧AlphaFold發(fā)展歷程

問(wèn):自2020年11月AlphaFold問(wèn)世,現(xiàn)在已更新至第三代,每一次都令人驚艷,它是如何一步步發(fā)展過(guò)來(lái)的?每一代都有哪些特色?您能否簡(jiǎn)單回顧下

周耀旗:AlphaFold的第一次問(wèn)世是2018年,它參加了每?jī)赡暌欢鹊牡?3屆蛋白質(zhì)結(jié)構(gòu)雙盲預(yù)測(cè)比賽,所謂雙盲就是計(jì)算生物學(xué)家進(jìn)行結(jié)構(gòu)預(yù)測(cè)的時(shí)候,大家都不知道結(jié)構(gòu)是長(zhǎng)什么樣的,因?yàn)闇y(cè)定這些結(jié)構(gòu)的實(shí)驗(yàn)還沒(méi)有公布。而在實(shí)驗(yàn)結(jié)構(gòu)出來(lái)之后,評(píng)估預(yù)測(cè)結(jié)構(gòu)的準(zhǔn)確性的科學(xué)家也不知道是那個(gè)計(jì)算生物學(xué)家做的預(yù)測(cè),可以避免主觀的因素。

從1996年第二屆比賽開(kāi)始,到2016年的22年,進(jìn)展非常慢,特別是對(duì)那些難度大,沒(méi)有已知結(jié)構(gòu)來(lái)作為模板的從頭預(yù)測(cè)方法, 100分滿分,預(yù)測(cè)結(jié)構(gòu)的分?jǐn)?shù)22年才從27分進(jìn)展到32分左右,要想達(dá)到85分以上的實(shí)驗(yàn)精確度,估計(jì)還要200多年。

AlphaFold的2018年第一次問(wèn)世把分?jǐn)?shù)提到了>60及格以上,而2020年問(wèn)世AlphaFold2一下子提到了85分,優(yōu)秀。第一代的AlphaFold解的是一個(gè)1+2=3的問(wèn)題,用神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)一維主鏈的二面角走向,以及二維的主鏈原子間的接觸距離,然后把預(yù)測(cè)的一維角度概率和二維距離概率轉(zhuǎn)化成蛋白質(zhì)的能量函數(shù),對(duì)該蛋白的3維結(jié)構(gòu)進(jìn)行能量最小化的優(yōu)化。第二代的AlphaFold解的也是一個(gè)1+2=3的問(wèn)題,不同的是它完全避開(kāi)了能量函數(shù),把整個(gè)體系搬到的神經(jīng)網(wǎng)絡(luò)里面,進(jìn)行了所謂的端-到-端的訓(xùn)練和預(yù)測(cè),通過(guò)蛋白質(zhì)序列和結(jié)構(gòu)的大數(shù)據(jù),以及高達(dá)9千萬(wàn)參數(shù)的大模型,實(shí)現(xiàn)了蛋白質(zhì)結(jié)構(gòu)的高精度預(yù)測(cè)的飛躍。

AlphaFold 3有哪些優(yōu)勢(shì)和短板?

問(wèn):第三代和之前有何不同?有哪些新突破,還有何待發(fā)展之處?

周耀旗:剛剛問(wèn)世的第三代AlphaFold跟以前的AlphaFold的最大不同是它不再局限于單個(gè)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè),而是努力成為一個(gè)通用模型,可以用于蛋白質(zhì)與其他分子相互作用復(fù)合物結(jié)構(gòu)的預(yù)測(cè),包括蛋白質(zhì)的修飾,DNA分子,RNA分子,以及各種各樣的小分子。

除了應(yīng)用能力的擴(kuò)展,它在計(jì)算方法上也有創(chuàng)新。把第二代AlphaFold中的進(jìn)化模塊改成效率更高的成對(duì)模塊,把第二代AlphaFold中的結(jié)構(gòu)模塊變成直接產(chǎn)生三維坐標(biāo)的擴(kuò)散模塊,大幅度降低了計(jì)算的復(fù)雜度。

這個(gè)方法主要在蛋白質(zhì)-小分子配體,蛋白質(zhì)-蛋白質(zhì),抗體-抗原結(jié)構(gòu),蛋白質(zhì)- RNA/DNA復(fù)合物結(jié)構(gòu)上比當(dāng)前最好方法前進(jìn)了一大步,在蛋白質(zhì)修飾后的結(jié)構(gòu)預(yù)測(cè)實(shí)現(xiàn)了0到1的突破。但在RNA結(jié)構(gòu)預(yù)測(cè)方面,還不如基于我們BRiQ能量函數(shù)的AIchemy-RNA2方法。此外,在蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)上也沒(méi)有新的突破,還是嚴(yán)重依賴于同源序列的多少和質(zhì)量。

人工智能在研究領(lǐng)域還有哪些應(yīng)用?

問(wèn):AI for Science的概念這兩年被反復(fù)提及,人工智能在研究領(lǐng)域(以生物醫(yī)學(xué)為主)還有哪些應(yīng)用?

周耀旗:除了剛剛所說(shuō)的AlphaFold在分子結(jié)構(gòu)預(yù)測(cè)這個(gè)的基礎(chǔ)研究以及它對(duì)新藥物開(kāi)發(fā)設(shè)計(jì)這方面的應(yīng)用之外,人工智能也將徹底改變了生物醫(yī)學(xué)其他的方方面面。幾個(gè)明顯的例子是:

首先,醫(yī)學(xué)影像分析:人工智能將用于分析醫(yī)學(xué)影像,如X射線、MRI、CT掃描和組織病理學(xué)切片。

其次,個(gè)性化醫(yī)學(xué):人工智能算法分析病人數(shù)據(jù),包括遺傳信息、病史和生活方式因素,能夠識(shí)別疾病風(fēng)險(xiǎn)因素、預(yù)測(cè)疾病進(jìn)展,為病人制定個(gè)體化治療方案,將改善治療效果并減少不良反應(yīng)。

還有,虛擬健康助手和聊天機(jī)器人:人工智能驅(qū)動(dòng)的聊天機(jī)器人和虛擬健康助手為病人提供個(gè)性化的健康建議、癥狀評(píng)估、用藥提醒和隨時(shí)隨地獲取醫(yī)療信息。

此外,還有健康監(jiān)測(cè)與可穿戴設(shè)備,電子健康記錄的數(shù)據(jù)挖掘,醫(yī)療機(jī)器人和手術(shù)等等。這些只是人工智能如何改變生物醫(yī)學(xué)領(lǐng)域的一些例子,不斷進(jìn)行的研究和創(chuàng)新將帶來(lái)新的應(yīng)用和進(jìn)展,這僅僅是開(kāi)始,未來(lái)將有全方位的顛覆性變化。

與ChatGPT、Sora有何異同點(diǎn)?

問(wèn):alphafold 3也用到生成式AI,和現(xiàn)在被熱議的chatgpt、sora等,它們有什么異同點(diǎn)?

周耀旗:在alphafold 3和Sora一樣,都是利用擴(kuò)散模型架構(gòu)來(lái)進(jìn)行結(jié)構(gòu)或者視頻的生成。擴(kuò)散模型架構(gòu)從隨機(jī)噪聲開(kāi)始,逐步對(duì)其進(jìn)行細(xì)化以生成最終結(jié)果。 而語(yǔ)言模型ChatGPT基于 Transformer 架構(gòu),這是一種已經(jīng)成為大型語(yǔ)言模型標(biāo)準(zhǔn)的深度學(xué)習(xí)架構(gòu)。

本文為科普中國(guó)·星空計(jì)劃扶持作品

團(tuán)隊(duì)/作者:深究科學(xué)

審核:陶寧 中國(guó)科學(xué)院生物物理研究所副研究員

葉盛 北京航天航空大學(xué) 研究員

出品:中國(guó)科協(xié)科普部

監(jiān)制:中國(guó)科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費(fèi)、優(yōu)惠的科普活動(dòng)和科普好物!


聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。
做科普,我們是認(rèn)真的!
掃描關(guān)注深i科普公眾號(hào)
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認(rèn)識(shí)科普小朋友
  • 成為科學(xué)小記者