新華社快訊:瑞典皇家科學院9日宣布,將2024年諾貝爾化學獎授予三名科學家,以表彰他們在蛋白質(zhì)設計和蛋白質(zhì)結構預測領域作出的貢獻。
10月9日,在瑞典斯德哥爾摩舉行的2024年諾貝爾化學獎公布現(xiàn)場,屏幕顯示獎項得主美國華盛頓大學的戴維·貝克、英國倫敦谷歌旗下人工智能公司“深層思維”的德米斯·哈薩比斯和約翰·江珀。新華社記者 彭子洋 攝
10月9日,在瑞典斯德哥爾摩舉行的2024年諾貝爾化學獎公布現(xiàn)場,屏幕顯示獎項得主美國華盛頓大學的戴維·貝克、英國倫敦谷歌旗下人工智能公司“深層思維”的德米斯·哈薩比斯和約翰·江珀。新華社記者 彭子洋 攝
化學家長期以來一直夢想著完全理解和掌握生命的化學工具——蛋白質(zhì)。這個夢想現(xiàn)在已經(jīng)觸手可及。Demis Hassabis和John M. Jumper已成功利用人工智能來預測幾乎所有已知蛋白質(zhì)的結構。大衛(wèi)·貝克學會了如何掌握生命的構建模塊并創(chuàng)造全新的蛋白質(zhì)。他們的發(fā)現(xiàn)潛力巨大。
生命的旺盛化學反應如何可能?這個問題的答案就是蛋白質(zhì)的存在,蛋白質(zhì)可謂是絕妙的化學工具。它們通常由 20 種氨基酸組成,可以以無數(shù)種方式組合。以 DNA 中存儲的信息為藍圖,氨基酸在我們的細胞中連接在一起形成長串。
然后蛋白質(zhì)的魔力發(fā)生了:一串氨基酸扭曲并折疊成一種獨特的——有時是獨特的——三維結構(圖 1)。這種結構賦予了蛋白質(zhì)功能。有些成為可以創(chuàng)造肌肉、角或羽毛的化學構件,而另一些則可能成為激素或抗體。其中許多會形成酶,以驚人的精確度驅動生命的化學反應。位于細胞表面的蛋白質(zhì)也很重要,它們充當細胞與其周圍環(huán)境之間的溝通渠道。
© Johan Jarnestad/瑞典皇家科學院這 20 種氨基酸是生命的化學組成部分,其潛力怎么強調(diào)都不為過。 2024 年諾貝爾化學獎旨在讓人們在全新的水平上理解和掌握它們。一半的獎金授予 Demis Hassabis 和 John Jumper,他們利用人工智能成功解決了化學家 50 多年來一直困擾的問題:根據(jù)氨基酸序列預測蛋白質(zhì)的三維結構。這使得他們能夠預測幾乎所有 2 億種已知蛋白質(zhì)的結構。獎金的另一半授予大衛(wèi)·貝克。他開發(fā)了計算機化方法來實現(xiàn)許多人認為不可能的事情:創(chuàng)造以前不存在的蛋白質(zhì),并且在許多情況下具有全新的功能。
2024 年諾貝爾化學獎表彰了兩項不同的發(fā)現(xiàn),但正如您將看到的,它們密切相關。為了了解今年的獲獎者克服的挑戰(zhàn),我們必須回顧現(xiàn)代生物化學的黎明。
自 19 世紀起,化學家就知道蛋白質(zhì)對于生命過程很重要,但直到 20 世紀 50 年代化學工具才足夠精確,研究人員才開始更詳細地探索蛋白質(zhì)。劍橋大學研究人員John Kendrew和Max Perutz在本世紀末取得了突破性的發(fā)現(xiàn),他們成功地使用一種稱為 X 射線晶體學的方法提出了第一個蛋白質(zhì)的三維模型。為了表彰這一發(fā)現(xiàn),他們于 1962 年獲得了諾貝爾化學獎。
圖 1.蛋白質(zhì)可以由從數(shù)十個到數(shù)千個氨基酸的各種氨基酸組成。這串氨基酸折疊成三維結構,這對于蛋白質(zhì)的功能至關重要。 ©Johan Jarnestad/瑞典皇家科學院 © Johan Jarnestad/瑞典皇家科學院隨后,研究人員主要使用 X 射線晶體學(通常需要付出巨大的努力)成功生成約 200,000 種不同蛋白質(zhì)的圖像,這為 2024 年諾貝爾化學獎奠定了基礎。
美國科學家克里斯蒂安·安芬森還有一項早期發(fā)現(xiàn)。他利用各種化學技巧,成功地使現(xiàn)有的蛋白質(zhì)展開,然后再次折疊起來。有趣的觀察是蛋白質(zhì)每次都呈現(xiàn)完全相同的形狀。 1961年,他得出結論:蛋白質(zhì)的三維結構完全由蛋白質(zhì)中的氨基酸序列決定。這使他于 1972 年榮獲諾貝爾化學獎。
然而,安芬森的邏輯包含一個悖論,另一位美國人賽勒斯·萊文塔爾(Cyrus Levinthal)在1969年指出。他計算出,即使蛋白質(zhì)僅由100個氨基酸組成,理論上該蛋白質(zhì)也可以呈現(xiàn)至少10 47種不同的三維結構。如果氨基酸鏈隨機折疊,則需要比宇宙年齡更長的時間才能找到正確的蛋白質(zhì)結構。在細胞中,只需要幾毫秒。那么這串氨基酸實際上是如何折疊的呢?
安芬森的發(fā)現(xiàn)和萊文塔爾的悖論暗示折疊是一個預定的過程。而且重要的是,有關蛋白質(zhì)如何折疊的所有信息都必須存在于氨基酸序列中。
上述見解導致了另一個決定性的認識——如果化學家知道蛋白質(zhì)的氨基酸序列,他們應該能夠預測蛋白質(zhì)的三維結構。這是一個令人興奮的想法。如果他們成功了,他們將不再需要使用繁瑣的 X 射線晶體學,并且可以節(jié)省大量時間。他們還能夠生成 X 射線晶體學不適用的所有蛋白質(zhì)的結構。
這些合乎邏輯的結論向生物化學面臨的巨大挑戰(zhàn)提出了挑戰(zhàn):預測問題。為了鼓勵該領域更加快速的發(fā)展,研究人員于 1994 年啟動了一個名為“蛋白質(zhì)結構預測批判性評估” (CASP) 的項目,該項目后來發(fā)展成為一項競賽。每隔一年,來自世界各地的研究人員就可以獲得結構剛剛確定的蛋白質(zhì)中的氨基酸序列。然而,這些結構對參與者保密。挑戰(zhàn)是根據(jù)已知的氨基酸序列預測蛋白質(zhì)結構。
CASP 吸引了許多研究人員,但事實證明解決預測問題極其困難。研究人員在競賽中輸入的預測與實際結構之間的一致性幾乎沒有任何改善。這一突破直到 2018 年才出現(xiàn),當時一位國際象棋大師、神經(jīng)科學專家和人工智能先驅進入了該領域。
讓我們快速了解一下 Demis Hassabis 的背景:他四歲開始下棋,13 歲達到大師水平。在他十幾歲的時候,他開始了程序員和成功的游戲開發(fā)人員的職業(yè)生涯。他開始探索人工智能并研究神經(jīng)科學,并取得了多項革命性的發(fā)現(xiàn)。他利用自己對大腦的了解為人工智能開發(fā)了更好的神經(jīng)網(wǎng)絡。 2010 年,他與他人共同創(chuàng)立了 DeepMind 公司,該公司為流行的棋盤游戲開發(fā)精湛的人工智能模型。該公司于 2014 年被出售給谷歌,兩年后,當該公司實現(xiàn)了當時許多人認為的人工智能圣杯:擊敗世界上最古老的棋盤游戲之一圍棋的冠軍選手時,DeepMind 引起了全球關注。
然而,對于 Hassabis 來說,Go 并不是目標,而是開發(fā)更好的 AI 模型的手段。這場勝利之后,他的團隊已經(jīng)準備好解決對人類更重要的問題,因此在 2018 年,他報名參加了第十三屆 CASP 競賽。
前幾年,研究人員預測的 CASP 蛋白質(zhì)結構的準確度最多只有 40%。借助 AI 模型 AlphaFold,Hassabis 的團隊達到了近 60%。他們贏了,優(yōu)異的成績讓很多人都大吃一驚——這是意想不到的進步,但解決方案仍然不夠好。為了獲得成功,與目標結構相比,預測的準確度必須達到 90%。
圖 2.AlphaFold2 是如何工作的? © Johan Jarnestad/瑞典皇家科學院哈薩比斯和他的團隊繼續(xù)開發(fā) AlphaFold——但是,無論他們?nèi)绾闻Γ撍惴◤奈赐耆晒Α埧岬氖聦嵤牵麄円呀?jīng)走進了死胡同。團隊很疲憊,但一位相對較新的員工對如何改進人工智能模型有決定性的想法:約翰·詹珀 (John Jumper)。
約翰·詹珀對宇宙的迷戀促使他開始學習物理和數(shù)學。然而,2008 年,當他開始在一家使用超級計算機模擬蛋白質(zhì)及其動力學的公司工作時,他意識到物理知識可以幫助解決醫(yī)學問題。
2011 年,當詹珀開始攻讀理論物理學博士學位時,他對蛋白質(zhì)產(chǎn)生了新的興趣。為了節(jié)省計算機容量(大學里緊缺的東西),他開始開發(fā)更簡單、更巧妙的方法來模擬蛋白質(zhì)動力學。很快,他也接受了生物化學這一巨大挑戰(zhàn)的挑戰(zhàn)。 2017 年,當他剛剛完成博士學位時,他聽到了谷歌 DeepMind 已經(jīng)開始秘密預測蛋白質(zhì)結構的傳言。他向他們發(fā)送了一份工作申請。他在蛋白質(zhì)模擬方面的經(jīng)驗意味著他對如何改進 AlphaFold 有創(chuàng)造性的想法,因此,在團隊開始停滯不前后,他得到了晉升。 Jumper 和 Hassabis 共同領導了從根本上改革人工智能模型的工作。
新版本——AlphaFold2——是根據(jù)跳躍者的蛋白質(zhì)知識來著色的。該團隊還開始使用人工智能最近取得的巨大突破背后的創(chuàng)新:稱為Transformer 的神經(jīng)網(wǎng)絡。這些可以比以前更靈活的方式在大量數(shù)據(jù)中找到模式,并有效地確定應該關注什么來實現(xiàn)特定目標。
該團隊利用所有已知蛋白質(zhì)結構和氨基酸序列數(shù)據(jù)庫中的大量信息對 AlphaFold2 進行了訓練(圖 2),新的 AI 架構開始及時為第十四屆 CASP 競賽提供良好的結果。
2020 年,當 CASP 的組織者評估結果時,他們明白生物化學長達 50 年的挑戰(zhàn)已經(jīng)結束。在大多數(shù)情況下,AlphaFold2 的表現(xiàn)幾乎與 X 射線晶體學一樣好,這令人震驚。當 CASP 創(chuàng)始人之一 John Moult 于 2020 年 12 月 4 日結束比賽時,他問道:現(xiàn)在怎么辦?
我們將回到這一點。現(xiàn)在我們要回到過去,了解 CASP 的另一位參與者。讓我們介紹 2024 年諾貝爾化學獎的另一半,它涉及從頭開始創(chuàng)造新蛋白質(zhì)的藝術。
當大衛(wèi)·貝克開始在哈佛大學學習時,他選擇了哲學和社會科學。然而,在進化生物學課程中,他偶然發(fā)現(xiàn)了現(xiàn)在經(jīng)典教科書《細胞分子生物學》的第一版。這導致他改變了人生的方向。他開始探索細胞生物學,最終對蛋白質(zhì)結構著迷。 1993 年,當他開始擔任西雅圖華盛頓大學的小組組長時,他接受了生物化學領域的巨大挑戰(zhàn)。通過巧妙的實驗,他開始探索蛋白質(zhì)如何折疊。當他在 20 世紀 90 年代末開始開發(fā)可以預測蛋白質(zhì)結構的計算機軟件:Rosetta 時,這為他提供了深刻的見解。
Baker 在 1998 年使用 Rosetta 首次參加 CASP 比賽,與其他參賽者相比,表現(xiàn)非常好。這一成功引發(fā)了一個新想法——大衛(wèi)·貝克的團隊可以反向使用該軟件。他們應該能夠輸入所需的蛋白質(zhì)結構并獲得有關其氨基酸序列的建議,而不是在 Rosetta 中輸入氨基酸序列并得出蛋白質(zhì)結構,這將使他們能夠創(chuàng)造出全新的蛋白質(zhì)。
蛋白質(zhì)設計領域——研究人員創(chuàng)造具有新功能的定制蛋白質(zhì)——于 20 世紀 90 年代末開始騰飛。在許多情況下,研究人員對現(xiàn)有的蛋白質(zhì)進行了調(diào)整,這樣它們就可以做一些事情,比如分解有害物質(zhì)或充當化學制造業(yè)的工具。
然而,天然蛋白質(zhì)的范圍是有限的。為了增加獲得具有全新功能的蛋白質(zhì)的潛力,貝克的研究小組希望從頭開始創(chuàng)造它們。正如貝克所說:“如果你想制造一架飛機,你不能從改造一只鳥開始;而是要從改造一只鳥開始。”相反,你了解空氣動力學的首要原理,并根據(jù)這些原理建造飛行器。”
圖 3. Top7 – 第一個與所有已知現(xiàn)有蛋白質(zhì)完全不同的蛋白質(zhì)。 ©Terezia Kovalova/瑞典皇家科學院構建全新蛋白質(zhì)的領域稱為從頭設計。研究小組繪制了一種具有全新結構的蛋白質(zhì),然后讓 Rosetta 計算出哪種類型的氨基酸序列可以產(chǎn)生所需的蛋白質(zhì)。為此,Rosetta 搜索了所有已知蛋白質(zhì)結構的數(shù)據(jù)庫,并尋找與所需結構相似的蛋白質(zhì)短片段。 Rosetta 利用蛋白質(zhì)能量景觀的基礎知識優(yōu)化了這些片段并提出了氨基酸序列。
為了研究該軟件的成功程度,貝克的研究小組在產(chǎn)生所需蛋白質(zhì)的細菌中引入了擬議氨基酸序列的基因。然后他們使用 X 射線晶體學確定了蛋白質(zhì)結構。
事實證明,羅塞塔真的可以構建蛋白質(zhì)。研究人員開發(fā)的蛋白質(zhì)Top7幾乎與他們設計的結構完全相同。
對于從事蛋白質(zhì)設計的研究人員來說,Top7 是晴天霹靂。那些以前從頭創(chuàng)造蛋白質(zhì)的人只能模仿現(xiàn)有的結構。 Top7的獨特結構在自然界中并不存在。此外,該蛋白質(zhì)含有 93 個氨基酸,比以前使用從頭設計生產(chǎn)的任何蛋白質(zhì)都要大。
貝克于 2003 年發(fā)表了他的發(fā)現(xiàn)。這是只能被描述為非凡發(fā)展的第一步。 Baker 實驗室創(chuàng)造的眾多令人驚嘆的蛋白質(zhì)中的一些如圖 4 所示。他還發(fā)布了 Rosetta 的代碼,因此全球研究社區(qū)繼續(xù)開發(fā)該軟件,尋找新的應用領域。
是時候解決 2024 年諾貝爾化學獎的懸而未決的事情了。現(xiàn)在怎么辦?
圖 4.使用 Baker 的 Rosetta 程序開發(fā)的蛋白質(zhì)。 ©Terezia Kovalova/瑞典皇家科學院當 Demis Hassabis 和 John Jumper 確認 AlphaFold2 確實有效后,他們計算了所有人類蛋白質(zhì)的結構。然后,他們預測了研究人員迄今為止在繪制地球生物圖時發(fā)現(xiàn)的幾乎所有 2 億種蛋白質(zhì)的結構。
谷歌 DeepMind 還公開了 AlphaFold2 的代碼,任何人都可以訪問它。人工智能模型已成為研究人員的金礦。截至 2024 年 10 月,AlphaFold2 已被來自 190 個國家的超過 200 萬人使用。以前,如果有的話,通常需要數(shù)年時間才能獲得蛋白質(zhì)結構。現(xiàn)在只需幾分鐘即可完成。人工智能模型并不完美,但它估計了其生成的結構的正確性,因此研究人員知道預測的可靠性。圖 5 顯示了 AlphaFold2 如何幫助研究人員的眾多示例中的幾個。
2020 年 CASP 競賽結束后,當 David Baker 意識到基于 Transformer 的 AI 模型的潛力時,他在 Rosetta 中添加了一個模型,這也促進了蛋白質(zhì)的從頭設計。近年來,貝克實驗室不斷創(chuàng)造出令人難以置信的蛋白質(zhì)(圖 4)。
圖 5.使用 AlphaFold2 確定的蛋白質(zhì)結構。 ©Terezia Kovalova/瑞典皇家科學院蛋白質(zhì)作為化學工具的驚人多功能性體現(xiàn)在生命的巨大多樣性上。我們現(xiàn)在可以如此輕松地想象這些小分子機器的結構,這真是令人難以置信。它使我們能夠更好地了解生命的運作方式,包括為什么會出現(xiàn)一些疾病、抗生素耐藥性是如何發(fā)生的或者為什么一些微生物可以分解塑料。
創(chuàng)造具有新功能的蛋白質(zhì)的能力同樣令人震驚。這可以帶來新的納米材料、靶向藥物、更快速的疫苗開發(fā)、最小的傳感器和更綠色的化學工業(yè)——僅舉幾個為人類帶來最大利益的應用。
有關今年獎項的更多信息,包括英語科學背景,請訪問瑞典皇家科學院網(wǎng)站 www.kva.se 和 www.nobelprize.org,您可以在其中觀看新聞發(fā)布會的視頻、諾貝爾講座等等。有關諾貝爾獎和經(jīng)濟科學獎相關展覽和活動的信息,請訪問 www.nobelprizemuseum.se。
與二分之一
大衛(wèi)·貝克 (DAVID BAKER)
1962 年出生于美國華盛頓州西雅圖。 1989年獲得美國加州大學伯克利分校博士學位。美國華盛頓州西雅圖華盛頓大學教授。
“用于計算蛋白質(zhì)設計”
和另一半共同
德米斯·哈薩比斯 (DEMIS HASSABIS)
1976 年出生于英國倫敦。 2009年獲得英國倫敦大學學院博士學位。谷歌 DeepMind 首席執(zhí)行官,英國倫敦。
JOHN M. JUMPER
1985 年出生于美國阿肯色州小石城。 2017年獲得美國伊利諾伊州芝加哥大學博士學位。英國倫敦 Google DeepMind 高級研究科學家。
“用于蛋白質(zhì)結構預測”
科學編輯: Peter Brzezinski、Heiner Linke、Johan ?qvist,諾貝爾化學委員會
文本: Ann Fernholm
譯者: Clare Barnes
插圖:Johan Jarnestad、Terezia Kovalova
編輯: Vincent von Sydow
© 瑞典皇家科學院
引用本節(jié)
MLA風格:熱門信息。 NobelPrize.org。 2024 年諾貝爾獎外展 AB。周三。 2024 年 10 月 9 日。