4月24日消息,蛋白質(zhì)是生命的基礎(chǔ),也是許多新型材料的靈感來源。然而,自然界中已知的蛋白質(zhì)只是冰山一角,還有無數(shù)未被發(fā)現(xiàn)的蛋白質(zhì)等待探索。如何快速有效地設(shè)計出具有特定結(jié)構(gòu)和功能的新型蛋白質(zhì),是一個巨大的挑戰(zhàn)。
為了解決這個問題,麻省理工學(xué)院(MIT)的研究人員利用人工智能技術(shù),開發(fā)了一種能夠生成超越自然界的新型蛋白質(zhì)的方法。他們創(chuàng)建了一種基于機器學(xué)習(xí)的算法,可以根據(jù)預(yù)設(shè)的結(jié)構(gòu)目標,預(yù)測出能夠形成相應(yīng)蛋白質(zhì)的氨基酸序列。這些序列既有一定的與已知蛋白質(zhì)相似的程度,又有一定的創(chuàng)新性和獨特性。這些蛋白質(zhì)可用于制造具有特定機械性能(如剛度或彈性)的材料,從而取代作為原料的石油或陶瓷,會大大減少碳足跡。
這項研究將于近期發(fā)表在最新一期《化學(xué)》雜志上,該研究的高級作者是MIT工程學(xué)院教授、土木與環(huán)境工程系和機械工程系教授、MIT-IBM沃森人工智能實驗室成員馬庫斯?布勒(Markus Buehler)。他表示,這種方法可以為各種應(yīng)用領(lǐng)域提供新的解決方案,比如生物醫(yī)學(xué)、材料科學(xué)、食品保鮮等。他說:“在超越自然界的蛋白質(zhì)方面,這是一個巨大的設(shè)計空間,不能用人工的方法來解決。我們需要理解生命的語言,如何用DNA編碼氨基酸,以及它們?nèi)绾谓M合成蛋白質(zhì)結(jié)構(gòu)。在深度學(xué)習(xí)出現(xiàn)之前,這是不可能做到的。”
該研究的合作者還有布勒實驗室的博士后研究員倪博(Bo Ni)和塔夫茨大學(xué)(Tufts University)生物工程系教授、工程學(xué)院院長大衛(wèi)?卡普蘭(David Kaplan)。
利用新型機器學(xué)習(xí)模型
蛋白質(zhì)是由氨基酸串聯(lián)而成的長鏈,這些鏈會折疊成三維的形狀。氨基酸的順序決定了蛋白質(zhì)的結(jié)構(gòu)特征,而結(jié)構(gòu)特征又影響了蛋白質(zhì)的力學(xué)性能。雖然科學(xué)家們已經(jīng)發(fā)現(xiàn)了數(shù)千種經(jīng)過自然選擇形成的蛋白質(zhì),但他們估計還有很多氨基酸序列沒有被發(fā)現(xiàn)。
為了加速蛋白質(zhì)發(fā)現(xiàn)的過程,科學(xué)家們最近設(shè)計了一些深度學(xué)習(xí)模型,可以根據(jù)給定的氨基酸序列預(yù)測出相應(yīng)的蛋白質(zhì)三維結(jié)構(gòu)。然而,反過來,根據(jù)給定的結(jié)構(gòu)目標預(yù)測出相應(yīng)的氨基酸序列,卻是一個更復(fù)雜的問題。
布勒和他的同事們能夠應(yīng)對這個難題,是因為他們利用了一種新型的機器學(xué)習(xí)模型,叫做基于注意力的擴散模型(IT之家注:attention-based diffusion model)。布勒解釋說,基于注意力的模型對于蛋白質(zhì)設(shè)計非常重要,因為它們可以學(xué)習(xí)和捕捉長距離的關(guān)系。這在蛋白質(zhì)中很常見,因為一個很長的氨基酸序列中的一個突變,可能會對整個設(shè)計產(chǎn)生很大的影響。
擴散模型的學(xué)習(xí)過程是通過給訓(xùn)練數(shù)據(jù)添加“噪聲”,然后再去除“噪聲”來恢復(fù)原始數(shù)據(jù)。這些模型能夠生成高質(zhì)量和逼真的數(shù)據(jù),而且可以根據(jù)特定的設(shè)計目標進行調(diào)節(jié)。因此,它們比其他模型更適合滿足設(shè)計要求。
利用這種架構(gòu),研究人員開發(fā)了兩種機器學(xué)習(xí)模型,能夠預(yù)測出滿足特定結(jié)構(gòu)目標的氨基酸序列。布勒說,在生物醫(yī)學(xué)領(lǐng)域,擁有一個完全未知的蛋白質(zhì)可能會帶來問題,因為它的性質(zhì)不太清楚。但是,在一些應(yīng)用中,可能需要設(shè)計出一種與自然界中存在的蛋白質(zhì)具有相似特性但不同功能的新型蛋白質(zhì)。通過使用他們開發(fā)的模型,可以生成一系列的蛋白質(zhì),并通過調(diào)整一些參數(shù)來控制它們的設(shè)計,從而實現(xiàn)定制化的需求。
蛋白質(zhì)中不同的氨基酸折疊模式,稱為二級結(jié)構(gòu),會導(dǎo)致不同的力學(xué)性能。比如,具有α-螺旋結(jié)構(gòu)的蛋白質(zhì)往往具有彈性,而具有β-折疊結(jié)構(gòu)的蛋白質(zhì)通常比較剛性。在一個蛋白質(zhì)中同時結(jié)合α-螺旋和β-折疊結(jié)構(gòu),可以創(chuàng)造出既有彈性又有強度的材料,就像絲綢一樣。
研究人員創(chuàng)建了兩種模型,一種是在整體結(jié)構(gòu)層面上工作的,另一種是在氨基酸層面上工作的。兩種模型都可以組合氨基酸來生成蛋白質(zhì)。在第一種模型中,用戶只需要輸入想要的不同結(jié)構(gòu)的百分比,比如40%的α-螺旋和60%的β-折疊,模型就會生成滿足這些要求的序列。在第二種模型中,用戶不僅要指定百分比,還要指定氨基酸結(jié)構(gòu)的順序,從而對最終產(chǎn)品有更大的控制力。
為了驗證生成的蛋白質(zhì)是否符合預(yù)期的規(guī)格,研究人員將開發(fā)的模型與一個可以預(yù)測蛋白質(zhì)折疊情況的算法相連。他們用這個算法來確定生成蛋白質(zhì)的三維結(jié)構(gòu),然后計算出相應(yīng)的力學(xué)性能,并與預(yù)設(shè)的設(shè)計要求進行比較。這使得他們能夠驗證設(shè)計的蛋白質(zhì)是否滿足期望的規(guī)格。
創(chuàng)新而可靠的設(shè)計
為了評估他們的模型的有效性,研究人員將新生成的蛋白質(zhì)與具有相似結(jié)構(gòu)特性的已知蛋白質(zhì)進行了比較。他們發(fā)現(xiàn),許多生成的蛋白質(zhì)與已知的氨基酸序列有大約50%到60%的重合度,表明它們是可合成的。此外,模型還產(chǎn)生了完全新的序列,顯示了它們設(shè)計新型蛋白質(zhì)的能力。
布勒說,生成和已知蛋白質(zhì)之間的相似度程度表明,設(shè)計的蛋白質(zhì)很可能是現(xiàn)實的,也是可合成的。為了驗證設(shè)計蛋白質(zhì)的可靠性,研究人員試圖用一些物理上不可能的設(shè)計目標來欺騙模型。然而,模型并沒有產(chǎn)生不太可能的蛋白質(zhì),而是生成了最接近可行解決方案的蛋白質(zhì)。這個結(jié)果表明,模型是健壯的,即使給出不切實際的設(shè)計規(guī)范,也能找到最接近可行的解決方案。
倪博指出,機器學(xué)習(xí)算法能夠發(fā)現(xiàn)自然界中隱藏的關(guān)系。這種能力給研究人員提供了信心,認為生成的蛋白質(zhì)很可能是現(xiàn)實的,也是可合成的。
在下一步中,研究人員打算通過在實驗室中合成它們來驗證一些新設(shè)計的蛋白質(zhì)。此外,他們還計劃進一步改進和完善他們的模型,使它們能夠設(shè)計出滿足更多條件的氨基酸序列,比如特定的生物功能。
最終目標是開發(fā)一個多功能的平臺,可以生成各種各樣的蛋白質(zhì)設(shè)計,用于各種應(yīng)用領(lǐng)域,包括生物醫(yī)學(xué)和材料科學(xué)。布勒強調(diào)說,這些應(yīng)用領(lǐng)域需要超越自然界所提供的解決方案,比如可持續(xù)性、醫(yī)藥、食品、健康和材料設(shè)計等。因此,新開發(fā)的設(shè)計工具可以在解決這些問題中發(fā)揮重要作用。