AI能生成超越自然界的新型蛋白質(zhì)，可用于制造特定機械性能材料

沃卡惠
行業(yè)資訊
2023-04-24 09:24:56
300

4月24日消息，蛋白質(zhì)是生命的基礎(chǔ)，也是許多新型材料的靈感來源。然而，自然界中已知的蛋白質(zhì)只是冰山一角，還有無數(shù)未被發(fā)現(xiàn)的蛋白質(zhì)等待探索。如何快速有效地設(shè)計出具有特定結(jié)構(gòu)和功能的新型蛋白質(zhì)，是一個巨大的挑戰(zhàn)。

為了解決這個問題，麻省理工學(xué)院（MIT）的研究人員利用人工智能技術(shù)，開發(fā)了一種能夠生成超越自然界的新型蛋白質(zhì)的方法。他們創(chuàng)建了一種基于機器學(xué)習(xí)的算法，可以根據(jù)預(yù)設(shè)的結(jié)構(gòu)目標，預(yù)測出能夠形成相應(yīng)蛋白質(zhì)的氨基酸序列。這些序列既有一定的與已知蛋白質(zhì)相似的程度，又有一定的創(chuàng)新性和獨特性。這些蛋白質(zhì)可用于制造具有特定機械性能（如剛度或彈性）的材料，從而取代作為原料的石油或陶瓷，會大大減少碳足跡。

這項研究將于近期發(fā)表在最新一期《化學(xué)》雜志上，該研究的高級作者是MIT工程學(xué)院教授、土木與環(huán)境工程系和機械工程系教授、MIT-IBM沃森人工智能實驗室成員馬庫斯?布勒（Markus Buehler）。他表示，這種方法可以為各種應(yīng)用領(lǐng)域提供新的解決方案，比如生物醫(yī)學(xué)、材料科學(xué)、食品保鮮等。他說：“在超越自然界的蛋白質(zhì)方面，這是一個巨大的設(shè)計空間，不能用人工的方法來解決。我們需要理解生命的語言，如何用DNA編碼氨基酸，以及它們?nèi)绾谓M合成蛋白質(zhì)結(jié)構(gòu)。在深度學(xué)習(xí)出現(xiàn)之前，這是不可能做到的。”

該研究的合作者還有布勒實驗室的博士后研究員倪博（Bo Ni）和塔夫茨大學(xué)（Tufts University）生物工程系教授、工程學(xué)院院長大衛(wèi)?卡普蘭（David Kaplan）。

利用新型機器學(xué)習(xí)模型

蛋白質(zhì)是由氨基酸串聯(lián)而成的長鏈，這些鏈會折疊成三維的形狀。氨基酸的順序決定了蛋白質(zhì)的結(jié)構(gòu)特征，而結(jié)構(gòu)特征又影響了蛋白質(zhì)的力學(xué)性能。雖然科學(xué)家們已經(jīng)發(fā)現(xiàn)了數(shù)千種經(jīng)過自然選擇形成的蛋白質(zhì)，但他們估計還有很多氨基酸序列沒有被發(fā)現(xiàn)。

為了加速蛋白質(zhì)發(fā)現(xiàn)的過程，科學(xué)家們最近設(shè)計了一些深度學(xué)習(xí)模型，可以根據(jù)給定的氨基酸序列預(yù)測出相應(yīng)的蛋白質(zhì)三維結(jié)構(gòu)。然而，反過來，根據(jù)給定的結(jié)構(gòu)目標預(yù)測出相應(yīng)的氨基酸序列，卻是一個更復(fù)雜的問題。

布勒和他的同事們能夠應(yīng)對這個難題，是因為他們利用了一種新型的機器學(xué)習(xí)模型，叫做基于注意力的擴散模型（IT之家注：attention-based diffusion model）。布勒解釋說，基于注意力的模型對于蛋白質(zhì)設(shè)計非常重要，因為它們可以學(xué)習(xí)和捕捉長距離的關(guān)系。這在蛋白質(zhì)中很常見，因為一個很長的氨基酸序列中的一個突變，可能會對整個設(shè)計產(chǎn)生很大的影響。

擴散模型的學(xué)習(xí)過程是通過給訓(xùn)練數(shù)據(jù)添加“噪聲”，然后再去除“噪聲”來恢復(fù)原始數(shù)據(jù)。這些模型能夠生成高質(zhì)量和逼真的數(shù)據(jù)，而且可以根據(jù)特定的設(shè)計目標進行調(diào)節(jié)。因此，它們比其他模型更適合滿足設(shè)計要求。

利用這種架構(gòu)，研究人員開發(fā)了兩種機器學(xué)習(xí)模型，能夠預(yù)測出滿足特定結(jié)構(gòu)目標的氨基酸序列。布勒說，在生物醫(yī)學(xué)領(lǐng)域，擁有一個完全未知的蛋白質(zhì)可能會帶來問題，因為它的性質(zhì)不太清楚。但是，在一些應(yīng)用中，可能需要設(shè)計出一種與自然界中存在的蛋白質(zhì)具有相似特性但不同功能的新型蛋白質(zhì)。通過使用他們開發(fā)的模型，可以生成一系列的蛋白質(zhì)，并通過調(diào)整一些參數(shù)來控制它們的設(shè)計，從而實現(xiàn)定制化的需求。

蛋白質(zhì)中不同的氨基酸折疊模式，稱為二級結(jié)構(gòu)，會導(dǎo)致不同的力學(xué)性能。比如，具有α-螺旋結(jié)構(gòu)的蛋白質(zhì)往往具有彈性，而具有β-折疊結(jié)構(gòu)的蛋白質(zhì)通常比較剛性。在一個蛋白質(zhì)中同時結(jié)合α-螺旋和β-折疊結(jié)構(gòu)，可以創(chuàng)造出既有彈性又有強度的材料，就像絲綢一樣。

研究人員創(chuàng)建了兩種模型，一種是在整體結(jié)構(gòu)層面上工作的，另一種是在氨基酸層面上工作的。兩種模型都可以組合氨基酸來生成蛋白質(zhì)。在第一種模型中，用戶只需要輸入想要的不同結(jié)構(gòu)的百分比，比如40%的α-螺旋和60%的β-折疊，模型就會生成滿足這些要求的序列。在第二種模型中，用戶不僅要指定百分比，還要指定氨基酸結(jié)構(gòu)的順序，從而對最終產(chǎn)品有更大的控制力。

為了驗證生成的蛋白質(zhì)是否符合預(yù)期的規(guī)格，研究人員將開發(fā)的模型與一個可以預(yù)測蛋白質(zhì)折疊情況的算法相連。他們用這個算法來確定生成蛋白質(zhì)的三維結(jié)構(gòu)，然后計算出相應(yīng)的力學(xué)性能，并與預(yù)設(shè)的設(shè)計要求進行比較。這使得他們能夠驗證設(shè)計的蛋白質(zhì)是否滿足期望的規(guī)格。

創(chuàng)新而可靠的設(shè)計

為了評估他們的模型的有效性，研究人員將新生成的蛋白質(zhì)與具有相似結(jié)構(gòu)特性的已知蛋白質(zhì)進行了比較。他們發(fā)現(xiàn)，許多生成的蛋白質(zhì)與已知的氨基酸序列有大約50%到60%的重合度，表明它們是可合成的。此外，模型還產(chǎn)生了完全新的序列，顯示了它們設(shè)計新型蛋白質(zhì)的能力。

布勒說，生成和已知蛋白質(zhì)之間的相似度程度表明，設(shè)計的蛋白質(zhì)很可能是現(xiàn)實的，也是可合成的。為了驗證設(shè)計蛋白質(zhì)的可靠性，研究人員試圖用一些物理上不可能的設(shè)計目標來欺騙模型。然而，模型并沒有產(chǎn)生不太可能的蛋白質(zhì)，而是生成了最接近可行解決方案的蛋白質(zhì)。這個結(jié)果表明，模型是健壯的，即使給出不切實際的設(shè)計規(guī)范，也能找到最接近可行的解決方案。

倪博指出，機器學(xué)習(xí)算法能夠發(fā)現(xiàn)自然界中隱藏的關(guān)系。這種能力給研究人員提供了信心，認為生成的蛋白質(zhì)很可能是現(xiàn)實的，也是可合成的。

在下一步中，研究人員打算通過在實驗室中合成它們來驗證一些新設(shè)計的蛋白質(zhì)。此外，他們還計劃進一步改進和完善他們的模型，使它們能夠設(shè)計出滿足更多條件的氨基酸序列，比如特定的生物功能。

最終目標是開發(fā)一個多功能的平臺，可以生成各種各樣的蛋白質(zhì)設(shè)計，用于各種應(yīng)用領(lǐng)域，包括生物醫(yī)學(xué)和材料科學(xué)。布勒強調(diào)說，這些應(yīng)用領(lǐng)域需要超越自然界所提供的解決方案，比如可持續(xù)性、醫(yī)藥、食品、健康和材料設(shè)計等。因此，新開發(fā)的設(shè)計工具可以在解決這些問題中發(fā)揮重要作用。

上一篇：人工智能在工作場所的優(yōu)缺點

下一篇：機器視覺是實現(xiàn)流暢的打印與應(yīng)用工作流程的關(guān)鍵所在