一種新的人工智能算法可以從錯(cuò)誤的結(jié)構(gòu)中挑選出正確的RNA分子的三維結(jié)構(gòu)。計(jì)算機(jī)預(yù)測(cè)RNA折疊結(jié)構(gòu)通常是重要且困難的——因?yàn)槲覀円阎慕Y(jié)構(gòu)太少了。
確定生物分子的三維結(jié)構(gòu)是現(xiàn)代生物學(xué)和醫(yī)學(xué)發(fā)現(xiàn)最具挑戰(zhàn)的問(wèn)題之一。企業(yè)和研究機(jī)構(gòu)經(jīng)?;ㄙM(fèi)幾百萬(wàn)美元去確定一個(gè)分子的結(jié)構(gòu),而即使是如此大的努力也常常面臨著失敗的結(jié)果。
斯坦福大學(xué)的博士生Stephan Eismann和Raphael Townshend在計(jì)算機(jī)科學(xué)副教授Ron Dror的指導(dǎo)下,利用聰明的、新的機(jī)器學(xué)習(xí)技術(shù)開(kāi)發(fā)了一種方法,利用計(jì)算機(jī)預(yù)測(cè)精準(zhǔn)結(jié)構(gòu)來(lái)攻克這一難題。
尤其值得關(guān)注的是,盡管只學(xué)習(xí)了幾個(gè)已知的結(jié)構(gòu),他們的方法就已經(jīng)很成功了,這使得這一方法適用于那些難以通過(guò)實(shí)驗(yàn)來(lái)確定結(jié)構(gòu)的分子。
他們研究成果分別發(fā)表在2021年8月27日的《科學(xué)》(Science)上和2020年十二月的《蛋白質(zhì)》(Proteins)上,論文詳細(xì)地介紹了RNA分子和多蛋白復(fù)合體。發(fā)表于《科學(xué)》(Science)的那篇論文是與斯坦福大學(xué)生物化學(xué)副教授Rhiju Das一起合作完成的。
“結(jié)構(gòu)生物學(xué)是一門(mén)研究分子形狀的學(xué)科,它有一個(gè)信條:結(jié)構(gòu)決定功能。”Townshend說(shuō)。
研究人員設(shè)計(jì)的算法可以預(yù)測(cè)精確的分子結(jié)構(gòu),科學(xué)家便可以通過(guò)這種方法來(lái)解釋不同分子是如何工作的。這種方法的應(yīng)用范圍從基礎(chǔ)生物學(xué)研究到藥物設(shè)計(jì)的實(shí)踐。
蛋白質(zhì)的各級(jí)結(jié)構(gòu)。因?yàn)楸P(pán)曲折疊,蛋白質(zhì)的結(jié)構(gòu)在空間上非常的復(fù)雜。
“蛋白質(zhì)是承擔(dān)著各種各樣功能的分子機(jī)器。為了執(zhí)行這些功能,蛋白質(zhì)往往會(huì)結(jié)合在一起,”Eismann說(shuō)。“如果你知道一對(duì)蛋白質(zhì)與某種疾病相關(guān),并且知道它們是怎樣在三維層面結(jié)合的,那么你可以嘗試用一種非常具有針對(duì)性的靶向藥物來(lái)影響它們之間的相互作用。”
Eismann和Townshend與Das實(shí)驗(yàn)室的斯坦福博士后學(xué)者Andrew Watkins共同撰寫(xiě)了發(fā)表于《科學(xué)》(Science)的論文,同時(shí)與前斯坦福博士生Nathaniel Thomas共同撰寫(xiě)了發(fā)表于《蛋白質(zhì)》(Proteins)的論文。
設(shè)計(jì)算法
研究人員沒(méi)有明確指定什么能使得結(jié)構(gòu)預(yù)測(cè)更準(zhǔn)確,而是讓算法自己去發(fā)現(xiàn)這些分子特征。之所以這樣做,是因?yàn)樗麄儼l(fā)現(xiàn)提供這種知識(shí)的傳統(tǒng)技術(shù),會(huì)使算法傾向于某些特征,從而阻礙它去發(fā)現(xiàn)其他的信息特征。
“在算法中手動(dòng)篩選特征的問(wèn)題是算法會(huì)因此變得有偏向性——偏向于篩選者認(rèn)為重要的那方面。你有可能因此錯(cuò)過(guò)一些你需要的、讓研究更加全面的信息。”Eismann說(shuō)。
“在沒(méi)有明確指示的情況下,網(wǎng)絡(luò)學(xué)會(huì)了尋找對(duì)分子結(jié)構(gòu)形成至關(guān)重要的基本概念。”Townshend說(shuō),“令人興奮之處在于,算法已經(jīng)清晰地獲得了那些我們已知的重要的事情,并且還發(fā)現(xiàn)了一些我們聞所未聞的特性。”
在蛋白質(zhì)的研究上取得了成功之后,研究人員接下來(lái)把算法運(yùn)用到了另一大類重要的生物分子——RNA上。他們?cè)谝幌盗?ldquo;RNA謎題”中測(cè)試了他們的算法,這些謎題來(lái)自于他們領(lǐng)域的一個(gè)存在已久的競(jìng)賽。在每個(gè)案例中,這個(gè)工具都比所有其他謎題參與者表現(xiàn)得更好,而且算法本身并不是專門(mén)針對(duì)RNA結(jié)構(gòu)設(shè)計(jì)的。
更廣闊的應(yīng)用
這項(xiàng)研究目前已經(jīng)在蛋白質(zhì)復(fù)合體和RNA分子方面取得了成功,研究人員很激動(dòng)看到它還可以在其他地方派上用場(chǎng)。
“大部分近期在機(jī)器學(xué)習(xí)上取得了突破性進(jìn)展的研究都是需要大量的數(shù)據(jù)來(lái)訓(xùn)練的。而我們的方式僅在很少量的訓(xùn)練數(shù)據(jù)下成功——這告訴我們:相關(guān)的方法是可以在缺乏數(shù)據(jù)的領(lǐng)域幫助我們解決尚未被解決的問(wèn)題的。”《蛋白質(zhì)》(Proteins)論文的資深作者和《科學(xué)》(Science)論文的共同高級(jí)作者Dror如是說(shuō)道。
利用人工智能開(kāi)發(fā)的新分子可以被應(yīng)用在藥物研究與開(kāi)發(fā)上。
特別在結(jié)構(gòu)生物學(xué)方面,研究團(tuán)隊(duì)表示,就待取得的科學(xué)進(jìn)展而言他們只是觸及了皮毛。“一旦你掌握了這項(xiàng)基本技術(shù),你便將你的理解能力提高到了另一個(gè)層面,然后便可以開(kāi)始追問(wèn)后續(xù)的一連串問(wèn)題了。”Townshend說(shuō),“舉個(gè)例子,有了這類信息,你就能夠開(kāi)始設(shè)計(jì)新的分子和藥物了,那是一個(gè)所有人都很期待的領(lǐng)域。”