蛋白質是光学指纹生命的基石,生物的利用功能依賴於既穩定而又靈活可變的蛋白質結構。蛋白質的人工光譜響應信號,尤其是智能质取展紫外光譜,可以稱之為蛋白質骨架的预测“指紋”。這個“光學指紋”,蛋白得进經過理論模擬的光学指纹解讀,可以揭示出精確的利用蛋白質結構,為生命科學和醫學診斷提供極其重要的人工信息。
然而,智能质取展蛋白質的预测結構極其複雜多變,需要做大量的蛋白得进高精度的量子化學理論計算。由於計算量太大,光学指纹即使是利用最厲害的超級計算機輕易也“吃不消”。所以蛋白質的人工光譜的理論解讀是一個長期的困難與挑戰,限製了光譜的準確分析和蛋白質結構的發現。
怎麽在光譜理論模擬中避免太昂貴的量子化學計算,解讀蛋白質骨架的“光學指紋”,是一個重要的科學課題。而近年來,人工智能技術被廣泛應用到各個領域,用於大幅度降低複雜體係的計算量。
最近,中國科學技術大學微尺度物質科學國家研究中心教授江俊,與中國科大教授羅毅和美國加州大學爾灣分校教授Shaul Mukamel合作,通過利用人工智能機器學習中的神經網絡技術,模擬了蛋白質肽鍵結構與性質之間的構效關係,將計算量一下降低了上萬倍。最後他們成功地預測了肽鍵紫外光譜,還用隨機森林的辦法揭示了具有化學內涵的結構描述子和構效關係。人工智能與量子化學理論計算的結合,為預測蛋白質的光學特性提供了一種高效的工具。相關成果以A Neural Network Protocol for Electronic excitations of N-Methylacetamide 為題發表在《美國國家科學院院刊》(PNAS, DOI:10.1073/pnas.1821044116)。
江俊課題組近些年致力於發展機器學習技術在量化領域的應用,努力探究使其成為解決量化問題的一種重要工具。在該工作中,研究人員首先在300K溫度下通過分子動力學模擬以及量子化學計算,得到了五萬組不同構型的肽鍵模型分子。通過機器學習算法篩選出鍵長、鍵角、二麵角跟電荷信息作為描述符,通過神經網絡來構建肽鍵基態結構與其激發態性質之間的構效關係。基於訓練好的機器學習模型,預測出了肽鍵的基態偶極矩及激發態性質,最後預測出肽鍵的紫外吸收光譜。為了驗證機器學習模型的魯棒性,研究人員又基於300K的溫度下得到的機器學習模型,預測出肽鍵在200K以及400K溫度下的紫外吸收光譜,其結果與時間密度泛函理論計算很好地吻合。
這是人工智能技術首次用於理論計算預測蛋白質的光譜研究。通過理論計算得到大量數據,使用人工智能加以訓練構建構效關係,使用最後得到的模型用於預測,為模擬蛋白質的光譜提供了一種新的思路。該項工作確立了機器學習模擬蛋白質肽鍵骨架紫外吸收光譜的可行性和優勢,蛋白質的“光學指紋”解讀也將會變得更加輕易和有效。
聲明:本文所用圖片、文字部分來源於網絡,版權歸原作者所有。如涉及到版權問題,請及時和我們聯係。