AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫

欄目:最新研究動態(tài) 發(fā)布時間:2022-05-26
AlphaFold 是由 DeepMind 開發(fā)的 AI 系統(tǒng),可根據(jù)氨基酸序列對蛋白質(zhì)結(jié)構(gòu)進行最先進的預(yù)測。AlphaFold的準確性和速度......

蛋白質(zhì)是具有重要生物學(xué)功能的重要大分子,因此廣泛參與多項研究活動以及醫(yī)學(xué)和生物技術(shù)應(yīng)用,從抗擊傳染病到應(yīng)對環(huán)境污染 都發(fā)揮重要作用。了解蛋白質(zhì)原子的三維排列可為理解蛋白質(zhì)功能的作用和機制提供重要線索。然而,雖然通用蛋白質(zhì)資源 (UniProt) 存檔了近 2.2 億個獨特的蛋白質(zhì)序列,但蛋白質(zhì)數(shù)據(jù)庫 (PDB) 僅保存了超過55000種不同蛋白質(zhì)的180000多個3D結(jié)構(gòu),因此蛋白質(zhì)3D結(jié)構(gòu)解析嚴重限制了序列空間的覆蓋范圍支持全球生物分子研究。

用實驗確定的高分辨率結(jié)構(gòu)實現(xiàn)對序列空間的更高覆蓋率是非常勞動密集型的。它通常需要大量的試驗和錯誤,例如,找到合適的構(gòu)建體或蛋白質(zhì)適合結(jié)晶的條件。盡管電子冷凍顯微鏡和用于結(jié)構(gòu)確定的混合和綜合方法 (I/HM) 領(lǐng)域的最新進展加快了結(jié)構(gòu)確定的步伐,但已知蛋白質(zhì)序列與實驗蛋白質(zhì)結(jié)構(gòu)之間的差距仍在繼續(xù)擴大??s小這一差距的一種方法是預(yù)測數(shù)百萬種蛋白質(zhì)的結(jié)構(gòu)。越來越多的研究人員部署人工智能 (AI) 技術(shù),僅根據(jù)氨基酸序列計算預(yù)測蛋白質(zhì)的結(jié)構(gòu)。

AlphaFold 是由 DeepMind 開發(fā)的 AI 系統(tǒng),可根據(jù)氨基酸序列對蛋白質(zhì)結(jié)構(gòu)進行最先進的預(yù)測。AlphaFold的準確性和速度允許創(chuàng)建一個大規(guī)模的結(jié)構(gòu)預(yù)測數(shù)據(jù)庫。它將使生物學(xué)家能夠獲得幾乎任何蛋白質(zhì)序列的結(jié)構(gòu)模型,從而改變他們解決研究問題的方式并加速他們的項目。AlphaFold DBhttps://alphafold.ebi.ac.uk)是基于AlphaFold算法構(gòu)建的蛋白質(zhì)3D機構(gòu)預(yù)測數(shù)據(jù)庫。AlphaFold DB 的初始版本包含超過360000個預(yù)測結(jié)構(gòu)、相應(yīng)的元信息和置信度指標。預(yù)測目前涵蓋UniProt參考蛋白質(zhì)組中16-2700 個氨基酸長度范圍內(nèi)的大多數(shù)序列(以及覆蓋更長人類蛋白質(zhì)的 1400 個殘基片段)。



AlphaFold DB 通過網(wǎng)頁提供對其預(yù)測的便捷訪問。這些頁面包含對 AlphaFold 系統(tǒng)的介紹,解決最常見的問題,允許批量下載完整的蛋白質(zhì)組,并提供搜索引擎以查找特定于感興趣蛋白質(zhì)的頁面。用戶可以通過基因名稱、蛋白質(zhì)名稱、UniProt 登錄或生物名稱進行搜索。



每個蛋白質(zhì)都有一個專門的結(jié)構(gòu)頁面,顯示基本信息(來自 UniProt PDBe)和 AlphaFold 模型的三個獨立輸出。前兩個輸出是3D坐標和每個殘基置信度度量 pLDDT,用于在集成的3D分子查看器 Mol中對模型的殘基進行著色。模型置信度可能會沿著一條鏈發(fā)生顯著變化,因此在解釋結(jié)構(gòu)特征之前分析置信度度量是必不可少的。



第三個輸出是成對置信度預(yù)測,它有助于評估相對域位置和方向的可靠性以及蛋白質(zhì)的全局拓撲結(jié)構(gòu)。該圖由成對的 PAE 值著色,它可以幫助用戶識別哪些域具有可靠地預(yù)測的相對于彼此的位置和方向,其中深綠色表示高置信度。在繪圖中選擇一個區(qū)域也會在 3D 查看器中突出顯示序列的相應(yīng)部分。