環(huán)狀RNA(circRNA)是動植物中一類豐富且保守的RNA。最近的研究表明,circRNA可以通過充當非編碼RNA或編碼RNA發(fā)揮多種生物學作用。體外合成的circRNA可以不依賴于帽的方式進行翻譯。但鑒定circRNA編碼的蛋白質是困難的,主要是因為circRNA序列及其宿主基因的同源線性mRNA具有較大的重疊。
近期Nucleic Acids Research雜志在線發(fā)表了題名為:TransCirc: an interactive database for translatable circular RNAs based on multi-omics evidence的文章,該文章主要講述了circRNA翻譯預測和分析的數(shù)據庫——TransCirc。TransCirc數(shù)據庫整合了各種與翻譯相關的證據,檢索的結果能直觀的呈現(xiàn)翻譯產物的相關證據信息。數(shù)據共分析了328080種已知人類circRNA的翻譯潛能,有蛋白質譜證據(MS)的circRNA有168個,核糖體印跡或多聚核糖體分析(RP/PP)的證據4284個circRNA,潛在翻譯產物序列分析(SeqComp)的301100個circRNA。有IRES預測結果的314138個circRNA,有m6A修飾位點信息的39397個circRNA,有翻譯起始位點信息(TIS)的9394個circRNA,有ORF信息的305016個circRNA。
1. 核糖體印跡與多聚核糖體分析證據
mRNA的翻譯是由核糖體進行的,它可以在主動翻譯的mRNA中形成多聚核糖體(Polysome)。因此,與核糖體/多核糖體的結合可以作為可翻譯circRNA潛力的強有力的預測證據。數(shù)據庫整合了已發(fā)表的核糖體印跡(Ribosome Profiling)分析數(shù)據和多聚核糖體分析(Polysome Profiling)數(shù)據,挖掘分析circRNA與核糖體的關聯(lián)。
2. 翻譯啟動站點(TIS)
GTI-seq已實現(xiàn)了接近單核苷酸分辨率的翻譯起始密碼子的全景圖,揭示了整個人類轉錄組中數(shù)千個TIS密碼子的明確集合。數(shù)據庫基于GTI-seq的TISdb數(shù)據用作支持circRNAs翻譯的間接證據,這也與潛在的ORF相關。
3. IRES序列
由于circRNA是共價閉環(huán)分子,沒有游離末端,因此circRNA的翻譯必須使用一種非經典的啟動機制,即不依賴5’-帽子的翻譯啟動。這種起始途徑往往通過IRES(內部核糖體進入位點)驅動,IRES是具有特殊二級結構的短RNA片段。在病毒中發(fā)現(xiàn)并證明了大量的IRES元件,在一些特殊情況下,哺乳動物內源性的IRES元件也可以起始翻譯。作者團隊也曾針對circRNA中IRES元件進行了系統(tǒng)性的篩選驗證。數(shù)據庫也使用了所有可用的IRES信息作為支持circRNA翻譯的證據。
4. m6A位點
N-6-甲基腺苷(m6A)是最常見的RNA修飾,存在于許多類型的編碼和非編碼RNA中。作者團隊曾報道circRNA具有廣泛的m6A修飾,并可以通過募集YTHDF3及相互作用的翻譯起始因子(例如eIF4G2)起始circRNA翻譯。數(shù)據庫采用了REPIC數(shù)據庫已發(fā)布的m6A修飾數(shù)據(由三種不同的工具識別),并將其比對到circRNA序列中。circRNA中已經過實驗驗證的m6A位點也整合到該數(shù)據庫中。
5. ORF長度
潛在的開放閱讀框(ORF)的長度是編碼RNA與非編碼RNA的共同預測指標。通常在非編碼RNA中找不到長的ORF,數(shù)據庫將ORF長度> 20aa作為circRNA編碼肽的最低要求。值得注意的是,ORF長度是一個相對較弱的預測因子,因為最近發(fā)現(xiàn)許多小肽是由人類轉錄組中的“非編碼” RNA編碼的,而具有長ORF的circRNA更有可能成為編碼RNA。
6. 翻譯產物的序列組成
所有天然蛋白質的氨基酸(aa)序列僅占據可能序列空間的一小部分,主要是因為只有一小部分序列可以形成穩(wěn)定的蛋白質。因此,具有“非天然”序列的蛋白質傾向于快速降解,并且與所有天然蛋白質的序列相似性可以作為強有力的預測指標,以鑒定隨機氨基酸序列中的真實蛋白質。使用機器學習方法來預測天然蛋白給定序列的可能性,并應用該預測來對circRNA編碼的給定ORF可以用作功能蛋白模板的可能性進行評分。
7. 質譜/蛋白質組學證據
質譜法是準確鑒定和表征蛋白質的重要方法。已經進行了數(shù)個大規(guī)模質譜實驗來研究人類蛋白質組,但是即使考慮蛋白質的翻譯后修飾,也只能可靠地將約50%的MS指紋圖譜與人類mRNA編碼的已知肽匹配成功。這表明,非典型mRNA編碼了很大一部分“隱藏蛋白質組”,其中也包括了可能來自circRNA的編碼產物。作者通過設計新的分析流程,從蛋白質譜數(shù)據中挖掘分析了可能由circRNA編碼的多肽,并展示了所有原始質譜圖,這些質譜圖可支持circRNA編碼的跨接口位點的肽段。circRNA特異性ORF