TransCirc:可翻譯circRNA數(shù)據(jù)庫

欄目:最新研究動態(tài) 發(fā)布時間:2021-05-19
最近的研究表明,circRNA可以通過充當非編碼RNA或編碼RNA發(fā)揮多種生物學作用。體外合成的circRNA可以不依賴于帽的方式進行翻譯。


環(huán)狀RNAcircRNA)是動植物中一類豐富且保守的RNA。最近的研究表明,circRNA可以通過充當非編碼RNA或編碼RNA發(fā)揮多種生物學作用。體外合成的circRNA可以不依賴于帽的方式進行翻譯。但鑒定circRNA編碼的蛋白質(zhì)是困難的,主要是因為circRNA序列及其宿主基因的同源線性mRNA具有較大的重疊。

近期Nucleic Acids Research雜志在線發(fā)表了題名為:TransCirc: an interactive database for translatable circular RNAs based on multi-omics evidence的文章,該文章主要講述了circRNA翻譯預測和分析的數(shù)據(jù)庫——TransCirc。TransCirc數(shù)據(jù)庫整合了各種與翻譯相關(guān)的證據(jù),檢索的結(jié)果能直觀的呈現(xiàn)翻譯產(chǎn)物的相關(guān)證據(jù)信息。數(shù)據(jù)共分析了328080種已知人類circRNA的翻譯潛能,有蛋白質(zhì)譜證據(jù)(MS)的circRNA168個,核糖體印跡或多聚核糖體分析(RP/PP)的證據(jù)4284circRNA,潛在翻譯產(chǎn)物序列分析(SeqComp)的301100circRNA。有IRES預測結(jié)果的314138circRNA,有m6A修飾位點信息的39397circRNA,有翻譯起始位點信息(TIS)的9394circRNA,有ORF信息的305016circRNA。


image.png

1. 核糖體印跡與多聚核糖體分析證據(jù)

mRNA的翻譯是由核糖體進行的,它可以在主動翻譯的mRNA中形成多聚核糖體(Polysome)。因此,與核糖體/多核糖體的結(jié)合可以作為可翻譯circRNA潛力的強有力的預測證據(jù)。數(shù)據(jù)庫整合了已發(fā)表的核糖體印跡(Ribosome Profiling)分析數(shù)據(jù)和多聚核糖體分析(Polysome Profiling)數(shù)據(jù),挖掘分析circRNA與核糖體的關(guān)聯(lián)。

2. 翻譯啟動站點(TIS

GTI-seq已實現(xiàn)了接近單核苷酸分辨率的翻譯起始密碼子的全景圖,揭示了整個人類轉(zhuǎn)錄組中數(shù)千個TIS密碼子的明確集合。數(shù)據(jù)庫基于GTI-seqTISdb數(shù)據(jù)用作支持circRNAs翻譯的間接證據(jù),這也與潛在的ORF相關(guān)。

3. IRES序列

由于circRNA是共價閉環(huán)分子,沒有游離末端,因此circRNA的翻譯必須使用一種非經(jīng)典的啟動機制,即不依賴5-帽子的翻譯啟動。這種起始途徑往往通過IRES(內(nèi)部核糖體進入位點)驅(qū)動,IRES是具有特殊二級結(jié)構(gòu)的短RNA片段。在病毒中發(fā)現(xiàn)并證明了大量的IRES元件,在一些特殊情況下,哺乳動物內(nèi)源性的IRES元件也可以起始翻譯。作者團隊也曾針對circRNAIRES元件進行了系統(tǒng)性的篩選驗證。數(shù)據(jù)庫也使用了所有可用的IRES信息作為支持circRNA翻譯的證據(jù)。

4. m6A位點

N-6-甲基腺苷(m6A)是最常見的RNA修飾,存在于許多類型的編碼和非編碼RNA中。作者團隊曾報道circRNA具有廣泛的m6A修飾,并可以通過募集YTHDF3及相互作用的翻譯起始因子(例如eIF4G2)起始circRNA翻譯。數(shù)據(jù)庫采用了REPIC數(shù)據(jù)庫已發(fā)布的m6A修飾數(shù)據(jù)(由三種不同的工具識別),并將其比對到circRNA序列中。circRNA中已經(jīng)過實驗驗證的m6A位點也整合到該數(shù)據(jù)庫中。

5. ORF長度

潛在的開放閱讀框(ORF)的長度是編碼RNA與非編碼RNA的共同預測指標。通常在非編碼RNA中找不到長的ORF,數(shù)據(jù)庫將ORF長度> 20aa作為circRNA編碼肽的最低要求。值得注意的是,ORF長度是一個相對較弱的預測因子,因為最近發(fā)現(xiàn)許多小肽是由人類轉(zhuǎn)錄組中的“非編碼” RNA編碼的,而具有長ORFcircRNA更有可能成為編碼RNA。

6. 翻譯產(chǎn)物的序列組成

所有天然蛋白質(zhì)的氨基酸(aa)序列僅占據(jù)可能序列空間的一小部分,主要是因為只有一小部分序列可以形成穩(wěn)定的蛋白質(zhì)。因此,具有“非天然”序列的蛋白質(zhì)傾向于快速降解,并且與所有天然蛋白質(zhì)的序列相似性可以作為強有力的預測指標,以鑒定隨機氨基酸序列中的真實蛋白質(zhì)。使用機器學習方法來預測天然蛋白給定序列的可能性,并應(yīng)用該預測來對circRNA編碼的給定ORF可以用作功能蛋白模板的可能性進行評分。

7. 質(zhì)譜/蛋白質(zhì)組學證據(jù)

質(zhì)譜法是準確鑒定和表征蛋白質(zhì)的重要方法。已經(jīng)進行了數(shù)個大規(guī)模質(zhì)譜實驗來研究人類蛋白質(zhì)組,但是即使考慮蛋白質(zhì)的翻譯后修飾,也只能可靠地將約50%的MS指紋圖譜與人類mRNA編碼的已知肽匹配成功。這表明,非典型mRNA編碼了很大一部分“隱藏蛋白質(zhì)組”,其中也包括了可能來自circRNA的編碼產(chǎn)物。作者通過設(shè)計新的分析流程,從蛋白質(zhì)譜數(shù)據(jù)中挖掘分析了可能由circRNA編碼的多肽,并展示了所有原始質(zhì)譜圖,這些質(zhì)譜圖可支持circRNA編碼的跨接口位點的肽段。circRNA特異性ORF


image.png