17分生信——circRNA單細胞圖譜首發(fā)

欄目:最新研究動態(tài) 發(fā)布時間:2022-09-27
本文表征了circRNAs在人類和小鼠組織單細胞水平的表達圖譜,將我們對circRNAs表達的了解擴展到單細胞水平......


以往的研究表明,circRNAs在不同的組織和生物中具有高度特異性的表達,但circRNAs的細胞水平結構尚未完全確定。本文表征了circRNAs在人類和小鼠組織單細胞水平的表達圖譜,將我們對circRNAs表達的了解擴展到單細胞水平,并構建了circRNAs的單細胞數(shù)據(jù)集的在線網(wǎng)站,為以這種前所未有的分辨率探索circRNAs提供了有用的資源。本文于2022年6月發(fā)表在《Nature Communications》IF:17.694期刊上。

 

技術路線



主要研究結果:

1、大規(guī)模單細胞研究顯示circRNA具有高度細胞特異性

為了闡明circRNA的細胞構架,作者收集了171項涉及58種不同人類和小鼠組織或細胞類型的公開全長scRNA-seq數(shù)據(jù)集(圖1a)??紤]到大多數(shù)3’RNA測序方法無法檢測到缺乏poly(A)尾的circRNA,所以作者只收集全長測序技術的研究,然后使用嵌入多個最先進工具的綜合管道計算基因和 circRNA 的單細胞水平表達值(圖1b)??傊?,40,604個人類和131,533個小鼠單細胞通過質(zhì)量控制,并檢測這些細胞中的circRNA進行下游分析。為了評估circRNA檢測的可靠性,將所有的單細胞數(shù)據(jù)中的circRNA比對至circAtlas v2.0或其它數(shù)據(jù)庫中。如圖1c所示,在scRNA-seq隊列中共檢測到354,390個circRNA,其中76,824(21.67%)個circRNA可以在所有三個circRNA組中同時檢測到??傊?2.43%的circRNA存在于這些批量RNA-seq數(shù)據(jù)庫中,而其余67.57%的circRNA只在單細胞數(shù)據(jù)中檢測到。值得注意的是,在circAtlas中唯一檢測到的circRNAs比在circAtlas和單細胞數(shù)據(jù)集中共享的表達水平更低且長度更短(圖1d,e)。這表明scRNA-seq可以有效捕獲大多數(shù)高豐度circRNA。此外,通過MCS評分,這些共享的circRNA顯示出很高的組織特異性,48.9%的共享的circRNA在兩個以上物種中保守(MCS評分≥2),表明鑒定的circRNA具有很高的可靠性(圖1f)。

對于所有在scRNA-seq數(shù)據(jù)集中檢測到的circRNAs,其表達細胞數(shù)量與其平均表達水平之間正相關,一些高表circRNA如mmu-Cdr1_0001、mmu-Tulp4_0006和hsa-RIMS1_0021也在之前的研究中被報道(圖1g)。再次證實了數(shù)據(jù)分析的可靠性。同時,在 scRNA-seq 數(shù)據(jù)中唯一檢測到的 circRNA 通常在較少數(shù)量的細胞中表達(圖 1h),但與其他數(shù)據(jù)庫驗證的 circRNA 相比具有相似的表達水平(圖1i),提示這些circRNA具有高度的細胞特異性。特別是在人類和小鼠樣本中,約 90% 的 scRNA-seq 特異性 circRNA 在不到 10 個細胞中表達,這使得使用bulk RNA-seq 技術幾乎無法檢測到(圖1j)。綜上所述,這些結果表明全長 scRNA-seq在揭示具有高細胞特異性的 circRNA 方面具有高靈敏度和可靠性,而由于在傳統(tǒng)bulk RNA-seq 樣本中表達細胞的比例相對較低,其中大部分可能被錯誤地忽略。此外,這些 scRNA-seq 特異性 circRNA 還在具有超過 10 個反向剪接讀數(shù)的細胞中廣泛表達(圖1k)。


1從單細胞測序數(shù)據(jù)集這發(fā)現(xiàn)circRNAs

 

2、腦circRNA在抑制性和興奮性神經(jīng)元中顯示細胞特異性表達模式

為了研究 circRNA 的細胞景觀,首先收集并分析了 18 項對小鼠大腦樣本的研究,這也是收集的數(shù)據(jù)集中最大的隊列,并分析和整合人類的腦細胞。共將41,911個細胞分為14個簇,檢測到64,311個circRNA(圖2a)。如圖2b所示,大多數(shù)細胞聚集成GABA能神經(jīng)元(GABA)、谷氨酸能神經(jīng)元(GLUT)和小膠質(zhì)細胞(MG)。 盡管這些簇中的細胞數(shù)量相似,但 GABA 能神經(jīng)元和谷氨酸能神經(jīng)元中circRNA尤其地豐富。作者對12個細胞特異性circRNA進行了PCR驗證,并采用廣泛使用的Tau方法檢測了circRNA的細胞特異性,并將基因分為circRNA宿主基因和其他基因進行進一步的比較,如圖2c所示,circRNA的特異性明顯高于兩組基因。同時,circRNA宿主基因的特異性也顯著低于其他非宿主基因,因為circRNA往往來源于具有較高表達水平的基因,這導致細胞特異性相對較低。例如,在神經(jīng)元細胞中特異性檢測到來自小鼠 Taf1 基因的 12 個 circRNA 中的 10 個,并且在 GABA 能和谷氨酸能神經(jīng)元中也觀察到了不同的表達模式(圖 2d)。

為了進一步驗證circRNA在人腦中的表達譜,收集4個人腦scRNA-seq數(shù)據(jù)集,如圖 2e 所示,具有較高表達水平的 circRNA 在兩個物種中更可能是保守的,而物種特異性 circRNA往往具有較低的表達水平。與之前的結果一致,這些保守的circRNA中的大多數(shù)在 GABA 能和谷氨酸能神經(jīng)元中高度富集,并且一部分circRNA也表現(xiàn)出在所有類型的細胞中普遍表達(圖 2f)。circRNA的表達水平與RNA結合蛋白(RBP)的活性密切相關,作者計算了所有circRNA與所有細胞中circRNA宿主基因或RBP之間的Spearman相關系數(shù)并進行比較,結果發(fā)現(xiàn)circRNA與RBP之間的相關性顯著高于宿主基因(圖2g),尤其是PTBP1和PTBP2和circRNA高度相關。如預期的,在大多數(shù)細胞類型中,circRNA的表達水平,如circCdr1和circular-to-linear比率與PTBP1的下調(diào)及其補償因子PTBP2的上調(diào)高度相關(圖2h)??傊?,這些結果證明了circRNA的高度細胞特異性表達景觀,并進一步揭示了circRNA生物發(fā)生與RBP活性之間的復雜關聯(lián),特別是在這些抑制性和興奮性神經(jīng)元中。


2 抑制性和興奮性神經(jīng)元中具有豐富的circRNA

 

3、早期胚胎發(fā)育過程中母體和合子circRNA的動態(tài)表達

單細胞RNA測序使胚胎發(fā)育階段的基因異質(zhì)性研究成為可能,但這一過程中circRNA表達模式的變化仍需進一步探索。作者分析了11項人類和小鼠胚胎研究,其中包含來自16個從卵母細胞到早期芽的不同階段的樣本(圖 3a)。在人和小鼠胚胎中分別檢測到41,041和24,818個circRNA。為了揭示胚胎發(fā)育過程中circRNA之間的動態(tài)變化,計算了不同階段circRNA表達水平之間的Pearson相關性。如圖3b所示,在受精后的前3-4天觀察到細胞之間的高度相關性,這與circRNA在早期胚胎發(fā)育過程中的母體效應一致。此外,從囊胚到植入胚胎的細胞表現(xiàn)出不同的 circRNA 表達模式,表明合子 circRNA 在囊胚期后表達。此外,在人類和小鼠樣本上均觀察到在發(fā)育階段檢測到的circRNA的多樣性和連接率都有所增加,這也驗證了這些合子circRNAs在胚胎發(fā)育過程中的積累(圖3c)。考慮到在人類數(shù)據(jù)集中只收集到相對較少的細胞,下游分析只包括小鼠胚胎。為了消除隨機性效應,可以在兩個以上階段檢測到circRNA的表達模式繪制在圖3d中。如預期的,觀察到母體 circRNAs 逐漸降解,大多數(shù)其他 circRNAs 表現(xiàn)出階段特異性表達譜。為進一步研究母體向合子轉(zhuǎn)變過程中circRNA的動態(tài)表達變化,將樣本分為四個時間點,包括全能卵裂球(TB)、第一譜系(TE/ICM)、第二譜系(EPI/PE)和植入胚胎,反映發(fā)育過程中全能性和譜系分離的變化。隨后,將基因和circRNA聚類為5組。如圖3e所示,簇1和簇2中的circRNA和基因在TB早期高表達,然后隨著胚胎發(fā)育不斷下降。相反,第3到第5簇 circRNA代表受精后特異性表達的合子circRNA。

為確定合子circRNA的激活是否是宿主基因表達的副產(chǎn)物,檢查了circRNA與其宿主基因之間的對應關系。大部分合子circRNA(簇3中67.50%、簇4中69.2%和簇5中83.9%)是由母體表達的基因產(chǎn)生的,這表明這些合子circRNA在胚胎發(fā)育過程中具有獨特的生物發(fā)生機制(圖3h)。為進一步研究合子基因和circRNA激活過程之間的差異,計算每個簇中基因和circRNA的reads組成。僅包括在一個以上階段中同時表達的circRNA。與發(fā)育階段合子基因讀數(shù)的溫和增加相反,在圖3g中觀察到8個細胞階段后合子 circRNA的急劇爆發(fā),為母體circRNA降解和合子circRNA激活提供了令人信服的證據(jù)。例如,作者展示了兩個合子和三個母體 circRNA 的不同表達模式。如圖3h所示,源自Erdr1的mmu-Erdr1_0001和mmu-Erdr1_0002是一種調(diào)節(jié)細胞存活和細胞凋亡的分泌因子,在植入的胚胎中高度表達。因此,這些circRNA的高度特異性表達表明,與線性基因相比,circRNA 經(jīng)歷了更顯著的母體到合子的轉(zhuǎn)變過程。最后,對母本和合子circRNA的親本基因進行基因本體富集分析。如圖3i所示,基于微管的運動和纖毛組裝在母體circRNA中富集,而剪接相關過程在合子circRNA中富集,這與發(fā)育中胚胎的極性建立和胚胎基因組激活一致。總的來說,這些結果證明了circRNA 的高度細胞特異性表達譜和合子circRNA在胚胎發(fā)育中的大量激活,這也表明了這些母體和合子circRNA 在此過程中的重要作用。


3 母體向合子轉(zhuǎn)變過程中合子circRNA 激活的解析

 

4、在人類乳腺癌轉(zhuǎn)移中的腫瘤間和腫瘤內(nèi)circRNA異質(zhì)性

為分析乳腺癌腫瘤發(fā)生過程中的單細胞水平的circRNA,對26個原發(fā)性和轉(zhuǎn)移性腫瘤 scRNA-seq 樣本進行分析,如圖4a所示。然后,進一步研究正常人群和癌人群circRNA表達水平的差異。如圖4b所示,超過49.88%的正常人群和67.28%的癌人群被鑒定為上皮細胞。與之前的研究一致,非整倍體重排的腫瘤細胞在轉(zhuǎn)移瘤和原發(fā)瘤中circRNAs的表達均顯著降低(圖4c),在大多數(shù)已鑒定的細胞類型中也觀察到同樣的情況(圖4d)。來自預后較好的低級別(luminal A、luminal B和HER2陰性)腫瘤的正常細胞和癌細胞往往比高級別三陰性乳腺癌(TNBC)細胞表達更多的circRNA,這表明積累較少TNBC細胞中的circRNAs 具有更快的進展速度。

鑒于該隊列中上皮細胞的主要數(shù)量以及EMT在腫瘤侵襲和轉(zhuǎn)移中的重要作用,所以作者進一步研究了EMT期間的circRNA。首先,將所有上皮細胞聚集在一起,并進行軌跡推斷分析以揭示動態(tài)細胞的分化過程(圖4f)。為了更好地探索單個細胞的過渡狀態(tài),計算了EMT分數(shù)。如圖4g所示,細胞軌跡結果通常相應地擬合EMT分數(shù)的增加。GO富集分析上皮細胞增殖過程在EMT評分較低的簇中富集,而細胞遷移和間充質(zhì)相關過程在EMT水平較高的簇中富集。此外,計算每個簇中癌細胞的比例,并相應地觀察到腫瘤細胞百分比與EMT評分之間的正相關(圖4h)。最后計算每個簇中circRNA的表達水平,隨著從上皮細胞(簇 1-2)到中間EMT狀態(tài)(簇 3-5)的轉(zhuǎn)變,circRNA 的平均表達水平相應增加(圖 4i),這與EMT期間circRNA的全局激活一致??傊髡叻治隽薊MT期間circRNA表達的詳細概況,揭示了乳腺癌患者原發(fā)性和轉(zhuǎn)移性樣本之間circRNA 的復雜腫瘤間和腫瘤內(nèi)異質(zhì)性。

 

4 乳腺癌患者正常細胞和腫瘤細胞之間circRNA的異質(zhì)性

 

5、細胞特異性circRNA為最佳細胞類型的識別提供了的見解

基于circRNAs的高度細胞特異性,作者推測了利用circRNAs作為生物標志物來提高細胞類型的可能性。為了構建高質(zhì)量的circRNA特征矩陣,研究了來自17個不同人類和小鼠組織的scRNA-seq隊列以及同源的癌癥樣本(圖5a)。在不同細胞類型和組織類型中所有的circRNA根據(jù)其表達模式被分為5類(圖5b)。隨后,作者總結了人和小鼠樣本中circRNAs的細胞類型特異性,共享的circRNAs的關系如圖5c所示。與之前研究中報道的基因表達圖譜相似,circRNAs 在不同功能的細胞類型之間也表現(xiàn)出不同的表達簇。此外,還檢測到人和小鼠細胞之間的幾種直系同源細胞類型特異性circRNA,這意味著這些circRNA亞群具有保守的生物學功能。

為了驗證circRNA作為細胞類型生物標志物的潛力,計算了在不同細胞類型中表達的circRNA與bulk RNA-seq數(shù)據(jù)集之間的重疊。如圖5d所示,在bulk RNA-seq 數(shù)據(jù)中檢測到的circRNA與細胞表達的circRNA具有高度特異性的重疊。例如,在GABAergic神經(jīng)元中檢測到的39.36%的circRNA也可以在正常腦樣本中同時檢測到。為了比較circRNA和基因作為細胞生物標志物在分析腫瘤浸潤細胞中的潛能,只有在人類腫瘤樣本中注釋到的細胞類型被用于下游分析。之后,計算了所有表達的circRNA、來自公共數(shù)據(jù)庫的標志基因和1000個隨機選擇基因的細胞類型特異性。值得注意的是,circRNAs的細胞類型特異性顯著高于標記基因和隨機對照基因,這進一步表明circRNAs作為細胞類型生物標志物的能力(圖5e)。然后,使用CIBERSORT68計算癌癥相關的bulk RNA-seq數(shù)據(jù)集中腫瘤浸潤免疫細胞的組成,分別基于LM22基因組的標記基因和細胞類型特異性circRNA的表達(圖5f)?;赾ircRNA和基因的反卷積結果都被整合到 scRNA-seq 隊列中鑒定的10種免疫細胞類型中。隨后利用對數(shù)尺度均方根誤差(RMSE)評估CIBERSORT 提供的細胞特異性反卷積的結果,它代表原始標記基因表達值和推算標記基因表達值之間的偏差。如圖5g所示,使用circRNA的反卷積結果具有顯著更低的RMSE值,這表明circRNA估計細胞組成的效果更準確。這些結果證明了circRNA在探索腫瘤浸潤性免疫細胞異質(zhì)性方面作為更好的細胞類型生物標志物的適用性,也表明了這些circRNA在某些細胞類型中的重要生物學作用。


5 探索細胞類型特異性circRNA作為細胞成分去褶積的生物標志物

 

作者將circRNA的細胞結構和免疫細胞中的circRNA特征矩陣集成到稱為 circRNA單細胞門戶(circSC)的網(wǎng)絡服務器中。circSC提供全面的circRNA信息,包括細胞表達譜、差異表達結果以及在大量人類和小鼠細胞中鑒定的 circRNA 目錄(圖 6)。circSC已作為單獨的模塊集成到circAtlas中(http://circatlas.biols.ac.cn/),為circRNA的單細胞和bulk RNA-seq表達模式提供方便的瀏覽和搜索功能。作者認為該數(shù)據(jù)庫可以作為探索circRNA在胚胎發(fā)育、組織分化和癌癥生物發(fā)生過程中動態(tài)變化的重要資源,并為circRNA群落提供一個獨特而有用的平臺。


6 circSC在線網(wǎng)站的建設與功能

 

參考文獻:

Wu Wanying., Zhang Jinyang., Cao Xiaofei., Cai Zhengyi., Zhao Fangqing.(2022). Exploring the cellular landscape of circular RNAs using full-length single-cell RNA sequencing. Nat Commun, 13(1), 3242. doi:10.1038/s41467-022-30963-8