作為表觀基因組學的一個重要層面,DNA 甲基化 (DNAm) 為轉錄調控和生物學過程提供了重要的見解,包括基因組印記、早期胚胎發(fā)育和癌癥進展。盡管批量全基因組亞硫酸氫鹽測序 (WGBS) 在繪制跨類型組織的DNA甲基化組圖譜方面做出了很大努力,但在解釋細胞異質性和了解特定生物學狀態(tài)下的發(fā)展動態(tài)方面仍然存在一定的不足。目前,測序方法的進步使得能夠開發(fā)出以單細胞分辨率分析DNA甲基化的策略,包括 scRRBS和 scBS-seq,以及多組學方法,如 scTrioSeq2和scM&T-seq,極大地促進了細胞表觀遺傳異質性的探索。、
然而,海量實驗和數據集的不斷積累,對單細胞DNA甲基化數據的整合和復用提出了很大的挑戰(zhàn)。此外,如何檢索如此龐大的全基因組甲基化數據是互聯網帶寬限制的瓶頸之一。到目前為止,系統(tǒng)設計的單細胞 DNA 甲基化數據庫仍然嚴重短缺。例如,唯一的單細胞甲基化數據庫 HeteroMeth,僅存儲 150 個 DNA 甲基化異質性數據,而不是全基因組甲基化譜。
中國科學院團隊構建了一個單細胞全基因組 DNA 甲基化圖譜數據庫:scMethBank(https://ngdc.cncb.ac.cn/methbank/scm/)。這是一個綜合性和策劃的數據庫,它集成了來自公開可用數據集的單細胞甲基化數據和元數據。scMethBank 收集了人類和小鼠單細胞水平的全基因組甲基化圖譜。它提供跨多種生物條件的全基因組單細胞 DNA 甲基化譜,包括細胞類型、發(fā)育階段、疾病狀態(tài)和治療方法。
scMethBank 提供來自人類和小鼠的8328個樣本的全基因組單細胞DNA 甲基化譜和精選元數據,涵蓋15個項目、29種細胞類型和兩種疾病狀況。數據庫中記錄了胚胎細胞(11.0%)、癌細胞(14.4%)、生殖細胞(10.7%)、神經細胞(54.5%)、干細胞(7.9%)和其他細胞類型(2.3%)。涉及的生物學背景包括早期胚胎發(fā)育、癌癥進展、細胞分化和衰老。
主頁通過樹形結構顯示存儲在 scMethBank 中的細胞類型信息,這些信息鏈接到相應的感興趣樣本。同時,主頁支持數據集、組織、細胞類型、治療方法、疾病等多項檢索功能。此外,用戶可以通過四個特色功能模塊瀏覽整個數據庫:瀏覽、可視化、工具和下載。
scMethbank 提供瀏覽界面,用戶可以瀏覽并執(zhí)行一些擴展操作,例如搜索、過濾和下載。此外,瀏覽模塊還存儲樣本和相應數據集的信息,以及基因的甲基化水平和不同細胞類型之間的差異甲基化區(qū)域(DMR)。在數據集瀏覽模塊中,包括各種相關數據集信息,例如登錄號、圖書館協(xié)議、細胞類型及其計數、技術平臺等。數據庫中記錄的每個樣本的詳細信息顯示在樣本瀏覽模塊中。每個樣本都分配了13個手動選擇的屬性,因此用戶可以通過相應的關鍵字來縮小查詢結果,包括細胞類型、發(fā)育階段、治療、疾病、性別和年齡。
雖然一個區(qū)域內的平均甲基化水平在一定程度上反映了異質人群的基本特征,但它也會掩蓋甲基化模式的復雜性。因此,釋放單細胞甲基化數據真正價值的方法是使全基因組數據在數據庫中以單堿基精度可搜索和可視化。為了正確表征甲基化模式的異質性,scMethBank 建立了大量的 Terabase 級存儲的單細胞全基因組甲基化數據池,允許用戶從8000多個不同的樣本中以單堿基精度檢索甲基化譜。此外,scMethBank 提供了兩種交互方式可視化感興趣樣本的 CpG 甲基化模式。首先,熱圖模式圖使用戶可以通過輸入基因名稱或指定基因組位置來瀏覽局部區(qū)域相對更廣泛的甲基化模式。熱圖提供了不同樣品甲基化狀態(tài)的直觀比較。其次,對于某些特別關注的位點的模式,還允許使用更精細的棒棒糖樣圖來幫助用戶更精確地掃描和解釋單細胞甲基化譜。此外,來自不同數據集的所有單細胞樣本的 t-SNE 分析結果顯示在細胞簇模塊中點顏色代表不同的細胞組。