scMethBank:單細(xì)胞全基因組 DNA 甲基化圖譜數(shù)據(jù)庫

欄目:最新研究動態(tài) 發(fā)布時(shí)間:2022-07-14
中國科學(xué)院團(tuán)隊(duì)構(gòu)建了一個(gè)單細(xì)胞全基因組 DNA 甲基化圖譜數(shù)據(jù)庫:scMethBank(https://ngdc.cncb.ac.cn/methbank/scm/)......

作為表觀基因組學(xué)的一個(gè)重要層面,DNA 甲基化 (DNAm) 為轉(zhuǎn)錄調(diào)控和生物學(xué)過程提供了重要的見解,包括基因組印記、早期胚胎發(fā)育和癌癥進(jìn)展。盡管批量全基因組亞硫酸氫鹽測序 (WGBS) 在繪制跨類型組織的DNA甲基化組圖譜方面做出了很大努力,但在解釋細(xì)胞異質(zhì)性和了解特定生物學(xué)狀態(tài)下的發(fā)展動態(tài)方面仍然存在一定的不足。目前,測序方法的進(jìn)步使得能夠開發(fā)出以單細(xì)胞分辨率分析DNA甲基化的策略,包括 scRRBS scBS-seq,以及多組學(xué)方法,如 scTrioSeq2scM&T-seq,極大地促進(jìn)了細(xì)胞表觀遺傳異質(zhì)性的探索。、

然而,海量實(shí)驗(yàn)和數(shù)據(jù)集的不斷積累,對單細(xì)胞DNA甲基化數(shù)據(jù)的整合和復(fù)用提出了很大的挑戰(zhàn)。此外,如何檢索如此龐大的全基因組甲基化數(shù)據(jù)是互聯(lián)網(wǎng)帶寬限制的瓶頸之一。到目前為止,系統(tǒng)設(shè)計(jì)的單細(xì)胞 DNA 甲基化數(shù)據(jù)庫仍然嚴(yán)重短缺。例如,唯一的單細(xì)胞甲基化數(shù)據(jù)庫 HeteroMeth,僅存儲 150 個(gè) DNA 甲基化異質(zhì)性數(shù)據(jù),而不是全基因組甲基化譜。

中國科學(xué)院團(tuán)隊(duì)構(gòu)建了一個(gè)單細(xì)胞全基因組 DNA 甲基化圖譜數(shù)據(jù)庫:scMethBankhttps://ngdc.cncb.ac.cn/methbank/scm/)。這是一個(gè)綜合性和策劃的數(shù)據(jù)庫,它集成了來自公開可用數(shù)據(jù)集的單細(xì)胞甲基化數(shù)據(jù)和元數(shù)據(jù)。scMethBank 收集了人類和小鼠單細(xì)胞水平的全基因組甲基化圖譜。它提供跨多種生物條件的全基因組單細(xì)胞 DNA 甲基化譜,包括細(xì)胞類型、發(fā)育階段、疾病狀態(tài)和治療方法。



scMethBank 提供來自人類和小鼠的8328個(gè)樣本的全基因組單細(xì)胞DNA 甲基化譜和精選元數(shù)據(jù),涵蓋15個(gè)項(xiàng)目、29種細(xì)胞類型和兩種疾病狀況。數(shù)據(jù)庫中記錄了胚胎細(xì)胞(11.0%)、癌細(xì)胞(14.4%)、生殖細(xì)胞(10.7%)、神經(jīng)細(xì)胞(54.5%)、干細(xì)胞(7.9%)和其他細(xì)胞類型(2.3%)。涉及的生物學(xué)背景包括早期胚胎發(fā)育、癌癥進(jìn)展、細(xì)胞分化和衰老。

主頁通過樹形結(jié)構(gòu)顯示存儲在 scMethBank 中的細(xì)胞類型信息,這些信息鏈接到相應(yīng)的感興趣樣本。同時(shí),主頁支持?jǐn)?shù)據(jù)集、組織、細(xì)胞類型、治療方法、疾病等多項(xiàng)檢索功能。此外,用戶可以通過四個(gè)特色功能模塊瀏覽整個(gè)數(shù)據(jù)庫:瀏覽、可視化、工具和下載。

scMethbank 提供瀏覽界面,用戶可以瀏覽并執(zhí)行一些擴(kuò)展操作,例如搜索、過濾和下載。此外,瀏覽模塊還存儲樣本和相應(yīng)數(shù)據(jù)集的信息,以及基因的甲基化水平和不同細(xì)胞類型之間的差異甲基化區(qū)域(DMR)。在數(shù)據(jù)集瀏覽模塊中,包括各種相關(guān)數(shù)據(jù)集信息,例如登錄號、圖書館協(xié)議、細(xì)胞類型及其計(jì)數(shù)、技術(shù)平臺等。數(shù)據(jù)庫中記錄的每個(gè)樣本的詳細(xì)信息顯示在樣本瀏覽模塊中。每個(gè)樣本都分配了13個(gè)手動選擇的屬性,因此用戶可以通過相應(yīng)的關(guān)鍵字來縮小查詢結(jié)果,包括細(xì)胞類型、發(fā)育階段、治療、疾病、性別和年齡。



雖然一個(gè)區(qū)域內(nèi)的平均甲基化水平在一定程度上反映了異質(zhì)人群的基本特征,但它也會掩蓋甲基化模式的復(fù)雜性。因此,釋放單細(xì)胞甲基化數(shù)據(jù)真正價(jià)值的方法是使全基因組數(shù)據(jù)在數(shù)據(jù)庫中以單堿基精度可搜索和可視化。為了正確表征甲基化模式的異質(zhì)性,scMethBank 建立了大量的 Terabase 級存儲的單細(xì)胞全基因組甲基化數(shù)據(jù)池,允許用戶從8000多個(gè)不同的樣本中以單堿基精度檢索甲基化譜。此外,scMethBank 提供了兩種交互方式可視化感興趣樣本的 CpG 甲基化模式。首先,熱圖模式圖使用戶可以通過輸入基因名稱或指定基因組位置來瀏覽局部區(qū)域相對更廣泛的甲基化模式。熱圖提供了不同樣品甲基化狀態(tài)的直觀比較。其次,對于某些特別關(guān)注的位點(diǎn)的模式,還允許使用更精細(xì)的棒棒糖樣圖來幫助用戶更精確地掃描和解釋單細(xì)胞甲基化譜。此外,來自不同數(shù)據(jù)集的所有單細(xì)胞樣本的 t-SNE 分析結(jié)果顯示在細(xì)胞簇模塊中點(diǎn)顏色代表不同的細(xì)胞組。