DISCO:深度整合人類單細胞組學數(shù)據(jù)的數(shù)據(jù)庫

欄目:最新研究動態(tài) 發(fā)布時間:2022-03-14
近日,新加坡研究團隊構(gòu)建了一個新的單細胞測序數(shù)據(jù)庫——DISCO,該數(shù)據(jù)庫相關(guān)文章刊登在Nucleic Acids Research期刊......


單細胞 RNA 測序已成為剖析細胞異質(zhì)性以發(fā)現(xiàn)稀有細胞類型和研究細胞水平基因調(diào)控的有力工具。在過去的十年中,單細胞轉(zhuǎn)錄組研究呈指數(shù)級增長,涵蓋了廣泛的組織類型和疾病。技術(shù)的進步不僅降低了測序成本,而且增加了每個實驗測序的細胞數(shù)量,據(jù)報道覆蓋了超過一百萬個細胞。單細胞數(shù)據(jù)的日益普及為數(shù)據(jù)集成提供了機會,以創(chuàng)建全面的細胞圖并增強下游分析的能力。

單細胞測序的飛速發(fā)展也給單細胞數(shù)據(jù)的管理和整合帶來了挑戰(zhàn)。目前,公共數(shù)據(jù)庫中有超過400個單細胞 RNA-seq 數(shù)據(jù)集。當前的單細胞數(shù)據(jù)庫具有三個主要缺點。首先,這些數(shù)據(jù)庫中的大多數(shù)僅提供其各自研究中的處理數(shù)據(jù);未進行數(shù)據(jù)集成或未提供批量校正值。具有針對特定組織或疾病的集成圖集作為共識參考圖和增強下游分析非常有用。其次,相關(guān)數(shù)據(jù)不協(xié)調(diào),具有非標準格式和命名約定。特別是,細胞類型標簽不遵循任何標準化的細胞類型本體。第三,它們提供有限的分析功能和可視化能力。例如,它們都不允許用戶將自己的數(shù)據(jù)映射到數(shù)據(jù)上。

近日,新加坡研究團隊構(gòu)建了一個新的單細胞測序數(shù)據(jù)庫——DISCO,該數(shù)據(jù)庫相關(guān)文章刊登在Nucleic Acids Research期刊(IF=16.971),題名為DISCO: a database of Deeply Integrated human Single-Cell Omics data。DISCO網(wǎng)址為https://www.immunesinglecell.org/

DISCO是一個深度集成的單細胞組學數(shù)據(jù)數(shù)據(jù)庫。DISCO 351個項目中整合了來自4593個樣本的超過1800萬個細胞,涵蓋107個組織/細胞系/類器官、158種疾病和20個平臺。DISCO上托管的所有數(shù)據(jù)都是使用標準化管道從原始 fastq文件處理的。利用大量的公共細胞類型注釋,開發(fā)了CELLiD并將其應(yīng)用于以自動和標準化的方式注釋細胞類型。為了整合單細胞數(shù)據(jù)并創(chuàng)建共識參考圖,還開發(fā)了FastIntegration,它可以整合超過400萬個細胞。目前,DISCO23種組織、3種疾?。?/span>COVID-19、乳腺癌和結(jié)直腸癌)和B/漿細胞提供了1個全圖譜27個子圖譜。DISCO配備了三個在線工具,用于在線數(shù)據(jù)集成的FastIntegration、用于在線細胞類型識別的CELLiD和用于在線細胞投影的CellMapper。這些工具使用戶能夠執(zhí)行自定義數(shù)據(jù)集成,并將他們自己的數(shù)據(jù)上傳到細胞類型注釋和映射到可用的圖集上。集成的地圖集和用于構(gòu)建地圖集的所有樣本數(shù)據(jù)也可供下載。總之, DISCO 是探索不同健康和患病人體組織中的細胞類型和基因表達的寶貴數(shù)據(jù)資源,有助于加速發(fā)現(xiàn)新的細胞類型及其相關(guān)功能。