新的長讀轉(zhuǎn)錄組測序技術(shù)“JAFFAL”被應(yīng)用——可以檢測融合基因

欄目:最新研究動態(tài) 發(fā)布時間:2022-09-09
在這里,作者介紹了JAFFAL,從長讀轉(zhuǎn)錄組測序中識別融合。之后使用模擬、細胞系和來自Nanopore和PacBio的患者數(shù)據(jù)來驗證JAFFAL......

在癌癥中,融合是重要的診斷標(biāo)志物和治療靶點。長讀轉(zhuǎn)錄組測序可以發(fā)現(xiàn)全長亞型結(jié)構(gòu)的融合。然而,由于較高的測序錯誤率,專為短讀設(shè)計的融合查找算法并不奏效。在這里,作者介紹了JAFFAL,從長讀轉(zhuǎn)錄組測序中識別融合。之后使用模擬、細胞系和來自Nanopore和PacBio的患者數(shù)據(jù)來驗證JAFFAL。最終將JAFFAL應(yīng)用到單細胞數(shù)據(jù)中,發(fā)現(xiàn)跨越三個基因的融合,證明從復(fù)雜重排中檢測到的轉(zhuǎn)錄本。JAFFAL可在https://github.com/Oshlack/JAFFA/wiki獲得。該研究于2022年1月發(fā)表于《Genome Biology》,IF:10.806。


技術(shù)路線:



主要研究結(jié)果:

1. JAFFAL管道

如圖1,JAFFAL是一種新的多級管道,使用bpipe編寫,其動機來自于作者從JAFFA的Direct模式中獲得的方法。該流程包括以下步驟:(1)首先使用噪聲耐受的長讀對齊器minimap2將長讀序列與參考轉(zhuǎn)錄組(hg38 gencode version 22)對齊,檢測融合。(2)選擇與融合基因一致的Reads,即與不同基因?qū)R的片段進行分析。(3)隨后與參考基因組hg38對齊,同樣使用minimap2。刪除參考基因組比對后沒有跨越多個基因的Reads。(4)JAFFAL利用參考基因組比對的末端位置來確定融合斷點。(5)斷點被分為“High Confidence”,“Low Confidence”和“Potential Trans-Splicing”。


image.png

1. 融合檢測的JAFFAL管道步驟


2. JAFFAL融合排序在分離非腫瘤數(shù)據(jù)中的假陽性方面是有效的

為評估JAFFAL在不同分類水平和不同測序方案的真實數(shù)據(jù)上的假陽性率,將Nanopore WGS產(chǎn)生的參考細胞系NA12878進行ONT融合,并稱之為Direct RNA和Amplified cDNA測序。由于這是非腫瘤細胞系,融合應(yīng)該很少,幾乎所有報道的融合都是假陽性。如表1,對于兩種方案,JAFFAL報告了很少的融合,與預(yù)期的High confidence排名。在cDNA數(shù)據(jù)中,LongGF報道了173個融合Multi-read support,JAFFAL只稱8次融合為High confidence。相反,在JAFFAL對cDNA數(shù)據(jù)的Low confidence水平下報道了過多的融合(報道了94個融合),而這種過量在Direct RNA數(shù)據(jù)中未見(報告了5例融合)。綜上所述,模擬和非腫瘤細胞系數(shù)據(jù)表明,被JAFFAL分類為High confidence的假陽性率較低。


1. ONT直接RNA和擴增cDNA中提取非腫瘤細胞系NA12878的融合基因和斷點數(shù)量

image.png


3. 利用JAFFAL可以在有噪聲的長讀取數(shù)據(jù)中準確地檢測出模擬的融合

為模擬真實的背景,將模擬的ONT讀取量與NA12878的2500萬個cDNA讀取量相結(jié)合。JAFFAL在無背景的ONT仿真、無背景的PacBio仿真和有背景的ONT仿真三個數(shù)據(jù)集上具有相似的融合發(fā)現(xiàn)靈敏度。JAFFAL檢測到98%的模擬融合,當(dāng)讀取身份為90%或以上,覆蓋率為10或以上(圖2A)。在后臺讀取NA12878的情況下,JAFFAL的敏感性高于LongGF(圖2B)。因此,利用JAFFAL可以在有噪聲的長讀取數(shù)據(jù)中準確地檢測出模擬的融合。


image.png

2. 具有背景的模擬ONT數(shù)據(jù)的融合發(fā)現(xiàn)靈敏度


4. JAFFAL檢測癌細胞系中已知的融合

為進一步證實JAFFAL的準確性,將其應(yīng)用于6個癌癥細胞系的公開長讀轉(zhuǎn)錄組測序,融合之前已經(jīng)使用RT-PCR和Sanger測序進行驗證,或者有來自全基因組測序的正交證據(jù)表明發(fā)生了易位。JAFFAL重新發(fā)現(xiàn)了大約一半之前驗證過的融合基因(表2)。相比LongGF,JAFFAL報告了所有數(shù)據(jù)集中相同或更多先前驗證過的融合,并將其排名更高(圖3A和B,表2)。僅MCF-7而言,JAFFAL之前在長讀上驗證的融合和報告的其他融合的數(shù)量都在短讀重復(fù)的范圍內(nèi),這更普遍地證明了JAFFAL的準確性和帶噪聲的長讀數(shù)據(jù)在融合檢測中的效用(圖3C)??偟膩碚f,在MCF-7 ONT細胞系數(shù)據(jù)上,JAFFAL的High confidence和Low confidence調(diào)用與之前驗證的融合、匹配的短讀數(shù)據(jù)中的融合以及LongGF調(diào)用的融合顯示了一致性(圖3D)。綜合來看,這些結(jié)果表明JAFFAL是高度準確的,特別是在High confidence類別。


2. JAFFALLongGF7個長讀測序數(shù)據(jù)集中重新發(fā)現(xiàn)了之前驗證過的融合的數(shù)量

image.png

image.png

3. JAFFALLongGF對癌細胞測序的比較


5. 用長讀測序檢測白血病中臨床相關(guān)融合

接下來,將JAFFAL應(yīng)用于兩份來自白血病患者的樣本,以評估其在現(xiàn)實環(huán)境中檢測融合的能力。1例患者患有急性髓系白血病(AML)伴RUNX1-RUNX1T1融合。另一個病人患有B細胞急性淋巴細胞白血病(B-ALL),罕見的BCR-ABL1和IGH-CRLF2融合現(xiàn)象。JAFFAL檢測到RUNX1-RUNX1T1和BCR-ABL1融合在他們各自的樣本中17個和51個High confidence調(diào)用中排名第一和第五。與模擬和細胞系數(shù)據(jù)的結(jié)果一致,JAFFAL找到了確切的斷點。


6. 單細胞水平的融合檢測

利用長讀測序的單細胞轉(zhuǎn)錄組學(xué)正在成為一種研究跨細胞類型轉(zhuǎn)錄多樣性的強大系統(tǒng)。為證明在單細胞水平上調(diào)用融合的可行性,將JAFFAL應(yīng)用于5個癌癥細胞系混合樣本的公開數(shù)據(jù),這些樣本使用ONT與10x Genomics和Illumina測序相結(jié)合進行測序。在557個細胞中,總共有1800萬個ONT讀取可以分配細胞條形碼。正如預(yù)期的那樣,根據(jù)短讀數(shù)據(jù)中的基因表達,細胞聚集成五個不同的組(圖4A)。在融合中,13例也出現(xiàn)在短讀RNA測序中作為癌癥細胞系百科全書CCLE的相同細胞系的一部分(圖4B)。不同的融合集與每一個集群相關(guān)聯(lián),使集群注釋到每一個細胞系(圖4A)。一個融合,RP11-96H19.1-RP11-446 N19.1在所有五個集群中都可以看到。它不存在于CCLE中,與參考基因組中相隔264 kbp的組成基因的read-through轉(zhuǎn)錄一致(圖4B)。在錯誤的細胞系簇中檢測到一些融合(圖4A)。然而,盡管有錯誤,這些結(jié)果表明JAFFAL能夠在單個細胞水平上檢測到融合。


7. JAFFAL檢測到三種基因融合

JAFFAL發(fā)現(xiàn)的High confidence的三基因融合之一是在H838細胞系的單細胞測序的BMPR2-TYW5-ALS2CR11。這是由于2號染色體上2.5-Mbp區(qū)域的復(fù)雜重排導(dǎo)致的,并由CCLE全基因組測序發(fā)現(xiàn)的易位支持(圖4C)。長讀連接6個單元中的BMPR2-TYW5和TYW5-ALS2CR11斷點。在46個細胞中,還發(fā)現(xiàn)了另一種截斷的轉(zhuǎn)錄本,它將BMPR2-TYW5斷點與TYW5中一個新的外顯子擴展事件聯(lián)系起來(圖4C)??傊?,作者鑒定了BMPR2-TYW5-ALS2CR11融合基因的6個不同亞型(圖4C)。


image.png

4. 5株細胞系ONT測序中融合的檢測


8. 計算資源

JAFFAL和LongGF所需的計算資源在一臺擁有32 cores和190 GB可用內(nèi)存的機器上進行了基準測試。JAFFAL在之前描述的9個健康和癌癥細胞系批量數(shù)據(jù)集上分別用了不到6 h和21 GB內(nèi)存完成(表3)。這些結(jié)果表明,大的長讀序列的融合調(diào)用不太可能受到計算限制使用融合探測器。


3. JAFFALLongGF9個基準數(shù)據(jù)集上消耗的運行和內(nèi)存的平均值和范圍(括號內(nèi))

image.png


結(jié)論:

與短讀相比,長讀測序有許多新的優(yōu)勢。一項令人興奮的發(fā)展是將長讀測序技術(shù)與單細胞RNA測序技術(shù)結(jié)合使用,可以對單個細胞的全部轉(zhuǎn)錄組進行測序。在這里,作者證明融合可以在這些數(shù)據(jù)中被調(diào)用,為單細胞分析增加了一種額外的方式,為研究腫瘤的異質(zhì)性提供了許多新的機會。