摘要
約30%的早期肺腺癌患者在手術(shù)切除成功后出現(xiàn)疾病進(jìn)展。盡管努力繪制基因圖譜,但在發(fā)現(xiàn)疾病結(jié)果的預(yù)測生物標(biāo)志物方面取得的成功有限。在這里,我們對143個腫瘤和匹配的鄰近腫瘤、組織學(xué)正常的肺組織進(jìn)行了系統(tǒng)的多組學(xué)評估,并對患者進(jìn)行了長期隨訪。通過對腫瘤和鄰近正常組織的組織學(xué)、突變和轉(zhuǎn)錄圖譜分析,我們發(fā)現(xiàn)腫瘤鄰近組織中的炎性基因信號是疾病進(jìn)展的最強(qiáng)臨床預(yù)測因子。單細(xì)胞轉(zhuǎn)錄分析表明,進(jìn)展相關(guān)的炎癥信號在免疫和非免疫細(xì)胞中都有表達(dá),單核細(xì)胞中的細(xì)胞類型特異性特征進(jìn)一步改善了預(yù)后預(yù)測。來自癌癥基因組圖譜的腫瘤鄰近轉(zhuǎn)錄數(shù)據(jù)的額外分析證實(shí)了炎性信號與癌癥中更差的結(jié)果之間的關(guān)聯(lián)??偠灾?,我們的研究表明,腫瘤鄰近組織的分子圖譜可以識別疾病進(jìn)展的高風(fēng)險患者。
該研究于2023年11月發(fā)表在《Nature communications》,IF:16.6。
技術(shù)路線
結(jié)果
1、一項(xiàng)匹配的腫瘤-正常肺研究:設(shè)計(jì)和隊(duì)列特征
在這項(xiàng)研究中,我們使用了一組治療初治期Ⅰ的肺腺癌患者,這些患者的腫瘤與腫瘤相鄰的正常肺組織標(biāo)本(在相同的肺葉、肺段或楔形切除內(nèi))來自我們的前瞻性收集樣本的生物庫。納入研究的患者在手術(shù)前從未接受過任何癌癥治療。共有143名患者符合我們的納入和排除標(biāo)準(zhǔn)(圖1A)。據(jù)我們所知,這是對匹配的腫瘤-正常早期癌癥進(jìn)行的最大規(guī)模的研究,因?yàn)門CGA僅限于53名具有匹配的腫瘤-正常樣本的I期患者(圖1B)。
重要的是,我們的隊(duì)列有廣泛的隨訪,而TCGA的隨訪時間相當(dāng)有限(中位數(shù)隨訪2,284天對701天)(圖1C)。長得多的隨訪使我們能夠觀察到大量的疾病進(jìn)展事件,并能夠發(fā)現(xiàn)無進(jìn)展生存的分子特征。到目前為止,我們的隊(duì)列中已經(jīng)記錄了50名(35%)疾病進(jìn)展的患者。具體地說,我們已經(jīng)確定了23名患者發(fā)生了第二原發(fā)于肺的腫瘤,13名患者被診斷為淋巴或腫瘤床局部復(fù)發(fā),14名患者存在腦、骨、胸膜、肝臟或腎上腺的系統(tǒng)性轉(zhuǎn)移;相比之下,只有6名患者被記錄在TCGA I期隊(duì)列中有進(jìn)展的疾病(圖1D)。補(bǔ)充圖1C-g顯示了進(jìn)展組和非進(jìn)展組的年齡、吸煙、性別、組織學(xué)和國際肺癌研究協(xié)會(IASLC)分級的分布。全身或局部復(fù)發(fā)患者的總體存活率比第二原發(fā)腫瘤患者差(圖1E)。
2、匹配的腫瘤-正常肺標(biāo)本的突變和轉(zhuǎn)錄圖譜
我們首先使用NYU GenomePACT panel 對患者樣本進(jìn)行了DNA測序,該panel涵蓋了580個蛋白編碼基因的外顯子和TERT啟動子。對于每個患者,我們使用了來自腫瘤、腫瘤鄰近正常(TAN)肺和正常血液的樣本。然后,我們對所有286個樣本(143個腫瘤和143個腫瘤鄰近的正常肺)進(jìn)行了RNA-seq。15個腫瘤和10個正常肺樣本由于文庫質(zhì)量較低,被排除在下游分析之外。最終,123個匹配的腫瘤-正常樣本(最初143個匹配樣本中的86%)被認(rèn)為是高質(zhì)量的RNA-seq樣本,并用于下游分析。
3、突變不能很好地預(yù)測早期肺腺癌的臨床結(jié)果
對患者腫瘤DNA測序數(shù)據(jù)的分析顯示,在早期肺腺癌(LUAD)中,常見突變基因的典型分布是:34%的EGFR、25%的KRAS、22%的TP53和7%的STK11(圖2A)。然后,我們觀察了進(jìn)展與不進(jìn)展的患者中可能以不同速度發(fā)生突變的基因。我們定義了兩組,進(jìn)展組包括所有疾病進(jìn)展事件,而不考慮進(jìn)展類型;無進(jìn)展組包括所有至少隨訪5年沒有進(jìn)展的患者。正如預(yù)期的那樣,按EGFR突變狀態(tài)對患者進(jìn)行分層并不會產(chǎn)生PFS的統(tǒng)計(jì)學(xué)差異,而即使按KRAS或STK11突變狀態(tài)進(jìn)行分層也不顯著(p值>0.01,圖2B,c)。無復(fù)發(fā)生存率(RFS)也是如此,例外的是與復(fù)發(fā)顯著相關(guān)的TP53(p值=0.0053,log-rank檢驗(yàn))。然而,腫瘤突變負(fù)荷(TMB)被發(fā)現(xiàn)是一個適度的預(yù)測5年復(fù)發(fā)的指標(biāo)(AUC=0.706)(圖2D)。腫瘤鄰近正常樣本(使用血液作為種系參考)中的突變檢測顯示,31 個 TAN 樣本中變異等位基因頻率 (VAF) 截止值為 1% 的突變,其中只有 3 名患者的原發(fā)腫瘤中存在突變。此外,只有3名患者有一個VAF高于5%的突變(1名患者有TP53 stop-gain突變,1名患者有非同義PRDM16突變,1名患者有非同義DNMT3A突變),這表明TAN中存在的突變相當(dāng)有限。綜上所述,這些數(shù)據(jù)表明突變對于 I 期 LUAD 的 PFS 來說是較差的預(yù)測因子。
4、腫瘤鄰近正常組織中的基因表達(dá)具有重要的預(yù)后信息
為了確定早期 LUAD 更好的預(yù)后標(biāo)志物,我們隨后測試了從批量 RNA-seq 獲得的基因表達(dá)是否可以提供預(yù)后信息并預(yù)測 5 年復(fù)發(fā)。為此,我們構(gòu)建了一個彈性網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型來預(yù)測系統(tǒng)性和局部區(qū)域的復(fù)發(fā),使用嵌套交叉驗(yàn)證來允許自動、無偏的超參數(shù)優(yōu)化,確保從訓(xùn)練到測試集的數(shù)據(jù)不會泄漏。我們發(fā)現(xiàn)腫瘤中的轉(zhuǎn)錄組特征不能預(yù)測復(fù)發(fā)(AUC = 0.62,95% 置信區(qū)間 = [0.52–0.72])(圖 2e),并且不能將患者分為高風(fēng)險組和低風(fēng)險組(PFS log-rank檢驗(yàn) p 值 = 0.456)。然而,我們的分析確定,基于 TAN 樣本轉(zhuǎn)錄組信息的模型顯示出優(yōu)越的性能(AUC = 0.83,95% 置信區(qū)間 = [0.75–0.92],見圖 2f),并且能夠?qū)⒒颊叻謱訛楦呶H巳?。和低風(fēng)險組(PFS 對數(shù)秩檢驗(yàn) p 值 = 0.007),顯著優(yōu)于基于腫瘤的模型(Delong 檢驗(yàn),p 值 = 0.0033)。強(qiáng)調(diào)在我們的研究中納入 TAN 樣本的重要性,并表明 TAN 肺組織可能導(dǎo)致復(fù)發(fā)。此外,我們還在 TCGA 的肺癌隊(duì)列中測試了監(jiān)督模型。盡管 TCGA 的 TAN 數(shù)據(jù)有限,但 NYU 模型在 TCGA 肺腺癌 (LUAD) TAN 轉(zhuǎn)錄組上具有不錯的性能(AUC = 0.75,95% 置信區(qū)間 = [0.57, 0.89])。事實(shí)上,該模型在應(yīng)用于 TCGA 肺鱗狀細(xì)胞癌 (LUSC) 隊(duì)列的 TAN 轉(zhuǎn)錄組時表現(xiàn)同樣出色(AUC = 0.74,95% 置信區(qū)間 = [0.47, 0.93])。結(jié)合這兩個隊(duì)列產(chǎn)生了相似的性能(AUC = 0.75,95% 置信區(qū)間 = [0.59, 0.88])。值得注意的是,IASLC 分級在預(yù)測進(jìn)展(AUC = 0.64,95% 置信區(qū)間 = [0.56–0.71])或復(fù)發(fā)(AUC = 0.74,95% 置信區(qū)間 = [0.56–0.71])方面表現(xiàn)出顯著較低的性能。 [0.65–0.82])。因此,我們的數(shù)據(jù)表明,基于 TAN 轉(zhuǎn)錄組的模型在預(yù)測 LUAD 的 PFS、全身性和局部區(qū)域復(fù)發(fā)方面比基于腫瘤的模型具有更強(qiáng)的功效。
5、共表達(dá)基因模塊分析揭示腫瘤鄰近正常肺組織中炎癥通路的激活
為了進(jìn)一步了解 TAN 中與腫瘤組織相比具有預(yù)后價值的潛在轉(zhuǎn)錄程序,我們著手表征 TAN 中特異性激活的轉(zhuǎn)錄程序。與其依賴復(fù)雜的有監(jiān)督的機(jī)器學(xué)習(xí)模型(圖2e,f),這些模型具有潛在的大量參數(shù)和在臨床環(huán)境中有問題的推廣能力,我們決定使用無監(jiān)督的無偏見方法進(jìn)一步分析246個匹配的腫瘤正常RNA-seq樣本。簡而言之,我們選擇了前10,000個可變的基因,在樣本中縮放它們的表達(dá),并使用Unifold流形近似和投影(UMAP;UMAP上的每個點(diǎn)代表一個基因,詳細(xì)信息請參閱方法)進(jìn)行降維。無監(jiān)督聚類揭示了 20 個基因簇,即共表達(dá)基因模塊,或者簡單地說,模塊(圖 3a)。然后,我們根據(jù)每個基因從 TAN 到腫瘤樣本的對數(shù)倍數(shù)變化對每個基因進(jìn)行著色,揭示了腫瘤樣本中表達(dá)較高的基因簇(紅色)和正常樣本中表達(dá)較高的基因簇(藍(lán)色),如圖 3b 所示。為了識別與腫瘤相鄰正常細(xì)胞相比在腫瘤中總體上具有較高表達(dá)的模塊,反之亦然,我們定義每個模塊的分?jǐn)?shù)為模塊中基因的平均縮放基因表達(dá)(每個患者,每個組織類型)。事實(shí)上,我們發(fā)現(xiàn)幾個模塊在正常樣本中具有顯著更高的平均表達(dá)(模塊 2、5、6、7、8、9、11、17、19 和 20),而其他模塊在腫瘤樣本中表達(dá)更高(模塊 3、4、10、12、13、14、15、16 和 18)(圖 3c)。然后,我們根據(jù)每個模塊與特征、具有明確定義的生物狀態(tài)或過程的基因集的關(guān)聯(lián)來表征每個模塊。被發(fā)現(xiàn)與最多特征相關(guān)的模塊是模塊 20(圖 3d)。值得注意的是,盡管與腫瘤相比,模塊 20 在正常肺組織中的得分更高,但人們發(fā)現(xiàn)它顯著富集了大量通常與癌癥相關(guān)的標(biāo)志,從而證實(shí)了腫瘤鄰近的正常組織并不完全正常,與之前的研究一致。特別是,炎癥信號通路(TNF-α, IL-17, and NFκΒ)、IL-2和IL-6信號、干擾素-γ反應(yīng)和低氧在模塊20基因中高度富集。
6、肺腺癌在腫瘤及癌旁正常組織中進(jìn)展的轉(zhuǎn)錄轉(zhuǎn)錄特征
由于觀察到炎癥和其他與癌癥相關(guān)的通路在TAN中被激活,我們假設(shè)這些被發(fā)現(xiàn)與最多的癌癥相關(guān)標(biāo)志相關(guān)的通路和相關(guān)基因模塊的激活(最明顯模塊20)可能會影響疾病的進(jìn)展。為了驗(yàn)證這一假設(shè),我們識別了在最終進(jìn)展的患者組和沒有進(jìn)展的患者組中,在腫瘤或TAN組織中差異表達(dá)的基因。更具體地說,來自我們匹配的腫瘤正常隊(duì)列的患者被分為兩組:進(jìn)展組包括所有有任何類型疾病進(jìn)展的患者(n=45),而無進(jìn)展組包括所有在至少5年隨訪時間內(nèi)沒有進(jìn)展的患者(n=68)。然后,我們探索了差異表達(dá)基因在共表達(dá)基因模塊中的分布。我們通過分別針對腫瘤(圖4B)和TAN樣本(圖4C)在進(jìn)展組和無進(jìn)展組之間表達(dá)的對數(shù)倍變化來對基因模塊UMAP(圖4A)中的每個基因進(jìn)行染色。
對UMAP的可視檢查和比較顯示,最終進(jìn)展的患者中上調(diào)的基因幾乎完全定位在特定的模塊中,特別是在TAN樣本中。最突出的這類模塊是模塊20,它在進(jìn)展期患者的肺臟組織中具有高比例的上調(diào)基因。模塊聚合表達(dá)分析(圖4D)證實(shí)了這一點(diǎn),計(jì)算了兩種組織類型中模塊上調(diào)和下調(diào)基因的百分比(圖4E)。顯然,模塊20高度偏向TAN組織中進(jìn)展者組中上調(diào)的基因,而不是腫瘤中的上調(diào)基因。因此,我們的數(shù)據(jù)表明模塊20與TAN和進(jìn)程有關(guān)。
7、一種用于精細(xì)化患者分類的多模式關(guān)聯(lián)圖
為了進(jìn)一步確定TAN中已識別的基因模塊的特征,我們對模塊得分與人口統(tǒng)計(jì)學(xué)、臨床、組織學(xué)、遺傳學(xué)和生存數(shù)據(jù)進(jìn)行了全面的關(guān)聯(lián)分析(圖5A)。only與不良存活率顯著相關(guān)的模塊是模塊20(圖5B),在多變量分析(圖5C)中,它被發(fā)現(xiàn)是臨床結(jié)果的獨(dú)立預(yù)測因子,對數(shù)優(yōu)勢比為0.725(p值=0.002)。有趣的是,作為WHO更新的肺腺癌指南的一部分,IASLC分級在相同的多變量分析中沒有發(fā)現(xiàn)顯著意義。該模型預(yù)測復(fù)發(fā)的敏感性為0.821,特異性為0.491。圖5A中的關(guān)聯(lián)圖提供了豐富的信息,可用于未來的更大規(guī)模的研究,不僅根據(jù)人口統(tǒng)計(jì)學(xué)、臨床、組織學(xué)和遺傳數(shù)據(jù)的組合將患者分成高度精細(xì)的組,而且通過與來自腫瘤和腫瘤鄰近正常組織的轉(zhuǎn)錄數(shù)據(jù)相結(jié)合,生成關(guān)于潛在生物學(xué)過程和途徑的假設(shè)。例如,模塊7和10與較年輕的患者相關(guān),與低級別腫瘤廣泛相關(guān),缺乏高危組織學(xué)模式(實(shí)性和融合性顆粒)和較好的預(yù)后。模塊19和20與老年患者和高級別腫瘤相關(guān),盡管只有模塊20被發(fā)現(xiàn)與臨床結(jié)果顯著相關(guān)。模塊8、12和13與胸膜侵犯有關(guān)。有趣的是,沒有一個模塊與突變有關(guān),這支持了我們最初的假設(shè),即腫瘤鄰近的正常組織可能是有價值的進(jìn)展生物標(biāo)記物的來源,與腫瘤本身的基因構(gòu)成無關(guān)。特別是,模塊20的激活發(fā)生在患者中,其進(jìn)展與其腫瘤的驅(qū)動程序突變無關(guān)。
8、其他癌癥類型上測試炎癥模塊20特征
為了進(jìn)一步測試模塊20炎癥特征是否可以更廣泛地應(yīng)用于其他癌癥類型的TAN組織,我們對從TCGA中的正常組織獲得的數(shù)據(jù)進(jìn)行了分析。鑒于 TCGA 中使用 RNA-seq 數(shù)據(jù)的 TAN 樣本數(shù)量有限,我們只能找到四個原發(fā)腫瘤位點(diǎn),其中至少有 40 個腫瘤相鄰正常樣本,并且所有階段至少有兩個進(jìn)展事件:乳腺、肺、腎和頭部/頸癌。我們計(jì)算了每個模塊和每種癌癥類型的模塊評分與無進(jìn)展生存率之間的 c-index值(當(dāng)高模塊評分與較差的生存率相關(guān)時,c-index值較高)。這項(xiàng)分析的結(jié)果如圖5D所示,表明在所有四種癌癥類型中,模塊20是only持續(xù)且顯著與不良預(yù)后相關(guān)的模塊評分??偠灾?,這些發(fā)現(xiàn)表明模塊 20 在進(jìn)展中發(fā)揮著重要作用。如圖3d所示,該模塊富含炎癥信號傳導(dǎo)途徑(TNF-α、IL-17和NFκB)和癌癥標(biāo)志(IL-2和IL-6信號傳導(dǎo)、干擾素-γ反應(yīng)和缺氧),盡管它是一個在鄰近正常組織中比實(shí)際腫瘤更高表達(dá)的模塊。這一觀察表明,最終進(jìn)展的患者,肺部受損,帶有疾病進(jìn)展的特征,而在鄰近的腫瘤中不一定能觀察到這些特征。
9、以單細(xì)胞分辨率分析腫瘤和腫瘤鄰近正常組織
為了確定有助于模塊 20 表達(dá)的細(xì)胞類型,我們利用單核 RNA 測序 (snRNA-seq) 來分析我們的早期肺腺癌匹配的腫瘤正常隊(duì)列的 TAN 組織。我們對 23 個腫瘤和 23 個匹配的 TAN 樣本進(jìn)行了分析。經(jīng)過測序后質(zhì)量控制后,我們剩下 18 個腫瘤樣本和 15 個正常 snRNA-seq 樣本(112,626 個細(xì)胞核)。根據(jù)之前對肺腺癌的研究對細(xì)胞進(jìn)行了注釋,其中包括正常肺作為對照。重點(diǎn)關(guān)注 TAN 樣本(51,416 個細(xì)胞核),我們鑒定了所有主要細(xì)胞類型:上皮細(xì)胞、基質(zhì)細(xì)胞、內(nèi)皮細(xì)胞、骨髓細(xì)胞、T-NK 細(xì)胞、B 淋巴細(xì)胞和 MAST 細(xì)胞(圖 6a) 。不同的細(xì)胞譜系被進(jìn)一步劃分為更細(xì)粒度的亞群(圖6b)。上皮細(xì)胞分為四種亞型:肺泡 1 型和 2 型細(xì)胞 (AT1/AT2)、球桿細(xì)胞和纖毛細(xì)胞?;|(zhì)細(xì)胞分為四種亞型:間皮細(xì)胞、COL13A1 和 COL14A1 基質(zhì)成纖維細(xì)胞 (FBs) 和周細(xì)胞。內(nèi)皮細(xì)胞(ECs)分為三種亞型:淋巴管、莖狀和尖狀EC。骨髓細(xì)胞分為三種亞型:肺泡巨噬細(xì)胞、單核細(xì)胞和 CD1c DCs。腫瘤樣本(61,210 個細(xì)胞核)由相同的細(xì)胞類型組成,缺乏間皮細(xì)胞,并且包含腫瘤細(xì)胞,這些腫瘤細(xì)胞是根據(jù) inferCNV24 分析計(jì)算出的高 CNV 評分進(jìn)行識別的。
10、模塊 20 在進(jìn)展患者的腫瘤-鄰近正常細(xì)胞中的多種細(xì)胞類型中被激活
為了測試鄰近腫瘤的正常肺中哪些細(xì)胞類型的模塊20中的基因表達(dá)升高,我們計(jì)算了每個細(xì)胞的模塊20得分(圖6c)。我們觀察到,表達(dá)模塊20基因最高水平的細(xì)胞類型是間皮細(xì)胞,其次是成纖維細(xì)胞、單核細(xì)胞、莖狀EC、MAST細(xì)胞和肺泡巨噬細(xì)胞(圖6d)。最近,間皮細(xì)胞已被證明可以形成抗原呈遞的癌癥相關(guān)成纖維細(xì)胞 (apCAF),進(jìn)而誘導(dǎo)初始 CD4+ T 細(xì)胞轉(zhuǎn)變?yōu)橐认侔┲械恼{(diào)節(jié)性 T 細(xì)胞。AT2 細(xì)胞(而不是 AT1 細(xì)胞)中模塊 20 基因特征的激活也很有趣,因?yàn)?AT2 細(xì)胞已被證明是肺腺癌的起源細(xì)胞。
我們測試了哪些細(xì)胞類型在進(jìn)展的患者中上調(diào)了模塊 20 特征的表達(dá)。對于此分析,我們使用了每位患者每種細(xì)胞類型的推斷基因表達(dá)。結(jié)果顯示,在多種細(xì)胞類型中,最終發(fā)生第二原發(fā)或復(fù)發(fā)的患者的模塊20評分伴隨增加(圖6e)。值得注意的是,我們對匹配的腫瘤樣本進(jìn)行了相同的分析,并且我們沒有觀察到任何細(xì)胞類型中進(jìn)展的患者和未進(jìn)展的患者的腫瘤樣本之間的模塊20評分有任何顯著差異。
我們研究了 TAN 表達(dá)模塊 20 內(nèi)特定細(xì)胞類型的預(yù)后相關(guān)性。使用解卷積批量 RNA-seq,我們發(fā)現(xiàn)了進(jìn)展組和無進(jìn)展組之間模塊 20 評分的顯著差異。值得注意的是,單核細(xì)胞在模塊 20 評分中表現(xiàn)出顯著差異(p 值 < 0.01)(圖 6f),表明它們作為有價值的預(yù)后指標(biāo)的潛力。這些發(fā)現(xiàn)強(qiáng)調(diào)了考慮TAN表達(dá)模塊20內(nèi)的個體細(xì)胞類型的重要性,并支持這樣的觀點(diǎn):它們可以提供超出整體模塊20得分的額外預(yù)后能力。
實(shí)驗(yàn)方法
DNA測序、RNA測序、機(jī)器學(xué)習(xí)、基因共表達(dá)分析、snRNA-seq、Bulk RNA-seq。
參考文獻(xiàn)
Dolgalev, I., Zhou, H., Murrell, N. et al. Inflammation in the tumor-adjacent lung as a predictor of clinical outcome in lung adenocarcinoma. Nat Commun 14, 6764 (2023).