近日,上??萍即髮W(xué)生命科學(xué)與技術(shù)學(xué)院張力燁課題組在生物信息學(xué)期刊《生物信息學(xué)簡(jiǎn)報(bào)》(Briefings in Bioinformatics)發(fā)表了題為“Benchmarking copy number aberrations inference tools using single-cell multi-omics datasets”的研究論文,評(píng)估了從基于單細(xì)胞測(cè)序數(shù)據(jù)推斷拷貝數(shù)變異的五種廣泛使用的生物信息學(xué)工具,填補(bǔ)了該領(lǐng)域的關(guān)鍵空白,為研究人員選擇和使用拷貝數(shù)變異(Copy number aberration,CNA)推斷工具提供了指導(dǎo)。
CNA是一種重要的基因組變異類(lèi)型,在癌癥的發(fā)生和發(fā)展中起著至關(guān)重要的作用。腫瘤細(xì)胞中CNA的鑒定對(duì)早期腫瘤檢測(cè)、描述腫瘤異質(zhì)性、了解腫瘤進(jìn)展和揭示治療耐藥機(jī)制具有重要意義。單細(xì)胞DNA測(cè)序(scDNA-seq)非常適合在單細(xì)胞分辨率下鑒定CNA。scDNA-seq雖然能夠提供單細(xì)胞分辨率的CNA檢測(cè)能力,但因其技術(shù)的局限性——包括測(cè)序覆蓋度不足與實(shí)驗(yàn)成本過(guò)高,嚴(yán)重制約了該技術(shù)在拷貝數(shù)變異研究中的規(guī)?;瘧?yīng)用。為此,計(jì)算生物學(xué)專(zhuān)家們已開(kāi)發(fā)出多種基于scRNA-seq數(shù)據(jù)的CNA推斷算法,通過(guò)利用基因表達(dá)量與拷貝數(shù)之間的相關(guān)性,成功實(shí)現(xiàn)了腫瘤內(nèi)異質(zhì)性的高分辨率解析。但目前尚未建立系統(tǒng)化的評(píng)估框架,這些計(jì)算方法在真實(shí)臨床場(chǎng)景中的準(zhǔn)確性、穩(wěn)健性與可重復(fù)性仍缺乏跨平臺(tái)驗(yàn)證。

圖1:benchmark工作流程
本研究創(chuàng)新性地采用了單細(xì)胞同時(shí)采集DNA-Seq和RNA-Seq的已有公共數(shù)據(jù)集,通過(guò)使用從scDNA-seq中識(shí)別出的拷貝數(shù)變異作為評(píng)估的金標(biāo)準(zhǔn),評(píng)估了從scRNA-seq中多個(gè)維度推斷CNA工具的準(zhǔn)確性,并論證了參考細(xì)胞設(shè)置、腫瘤微環(huán)境(TME)細(xì)胞的包含、腫瘤類(lèi)型和腫瘤純度對(duì)CNA推斷的影響。此外,該研究還評(píng)估了腫瘤細(xì)胞和正常細(xì)胞分類(lèi)的準(zhǔn)確性、CNA推斷的準(zhǔn)確性、腫瘤亞克隆推斷以及非惡性細(xì)胞的整倍體識(shí)別。

圖2:所有方法的評(píng)估結(jié)果
本研究觀(guān)察到,所有五種工具均能在一定程度上區(qū)分腫瘤細(xì)胞和正常細(xì)胞,并能較為準(zhǔn)確地推斷拷貝數(shù)變異圖譜。在這些方法中,Numbat在各項(xiàng)評(píng)估標(biāo)準(zhǔn)中表現(xiàn)最佳。對(duì)于僅有表達(dá)矩陣可用的情況,推薦使用CopyKAT作為首選方法。同時(shí)也展示了目前方法的一些局限,提示一些未來(lái)方法學(xué)的開(kāi)發(fā)和改進(jìn)的需求。整體的評(píng)估結(jié)果(圖3)為臨床研究人員提供了客觀(guān)的選型依據(jù)。
張力燁教授為本文獨(dú)立通訊作者。之江實(shí)驗(yàn)室宋敏芳(上??萍即髮W(xué)博士畢業(yè)生),張力燁課題組碩士研究生馬帥為本文共同第一作者。上??萍即髮W(xué)超算中心為多組學(xué)數(shù)據(jù)產(chǎn)出和生物信息分析提供了大力支持。
