——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國科學(xué)院辦院方針
語音播報(bào)
近日,中國科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部教授瞿昆課題組、數(shù)學(xué)科學(xué)學(xué)院教授陳發(fā)來課題組以及北京生命科學(xué)研究所研究員黎斌課題組合作完成了一項(xiàng)成果。該團(tuán)隊(duì)分析了百萬量級單細(xì)胞多組學(xué)數(shù)據(jù),系統(tǒng)評估了14種單細(xì)胞模態(tài)預(yù)測算法和18種單細(xì)胞多組學(xué)整合算法的性能。相關(guān)研究成果以Benchmarking algorithms for single-cell multi-omics prediction and integration為題,在線發(fā)表在《自然-方法》(Nature Methods)上。
單細(xì)胞多組學(xué)技術(shù)的發(fā)展,為探索細(xì)胞功能和復(fù)雜的基因調(diào)控機(jī)制提供了機(jī)遇。然而,濕實(shí)驗(yàn)方法通常面臨著高成本、數(shù)據(jù)質(zhì)量有限及批次效應(yīng)等挑戰(zhàn)。為克服這些局限,生物信息學(xué)家基于統(tǒng)計(jì)模型和人工智能技術(shù),開發(fā)了多種算法。這些算法能夠利用單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)推斷同一細(xì)胞內(nèi)的蛋白質(zhì)豐度和染色質(zhì)可及性信息,并通過將不同模態(tài)的數(shù)據(jù)映射到統(tǒng)一的特征空間實(shí)現(xiàn)數(shù)據(jù)整合以去除批次效應(yīng)。這些工具提升了現(xiàn)有單細(xì)胞數(shù)據(jù)的解析能力。然而,面對海量數(shù)據(jù)和眾多算法,科研人員往往難以判斷哪些工具最適合他們的研究工作。因此,對這些算法進(jìn)行基準(zhǔn)測試尤為重要。
該研究收集了47個(gè)數(shù)據(jù)集的上百萬個(gè)單細(xì)胞多組學(xué)數(shù)據(jù),涵蓋多個(gè)生物樣本和實(shí)驗(yàn)平臺。研究設(shè)計(jì)了一套全面的評估流程,結(jié)合算法的準(zhǔn)確性、魯棒性和計(jì)算資源消耗等多維度指標(biāo),評估了領(lǐng)域內(nèi)的常用算法。結(jié)果顯示,在蛋白質(zhì)豐度預(yù)測方面,totalVI和scArches表現(xiàn)最優(yōu)異;在染色質(zhì)可及性預(yù)測中,LS_Lab算法排名領(lǐng)先;在多組學(xué)整合分析中,Seurat、MOJITOO和scAI在垂直整合上表現(xiàn)突出,而totalVI和UINMF在水平整合和馬賽克整合任務(wù)中展現(xiàn)出優(yōu)異性能。該工作為算法設(shè)計(jì)提供了新思路,并為未來多組學(xué)數(shù)據(jù)的分析和應(yīng)用奠定了基礎(chǔ)。同時(shí),為幫助科研人員選擇合適的分析工具,該團(tuán)隊(duì)在GitHub上發(fā)布了完整的分析流程、代碼和測試數(shù)據(jù)集,以供同行使用和改進(jìn)。
進(jìn)一步,科研人員探討了這些算法的數(shù)學(xué)原理,發(fā)現(xiàn)了降噪處理是提高單細(xì)胞數(shù)據(jù)預(yù)測精度的關(guān)鍵。在性能評估中,機(jī)器學(xué)習(xí)算法以及基于概率模型的深度學(xué)習(xí)算法表現(xiàn)出優(yōu)勢。同時(shí),研究提出,現(xiàn)有模態(tài)預(yù)測算法在某些關(guān)鍵蛋白的預(yù)測性能上有待提升,染色質(zhì)可及性預(yù)測的準(zhǔn)確性需要進(jìn)一步優(yōu)化。
研究工作得到國家重點(diǎn)研發(fā)計(jì)劃和國家自然科學(xué)基金等的資助,并獲得中國科大超級計(jì)算中心與生命科學(xué)學(xué)院生物信息學(xué)中心的計(jì)算資源支持。
評估流程示意圖
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機(jī))
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn