近日,上海科技大學(xué)生物醫(yī)學(xué)工程學(xué)院李遠(yuǎn)寧課題組在eLife上發(fā)表題為“High-Fidelity Neural Speech Reconstruction through an Efficient Acoustic-Linguistic Dual-Pathway Framework”的研究論文,提出一種高效的聲學(xué)—語(yǔ)言雙通路語(yǔ)音重建框架,在僅使用每位受試者約20分鐘高密度顱內(nèi)腦電 (ECoG) 數(shù)據(jù)的條件下,實(shí)現(xiàn)了兼具自然度與可懂度的句子級(jí)語(yǔ)音重建。
口語(yǔ)是人類(lèi)最自然的交流方式,理解大腦如何編碼表達(dá)語(yǔ)音既是認(rèn)知神經(jīng)科學(xué)的重要問(wèn)題,也為面向失語(yǔ)、漸凍癥等人群的語(yǔ)音解碼腦機(jī)接口奠定了基礎(chǔ)。ECoG憑借高時(shí)空分辨率為語(yǔ)音解碼提供了關(guān)鍵窗口,深度學(xué)習(xí)進(jìn)一步推動(dòng)了神經(jīng)到語(yǔ)音解碼的進(jìn)展。然而,臨床配對(duì)數(shù)據(jù)稀缺使端到端模型難以穩(wěn)定泛化。現(xiàn)有方法通常面臨兩難選擇:回歸聲學(xué)特征更自然卻不夠清晰,解碼離散語(yǔ)言單位更清楚卻缺少真實(shí)音色與韻律。因此,一個(gè)核心問(wèn)題是:在小樣本ECoG條件下,能否同時(shí)實(shí)現(xiàn)自然度與可懂度兼具的句子級(jí)語(yǔ)音解碼重建?

圖1 ECoG實(shí)驗(yàn)范式與雙通路解碼模型架構(gòu)。
本研究提出“聲學(xué)—語(yǔ)言雙通路”的神經(jīng)語(yǔ)音解碼重建框架,利用預(yù)訓(xùn)練語(yǔ)音與生成模型提供的通用先驗(yàn),在小樣本顱內(nèi)腦電條件下實(shí)現(xiàn)更兼顧自然度與可懂度的句子級(jí)語(yǔ)音解碼重建。其關(guān)鍵貢獻(xiàn)不僅是性能提升,更在于以結(jié)構(gòu)化方式驗(yàn)證了語(yǔ)音表征的多層屬性:聲學(xué)真實(shí)性與語(yǔ)言可理解性是可分解、可協(xié)同優(yōu)化的目標(biāo);從更宏觀(guān)的Neuro-AI視角,該工作體現(xiàn)了“基礎(chǔ)模型先驗(yàn) + 神經(jīng)信號(hào)對(duì)齊約束”的新范式,為降低BCI數(shù)據(jù)門(mén)檻、提升系統(tǒng)可用性,并推動(dòng)腦科學(xué)與AI表征對(duì)齊研究提供了重要啟示。
上??萍即髮W(xué)生物醫(yī)學(xué)工程學(xué)院博士研究生李嘉煒為論文第一作者,李遠(yuǎn)寧教授為通訊作者,清華大學(xué)/上海人工智能實(shí)驗(yàn)室張超教授等也參與了本研究。上海科技大學(xué)為論文第一完成單位。
