上??萍即髮W(xué)智能感知與人機(jī)協(xié)同教育部重點(diǎn)實(shí)驗(yàn)室專(zhuān)注于新一代機(jī)器智能與人類(lèi)協(xié)同發(fā)展及相互增強(qiáng)技術(shù),致力于建設(shè)智能人機(jī)協(xié)同與交互原創(chuàng)研究基地。本年度,實(shí)驗(yàn)室9項(xiàng)研究成果成功入選神經(jīng)信息處理系統(tǒng)大會(huì)(Conference on Neural Information Processing Systems,NeurIPS 2024),研究成果涵蓋3D場(chǎng)景理解、視覺(jué)-語(yǔ)言基石模型、深度平衡模型、生物成像重建等前沿方向。今年大會(huì)共收到15671篇有效論文投稿,錄取率為25.8%。大會(huì)于12月9日在加拿大溫哥華召開(kāi)。
1. 使用八叉樹(shù)查詢(xún)進(jìn)行的高效、多粒度占用預(yù)測(cè)方法
OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries
3D場(chǎng)景理解中的占用預(yù)測(cè)對(duì)自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域至關(guān)重要。然而,傳統(tǒng)方法依賴(lài)于規(guī)則網(wǎng)格表示,計(jì)算成本高昂,且難以捕捉小物體的細(xì)節(jié)。本研究提出了一種創(chuàng)新的 3D 占用預(yù)測(cè)框架OctreeOcc。實(shí)驗(yàn)表明,OctreeOcc 在預(yù)測(cè)性能上超越現(xiàn)有方法,同時(shí)將計(jì)算成本降低 15%-24%。為高效的 3D 場(chǎng)景細(xì)粒度理解提供了新方向。

上??萍即髮W(xué)信息學(xué)院科研助理陸宇航為論文第一作者,上海人工智能實(shí)驗(yàn)室王泰研究員與上??萍即髮W(xué)馬月昕教授為共同通訊作者。
代碼鏈接: https://github.com/4DVLab/OctreeOcc
論文鏈接: https://arxiv.org/abs/2312.03774
2. 泛化還是檢測(cè)?探索多重分布變化下的魯棒語(yǔ)義分割
Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts
開(kāi)放世界場(chǎng)景往往同時(shí)存在未知物體和未知領(lǐng)域,一個(gè)理想的分割模型需要具備檢測(cè)未知物體(Out-of-Distribution Detection, OOD)并泛化到未知領(lǐng)域(Domain Generalization, DG)的能力。針對(duì)這一挑戰(zhàn),研究人員設(shè)計(jì)了一種新穎的生成式數(shù)據(jù)增強(qiáng)方法,用以產(chǎn)生同時(shí)包含新物體和新領(lǐng)域的圖片。同時(shí)提出了一種新的訓(xùn)練策略,充分利用這些包含多種分布變化的生成圖片。在具有語(yǔ)義和領(lǐng)域變化的所有基準(zhǔn)測(cè)試中,該方法實(shí)現(xiàn)了未知物體檢測(cè)和領(lǐng)域泛化任務(wù)的最先進(jìn)性能。

上海科技大學(xué)信息學(xué)院2021級(jí)碩士生郜之桐為論文第一作者,何旭明教授為通訊作者,2020級(jí)本科生李炳楠也參與了研究工作。
代碼鏈接: https://github.com/gaozhitong/MultiShiftSeg
論文鏈接: http://arxiv.org/abs/2411.03829
3. 基于視覺(jué)-語(yǔ)言基石模型的聯(lián)邦學(xué)習(xí)理論與算法
Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method
隨著像CLIP這樣的大型視覺(jué)-語(yǔ)言基石模型的發(fā)展,基于這些基石模型的聯(lián)邦學(xué)習(xí)正受到越來(lái)越多的關(guān)注。提示詞微調(diào)的聯(lián)邦學(xué)習(xí)由于其通信開(kāi)銷(xiāo)較小和計(jì)算資源消耗較低,已成為基于預(yù)訓(xùn)練基石模型的聯(lián)邦學(xué)習(xí)中的主流范式。然而,提示詞微調(diào)方法在理論分析方面仍缺乏深入探討。本研究基于特征動(dòng)力學(xué)提出了一種針對(duì)聯(lián)邦提示詞微調(diào)的理論分析框架。實(shí)驗(yàn)展示了“提示詞組合”算法相較于單一提示詞的性能優(yōu)勢(shì),并通過(guò)更多的消融實(shí)驗(yàn)驗(yàn)證了所提出分析框架的有效性。

上??萍即髮W(xué)是該成果的第一完成單位,信息學(xué)院2023級(jí)研究生潘比康為第一作者,石野教授為通訊作者,論文合作者RIKEN中心黃偉博士為論文共同通訊作者。
論文鏈接:https://www.arxiv.org/abs/2409.19610
代碼鏈接:https://github.com/PanBikang/PromptFolio.git
4. 從神經(jīng)網(wǎng)絡(luò)崩塌視角理解深度平衡模型的表征能力
Understanding Representation of Deep Equilibrium Models from Neural Collapse Perspective
近年來(lái),DEQ作為一種典型的隱式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),憑借其內(nèi)存高效性和強(qiáng)大的表現(xiàn)力,得到了廣泛的關(guān)注。本研究探討了深度平衡模型(Deep Equilibrium Model,DEQ)的表現(xiàn),采用神經(jīng)網(wǎng)絡(luò)崩塌(Neural Collapse,NC)的視角對(duì)其進(jìn)行系統(tǒng)分析。首次將 NC 分析引入 DEQ,并系統(tǒng)性地比較了 DEQ 與顯式神經(jīng)網(wǎng)絡(luò)在不同條件下的表現(xiàn),證明了 DEQ 在不平衡數(shù)據(jù)處理中具備顯著優(yōu)勢(shì)。這些研究為 DEQ 的應(yīng)用提供了新的理論支持,也為進(jìn)一步探索隱式神經(jīng)網(wǎng)絡(luò)的性能提供了基礎(chǔ)。

上??萍即髮W(xué)是該成果的第一完成單位,信息學(xué)院2021級(jí)研究生孫海翔為第一作者,石野教授為論文的通訊作者。
論文鏈接:https://arxiv.org/abs/2410.23391
5. Q加權(quán)變分策略?xún)?yōu)化:基于擴(kuò)散模型的強(qiáng)化學(xué)習(xí)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization
實(shí)踐證明,利用擴(kuò)散策略可以顯著提高強(qiáng)化學(xué)習(xí)算法在連續(xù)控制任務(wù)中的性能,克服單模態(tài)策略(如高斯策略)的局限性,以此來(lái)為智能體提供更強(qiáng)的探索能力。由于缺乏樣本標(biāo)簽,擴(kuò)散模型的訓(xùn)練目標(biāo)無(wú)法用于在線(xiàn)強(qiáng)化學(xué)習(xí)中直接進(jìn)行優(yōu)化。為了克服這個(gè)問(wèn)題,本研究提出了一種基于擴(kuò)散模型的在線(xiàn)強(qiáng)化學(xué)習(xí)算法:Q加權(quán)變分策略?xún)?yōu)化 (QVPO)。QVPO算法充分利用了擴(kuò)散策略的探索能力和多模態(tài)性,防止強(qiáng)化學(xué)習(xí)策略收斂到次優(yōu)解。MuJoCo仿真環(huán)境的連續(xù)控制任務(wù)基準(zhǔn)上的全面測(cè)試表明,QVPO算法在累積獎(jiǎng)勵(lì)和樣本效率方面都優(yōu)于之前的其他算法。

上海科技大學(xué)是該成果的第一完成單位,信息學(xué)院2021級(jí)研究生丁樞桐為第一作者,石野教授為論文的通訊作者,論文合作者還有上科大信息學(xué)院虞晶怡教授、汪婧雅教授、任侃教授和上海交通大學(xué)的張偉楠教授。
論文鏈接:https://arxiv.org/pdf/2405.16173
代碼鏈接:https://dingsht.tech/qvpo-webpage/
6. 邁向時(shí)間序列編輯
Towards Editing Time Series
時(shí)間序列生成是時(shí)間序列分析的一項(xiàng)基礎(chǔ)且重要的任務(wù),其目標(biāo)主要用來(lái)解決現(xiàn)實(shí)數(shù)據(jù)的稀疏性、隱私敏感性等問(wèn)題。本研究首次提出了一個(gè)全新的時(shí)間序列生成任務(wù)范式——時(shí)間序列編輯。該方法能夠在給定樣本的基礎(chǔ)上,針對(duì)特定需求靈活修改屬性(如心率數(shù)據(jù)中的異常值、氣象數(shù)據(jù)中的特定波動(dòng)),這為生成更貼合實(shí)際需求的數(shù)據(jù)提供了可能。本研究還創(chuàng)新推動(dòng)了時(shí)間序列生成模型從“生成數(shù)據(jù)”走向“編輯數(shù)據(jù)”的精細(xì)化操作。這不僅拓展了生成模型的應(yīng)用場(chǎng)景,也為更高效的時(shí)間序列生成方法提供了思路。


美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校的博士生景寶宇與上??萍即髮W(xué)信息學(xué)院2024級(jí)碩士生顧書(shū)齊為論文共同第一作者,上??萍即髮W(xué)信息學(xué)院任侃教授為通訊作者,上海科技大學(xué)2024級(jí)研究生陳天宇與2022級(jí)本科生楊志禹也參與了研究工作。
項(xiàng)目主頁(yè): https://seqml.github.io/tse/
7. 用于生成式3D基礎(chǔ)模型的神經(jīng)坐標(biāo)場(chǎng)模型
MeshXL: Neural Coordinate Field for Generative 3D Foundation Models MeshXL
3D數(shù)據(jù)的多邊形網(wǎng)格表示因其靈活性、快速渲染速度和存儲(chǔ)效率,在各類(lèi)應(yīng)用中被廣泛采用。然而,由于其非結(jié)構(gòu)化的圖表示,直接生成高保真度的3D網(wǎng)格具有挑戰(zhàn)性。本研究提出了一種神經(jīng)坐標(biāo)場(chǎng)(NeurCF),結(jié)合顯式坐標(biāo)表示和隱式神經(jīng)嵌入,為大規(guī)模序列化網(wǎng)格建模提供了一種簡(jiǎn)單而有效的表示方法。基于此,研究人員開(kāi)發(fā)了MeshXL,這是一系列生成式預(yù)訓(xùn)練自回歸模型,能夠生成高質(zhì)量的3D網(wǎng)格,并可作為各種下游應(yīng)用的基礎(chǔ)模型。

上??萍即髮W(xué)信息學(xué)院已畢業(yè)博士陳欣為論文的項(xiàng)目負(fù)責(zé)人,虞晶怡教授課題組2019級(jí)博士生龐安琪也參與了研究工作。
代碼鏈接: https://github.com/OpenMeshLab/MeshXL
論文鏈接: https://arxiv.org/abs/2405.20853
項(xiàng)目主頁(yè): https://meshxl.github.io/
8. 基于物理信息的生成式冷凍電鏡
Physics-Informed Generative Cryo-Electron Microscopy
單顆粒冷凍電子顯微鏡(cryo-EM)在解析蛋白質(zhì)的近原子分辨率三維結(jié)構(gòu)方面至關(guān)重要。由于缺乏高質(zhì)量的標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練,目前的AI冷凍電鏡模型性能仍然受到限制。本研究提出了一種基于物理信息的生成冷凍電子顯微鏡(CryoGEM)模型,首次將基于物理的cryo-EM模擬與生成的無(wú)配對(duì)噪聲轉(zhuǎn)換相結(jié)合,從而生成具有逼真噪聲的物理正確的合成cryo-EM數(shù)據(jù)集。大量實(shí)驗(yàn)表明,CryoGEM能夠生成真實(shí)的cryo-EM圖像。生成的數(shù)據(jù)集可以作為冷凍電鏡基礎(chǔ)大模型、粒子挑選和姿勢(shì)估計(jì)模型的訓(xùn)練數(shù)據(jù),最終提高重建分辨率。

上??萍即髮W(xué)信息學(xué)院2024級(jí)研究生陳麒合、2022級(jí)博士生張家愷為共同第一作者,虞晶怡教授為通訊作者,何旭明教授課題組、劉志杰教授課題組也參與了本項(xiàng)目。
項(xiàng)目鏈接:https://jiakai-zhang.github.io/cryogem/
論文鏈接:https://arxiv.org/pdf/2312.02235
9. 用于冷凍電鏡的去噪重建自動(dòng)編碼器
DRACO: A Denoising-Reconstruction Autoencoder for Cryo-EM
自監(jiān)督預(yù)訓(xùn)練方法往往忽視了冷凍電鏡(cryo-EM)圖像中由高水平噪聲引起的嚴(yán)重?fù)p壞。研究人員提出了DRACO,一種用于cryo-EM的去噪重建自編碼器,靈感來(lái)自Noise2Noise(N2N)方法,應(yīng)用了去噪-重建混合訓(xùn)練方案。對(duì)于DRACO的預(yù)訓(xùn)練,數(shù)據(jù)集的質(zhì)量至關(guān)重要,研究人員從一個(gè)未經(jīng)篩選的公共數(shù)據(jù)庫(kù)中構(gòu)建了一個(gè)高質(zhì)量、多樣化的數(shù)據(jù)集,包含超過(guò)27萬(wàn)個(gè)序列或顯微圖像。預(yù)訓(xùn)練后,DRACO自然作為一個(gè)通用的cryo-EM圖像去噪器,并且成為各種cryo-EM下游任務(wù)的基礎(chǔ)模型。與最先進(jìn)的基準(zhǔn)模型相比,DRACO在去噪、顯微圖像篩選和蛋白質(zhì)顆粒挑選任務(wù)中表現(xiàn)出最佳性能。

上??萍即髮W(xué)信息學(xué)院2022級(jí)研究生沈盈君、2023級(jí)研究生戴海釗為共同第一作者,虞晶怡教授為通訊作者,裴遠(yuǎn)研究員也參與了本項(xiàng)目。
項(xiàng)目鏈接:https://duskngai.github.io/draco/
