信息學(xué)院師生多項(xiàng)研究成果入選CVPR 2025

發(fā)布時(shí)間2025-06-19文章來(lái)源 信息科學(xué)與技術(shù)學(xué)院作者責(zé)任編輯劉玥

近日,國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2025)在美國(guó)田納西州召開(kāi)。作為計(jì)算機(jī)視覺(jué)領(lǐng)域全球重要學(xué)術(shù)會(huì)議之一,本屆CVPR會(huì)議共收到13008份有效投稿,最終錄用論文2878篇,錄用率為22.1%。上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院師生共有13篇論文成功入選,研究?jī)?nèi)容涵蓋具身智能、三維表達(dá)、多模態(tài)學(xué)習(xí)、AI for Society等多個(gè)計(jì)算機(jī)視覺(jué)前沿方向,充分展現(xiàn)了學(xué)院在該領(lǐng)域的科研實(shí)力與國(guó)際影響力。


具身智能

AffordDP : 具有可遷移可供性的通用擴(kuò)散策略

Generalizable Diffusion Policy with Transferable Affordance

基于擴(kuò)散的策略在機(jī)器人操作任務(wù)中表現(xiàn)優(yōu)異,但在處理域外分布時(shí)存在局限。本研究提出AffordDP,利用可供性(affordances)增強(qiáng)對(duì)未見(jiàn)對(duì)象的泛化能力。通過(guò)3D接觸點(diǎn)和軌跡建模動(dòng)靜態(tài)affordances,結(jié)合視覺(jué)模型和點(diǎn)云配準(zhǔn)實(shí)現(xiàn)跨類(lèi)別泛化,并在擴(kuò)散采樣中引入可供性引導(dǎo)優(yōu)化動(dòng)作生成。仿真和真實(shí)環(huán)境中的實(shí)驗(yàn)結(jié)果表明,AffordDP在性能上持續(xù)優(yōu)于以往的基于擴(kuò)散的方法,并成功泛化到其他方法無(wú)法處理的未見(jiàn)實(shí)例和類(lèi)別。

  


2023級(jí)碩士研究生武士杰與朱翌航擔(dān)任共同第一作者,汪婧雅教授與石野教授擔(dān)任共同通訊作者。

論文鏈接: https://arxiv.org/pdf/2412.03142

 

基于多模態(tài)大語(yǔ)言模型的序列化3D可供性推理

Sequential 3D Affordance Reasoning via Multimodal Large Language Model

一個(gè)先進(jìn)的可供性(affordances)分割模型不僅要能理解單個(gè)物體的單一功能,還要能夠處理復(fù)雜的、多步驟的用戶(hù)指令,識(shí)別出一系列的affordance區(qū)域。針對(duì)這一挑戰(zhàn),本工作提出一種全新的序列化3D affordance推理任務(wù),并開(kāi)發(fā)了SeqAfford模型。SeqAfford基于大規(guī)模3D多模態(tài)大語(yǔ)言模型(MLLM),能夠?qū)?fù)雜的用戶(hù)指令分解為一系列的affordance分割任務(wù),將語(yǔ)言模型的推理結(jié)果與3D點(diǎn)云數(shù)據(jù)有效結(jié)合。在大規(guī)模基準(zhǔn)測(cè)試中,SeqAfford在單affordance和序列化affordance推理任務(wù)上均顯著優(yōu)于現(xiàn)有方法,展現(xiàn)了其在開(kāi)放世界環(huán)境中的泛化能力和推理能力。

 


上??萍即髮W(xué)是該成果的第一完成單位,2022級(jí)研究生余春霖、2024級(jí)研究生王涵情為論文的共同第一作者,汪婧雅教授為通訊作者。

論文鏈接:https://arxiv.org/pdf/2412.01550

 

DexGrasp Anything:邁向具有物理感知的通用機(jī)器人靈巧抓取

Towards Universal Robotic Dexterous Grasping with Physics Awareness

能夠抓取任何物體的靈巧手是開(kāi)發(fā)通用型具身智能機(jī)器人的必要條件。由于靈巧手的高度自由度和物體的巨大多樣性,以魯棒的方式生成高質(zhì)量、可用的抓取姿勢(shì)是一個(gè)重大挑戰(zhàn)。本研究提出了一種將物理約束有效地集成到基于擴(kuò)散的生成模型的訓(xùn)練和采樣階段的方法DexGrasp Anything,可在幾乎所有開(kāi)放數(shù)據(jù)集中實(shí)現(xiàn)最先進(jìn)的性能。此外團(tuán)隊(duì)還提出了一個(gè)新的靈巧抓取數(shù)據(jù)集,包含超過(guò)340萬(wàn)種不同的抓取姿勢(shì),超過(guò)15k個(gè)不同的對(duì)象,展示了其推進(jìn)通用靈巧抓取的潛力。

 


2024級(jí)研究生鐘奕鳴與2022級(jí)姜奇為論文共同第一作者,馬月昕教授為論文的通訊作者。

論文鏈接:https://arxiv.org/pdf/2503.08257

代碼鏈接:https://github.com/4DVLab/DexGrasp-Anything

項(xiàng)目主頁(yè):https://dexgraspanything.github.io/

 

SemGeoMo:具有語(yǔ)義和幾何引導(dǎo)的動(dòng)態(tài)情境人體運(yùn)動(dòng)生成

Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

在給定的動(dòng)態(tài)環(huán)境中生成合理和高質(zhì)量的人類(lèi)交互運(yùn)動(dòng)對(duì)于理解、建模、轉(zhuǎn)移和將人類(lèi)行為應(yīng)用到虛擬機(jī)器人和物理機(jī)器人上至關(guān)重要,核心在于構(gòu)建一個(gè)面向互動(dòng)的世界模型,使其能夠合理地適應(yīng)互動(dòng)對(duì)象或人的變化。研究提出一種新的動(dòng)態(tài)上下文人體運(yùn)動(dòng)生成方法SemGeoMo,通過(guò)將文本描述中的語(yǔ)義信息與從交互對(duì)象中提取的層次幾何特征綜合集成,生成合理、高質(zhì)量的交互運(yùn)動(dòng),還提高了交互的可解釋性和可理解性。該方法在三個(gè)數(shù)據(jù)集上取得了最先進(jìn)的性能,并在不同的交互場(chǎng)景下展示了優(yōu)越的泛化能力。

 


2023級(jí)博士生叢培珊與本科生王紫怡為論文共同第一作者,香港中文大學(xué)岳翔宇教授和信息學(xué)院馬月昕教授為共同通訊作者。

論文鏈接:https://arxiv.org/pdf/2503.01291

代碼鏈接:https://github.com/4DVLab/SemGeoMo

項(xiàng)目主頁(yè):https://4dvlab.github.io/project_page/semgeomo/


EasyHOI-大模型驅(qū)動(dòng)的手-物交互重建新方案

Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild

從單視角圖像中重建手-物交互是一項(xiàng)基礎(chǔ)且具挑戰(zhàn)性的任務(wù)。當(dāng)前用于分割、修復(fù)和3D重建的基礎(chǔ)模型在處理真實(shí)場(chǎng)景圖像時(shí)表現(xiàn)出了強(qiáng)大的泛化能力,這為手-物交互的重建提供了可靠的視覺(jué)和幾何先驗(yàn)?;谶@一觀(guān)察團(tuán)隊(duì)提出了一套創(chuàng)新的手-物交互重建方案。多個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)評(píng)估表明,與現(xiàn)有相比該方法在重建的精度和魯棒性上均具有顯著優(yōu)勢(shì),能夠從多樣化的真實(shí)手-物交互圖片中準(zhǔn)確還原物體的幾何形狀及交互細(xì)節(jié)。

 


訪(fǎng)問(wèn)生劉雨萌為論文的第?作者,香港科技大學(xué)龍霄瀟與信息學(xué)院馬月昕教授為共同通訊作者。

論文鏈接https://arxiv.org/abs/2411.14280

代碼鏈接https://github.com/lym29/EasyHOI

項(xiàng)目主頁(yè)https://lym29.github.io/EasyHOI-page/


三維表達(dá)

從回放到真實(shí)重演的沉浸式人物體積視頻

RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal Reperformance

  


針對(duì)遠(yuǎn)程通信、教育培訓(xùn)和沉浸式娛樂(lè)等應(yīng)用場(chǎng)景帶來(lái)顛覆性的視覺(jué)體驗(yàn)需求,本工作提出一種基于3D高斯?jié)姙R的全新體積視頻生成框架Reperformer,首次實(shí)現(xiàn)復(fù)雜人物交互場(chǎng)景中的“動(dòng)態(tài)回放–自由重演”協(xié)同生成。該方法采用分層解耦策略,并引入自監(jiān)督學(xué)習(xí)機(jī)制,結(jié)合注意力增強(qiáng)的U-Net架構(gòu),引入語(yǔ)義感知的動(dòng)作遷移模塊,實(shí)現(xiàn)目標(biāo)動(dòng)作與原始外觀(guān)表達(dá)的動(dòng)態(tài)匹配,突破了傳統(tǒng)動(dòng)畫(huà)生成方法對(duì)參數(shù)化人體模型的依賴(lài),為通用型體積視頻生成開(kāi)辟了新的技術(shù)路徑。

2020級(jí)博士生蔣宇衡和2021級(jí)本科生沈哲灝為論文共同第一作者,許嵐教授與德國(guó)馬普研究所Marc Habermann教授為共同通訊作者。

論文鏈接:https://arxiv.org/pdf/2503.12242

項(xiàng)目主頁(yè):https://moqiyinlun.github.io/Reperformer/

 

| reperformer算法流程圖

 

BG-Triangle: 基于貝塞爾-高斯三角形的三維矢量化與渲染

Bézier Gaussian Triangle for 3D Vectorization and Rendering

在計(jì)算機(jī)圖形學(xué)與3D視覺(jué)領(lǐng)域,傳統(tǒng)離散幾何表示雖能顯式精確建模場(chǎng)景,卻難以實(shí)現(xiàn)端到端的重建優(yōu)化。神經(jīng)輻射場(chǎng)(NeRF)實(shí)現(xiàn)了可微渲染,但其模糊的幾何邊界限制了細(xì)節(jié)捕捉能力。3D Gaussian Splatting(3DGS)提升了渲染效率,但漸變分布的疊加效應(yīng)仍導(dǎo)致銳利邊緣模糊。本研究提出了一種介于離散和連續(xù)之間的三維混合表示方法——BG-Triangle,在可微渲染的框架下結(jié)合矢量圖形和概率建模,利用矢量表達(dá)的靈活高效性以更少的圖元數(shù)量實(shí)現(xiàn)更精確的幾何和邊界建模,為3D場(chǎng)景表示提供了一種新的解決方案。

 


2023級(jí)碩士生戴海釗和比利時(shí)魯汶大學(xué)博士后吳旻燁為論文共同第一作者,比利時(shí)魯汶大學(xué)Tinne Tuytelaars教授和信息學(xué)院虞晶怡教授為論文共同通訊作者。

論文鏈接https://arxiv.org/pdf/2503.13961


基于回歸的幾何視覺(jué)問(wèn)題中同倫連續(xù)法起始問(wèn)題-解對(duì)的實(shí)時(shí)模擬

Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric Vision

本研究提出一種基于點(diǎn)對(duì)應(yīng)關(guān)系的幾何問(wèn)題求解的新范式,巧妙結(jié)合了回歸網(wǎng)絡(luò)、在線(xiàn)對(duì)應(yīng)模擬器和同倫延續(xù)三個(gè)階段。回歸網(wǎng)絡(luò)充當(dāng)通用解近似器,僅需在模擬環(huán)境中進(jìn)行訓(xùn)練。雖然單純的回歸精度往往不足以單獨(dú)解決問(wèn)題,但本研究結(jié)果表明,其精度通常仍足以模擬出一致的起始問(wèn)題- 解對(duì),從而成功實(shí)現(xiàn)單解延續(xù)。

上??萍即髮W(xué)是該成果的第一完成單位,2022級(jí)博士生張馨悅為第一作者,Laurent Kneip教授為論文的通訊作者。  


論文鏈接:https://arxiv.org/pdf/2411.03745

 

多模態(tài)學(xué)習(xí)

面向帶噪標(biāo)簽的基于視覺(jué)語(yǔ)言模型的提示學(xué)習(xí)

NLPrompt: Noise-Label Prompt Learning for Vision-Language Models

基于提示詞微調(diào)的方法因其強(qiáng)大的任務(wù)適應(yīng)能力而受到廣泛關(guān)注,本工作面向提示詞微調(diào)下的帶噪標(biāo)簽學(xué)習(xí)問(wèn)題,提出了一種新的學(xué)習(xí)方法NLPrompt,通過(guò)引入均值絕對(duì)誤差(MAE)損失函數(shù)和PromptMAE策略,顯著增強(qiáng)了模型在噪聲標(biāo)簽環(huán)境下的魯棒性,同時(shí)保持了高準(zhǔn)確率。還提出了基于提示的最優(yōu)傳輸數(shù)據(jù)凈化方法,進(jìn)一步提升模型的性能。實(shí)驗(yàn)結(jié)果表明,在不同噪聲場(chǎng)景下,尤其是在高噪聲情況下,NLPrompt表現(xiàn)出了顯著的性能提升。

 


2023級(jí)博士生潘比康和2024級(jí)碩士生李群為論文共同第一作者,石野教授為通訊作者。

論文鏈接:https://arxiv.org/abs/2412.01256

代碼鏈接:https://github.com/qunovo/NLPrompt


重新思考基于查詢(xún)的Transformer在持續(xù)圖像分割中的應(yīng)用

Rethinking Query-based Transformer for Continual Image Segmentation

當(dāng)前基于Transformer架構(gòu)的統(tǒng)一圖像分割器在持續(xù)圖像分割中面臨背景漂移和災(zāi)難性遺忘等諸多挑戰(zhàn)。本工作重新思考了當(dāng)前架構(gòu)下持續(xù)學(xué)習(xí)問(wèn)題的成因,揭示了Transformer中Query的內(nèi)在物體感知能力(built-in objectness)對(duì)解決持續(xù)學(xué)習(xí)問(wèn)題的重要意義。從查詢(xún)(Query)的初始化、蒸餾到重放等多個(gè)角度綜合解決問(wèn)題,顯著提升了模型在持續(xù)分割任務(wù)中抗遺忘和學(xué)習(xí)新知識(shí)的能力。實(shí)驗(yàn)結(jié)果顯示該方法在全景分割和語(yǔ)義分割指標(biāo)上顯著優(yōu)于現(xiàn)有方法,尤其在隨機(jī)任務(wù)序列中表現(xiàn)出更強(qiáng)的魯棒性,更適應(yīng)現(xiàn)實(shí)世界中的持續(xù)學(xué)習(xí)問(wèn)題。

 


上??萍即髮W(xué)是該成果的第一完成單位。碩士研究生朱宇辰、石騁為共同第一作者,楊思蓓教授為論文的通訊作者。

論文與代碼鏈接:https://github.com/SooLab/SimCIS

 

面向細(xì)粒度泛化類(lèi)別發(fā)現(xiàn)的自適應(yīng)部件學(xué)習(xí)方法

Adaptive Part Learning for Fine-Grained Generalized Category Discovery

細(xì)粒度視覺(jué)識(shí)別中,通用類(lèi)別發(fā)現(xiàn)(Generalized Category Discovery, GCD)旨在識(shí)別已知和未知類(lèi)別,但現(xiàn)有方法在細(xì)粒度場(chǎng)景下常因部分特征學(xué)習(xí)不足而性能受限。本研究提出了一種自適應(yīng)部分學(xué)習(xí)(Adaptive Part Learning, APL)框架,通過(guò)動(dòng)態(tài)聚焦關(guān)鍵局部區(qū)域來(lái)提升細(xì)粒度GCD的準(zhǔn)確性,實(shí)現(xiàn)了對(duì)細(xì)微差異的魯棒建模。多個(gè)細(xì)粒度數(shù)據(jù)集上驗(yàn)證結(jié)果表明它顯著提高了新類(lèi)別的發(fā)現(xiàn)率和分類(lèi)精度,同時(shí)保持了低計(jì)算開(kāi)銷(xiāo)。

 


上??萍即髮W(xué)為第一完成單位,博士研究生戴啟元、黃涵卓為論文共同第一作者,楊思蓓教授為論文的通訊作者。

論文鏈接:https://openaccess.thecvf.com/content/CVPR2025/papers/Dai_Adaptive_Part_Learning_for_Fine-Grained_Generalized_Category_Discovery_A_Plug-and-Play_CVPR_2025_paper.pdf


通過(guò)在線(xiàn)EM 實(shí)現(xiàn)更靈活的測(cè)試時(shí)自適應(yīng)

Free on the Fly: Enhancing Flexibility in Test-Time Adaptation with Online EM

測(cè)試時(shí)適應(yīng)(Test-Time Adaptation, TTA)允許模型在部署時(shí)動(dòng)態(tài)調(diào)整以適應(yīng)新數(shù)據(jù),但現(xiàn)有方法常受限于計(jì)算開(kāi)銷(xiāo)和靈活性不足。本研究提出了一種創(chuàng)新框架“Free on the Fly”,利用在線(xiàn)期望最大化(Online EM)算法,實(shí)現(xiàn)了高效且靈活的測(cè)試時(shí)適應(yīng)。多個(gè)視覺(jué)基準(zhǔn)任務(wù)上的驗(yàn)證結(jié)果顯示該方法在適應(yīng)速度和準(zhǔn)確性上均優(yōu)于傳統(tǒng)TTA方法,尤其在高動(dòng)態(tài)環(huán)境中展現(xiàn)出卓越的魯棒性,為實(shí)時(shí)部署的機(jī)器學(xué)習(xí)模型提供了新工具。

 


上??萍即髮W(xué)為第一完成單位,博士研究生戴啟元為第一作者,楊思蓓教授為通訊作者。

論文鏈接:https://sibeiyang.github.io/assets/pdf/CVPR25_TTA-1.pdf


AI for Society

通過(guò)機(jī)制可解釋性剖析與緩解擴(kuò)散模型社會(huì)偏見(jiàn)

Dissecting and Mitigating Diffusion Bias via Mechanistic Interpretability

生成擴(kuò)散模型在多樣化內(nèi)容合成領(lǐng)域展現(xiàn)了卓越的能力,但其保留訓(xùn)練數(shù)據(jù)偏見(jiàn)的輸出往往會(huì)加劇社會(huì)的刻板印象與不平等。當(dāng)前去除偏見(jiàn)的研究多聚焦于生成過(guò)程的引導(dǎo)策略,卻忽視了模型內(nèi)部驅(qū)動(dòng)偏見(jiàn)內(nèi)容輸出的因果機(jī)制。本研究通過(guò)剖析擴(kuò)散模型的內(nèi)在決策機(jī)理,創(chuàng)新性地提出基于特征干預(yù)的模型編輯技術(shù),實(shí)現(xiàn)偏見(jiàn)生成要素的精準(zhǔn)定位與動(dòng)態(tài)調(diào)控,達(dá)到社會(huì)偏見(jiàn)的高效糾偏。在保持生成圖像質(zhì)量的同時(shí),對(duì)生成分布(社會(huì)屬性的分布,如男性與女性的比例)實(shí)現(xiàn)有效調(diào)控。模型中存在控制生成細(xì)粒度特性的差異化內(nèi)在特征,為生成模型的機(jī)制可解釋性研究提供了全新的視角與方法。

2023級(jí)碩士生史英棟與2024級(jí)碩士生李昌明為論文共同第一作者,任侃教授為通訊作者。

 

1面向社會(huì)偏見(jiàn)因果機(jī)理的擴(kuò)散模型機(jī)制解釋框架


2模型生成內(nèi)容中的社會(huì)偏見(jiàn)及調(diào)控效果


3 (動(dòng)態(tài)圖)基于機(jī)制解釋的模型社會(huì)偏見(jiàn)調(diào)控與去除(包括性別,年齡和人種)


論文鏈接:https://arxiv.org/abs/2503.20483