探索AI前沿 上科大科研成果入選ICCV 2025

發(fā)布時(shí)間2025-10-16文章來(lái)源 信息學(xué)院、創(chuàng)藝學(xué)院、科技發(fā)展處作者責(zé)任編輯管舜瑛

國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(International Conference on Computer VisionICCV)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要國(guó)際會(huì)議(CCF A類(lèi)),將于20251019日至23日在美國(guó)夏威夷舉行。上??萍即髮W(xué)多篇成果入選本次會(huì)議,從探索人機(jī)共生的協(xié)同范式、到突破物理限制的視覺(jué)感知、再到賦能機(jī)器的智能決策,不僅展現(xiàn)了學(xué)術(shù)創(chuàng)新突破,也在科學(xué)成像、智能制造、自動(dòng)駕駛、人機(jī)協(xié)作等場(chǎng)景中展現(xiàn)出巨大的應(yīng)用潛力,為解決現(xiàn)實(shí)世界中的復(fù)雜問(wèn)題提供了創(chuàng)新思路。


人機(jī)交互與協(xié)同智能

1. DexH2R: 人機(jī)交接中動(dòng)態(tài)靈巧抓取的基準(zhǔn)/A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover

人與靈巧手機(jī)器手之間的物品遞接是人機(jī)協(xié)作中的基礎(chǔ)性挑戰(zhàn),本研究首次提出了一個(gè)真實(shí)世界中的靈巧手人機(jī)遞接數(shù)據(jù)集 DexH2R,涵蓋了多樣化的交互物體、動(dòng)態(tài)運(yùn)動(dòng)過(guò)程、豐富的視覺(jué)信息以及詳細(xì)的行為標(biāo)注?;诖藬?shù)據(jù)集進(jìn)一步提出了動(dòng)態(tài)遞接解決方案 DynamicGrasp,還構(gòu)建了一個(gè)涵蓋安全性、準(zhǔn)確性與可靠性的多維評(píng)估體系,以推動(dòng)人-機(jī)器人遞接研究的發(fā)展。

上??萍即髮W(xué)信息學(xué)院2023級(jí)研究生王尤卓與2024級(jí)研究生葉佳怡為論文共同第一作者,馬月昕教授為論文通訊作者。

論文鏈接:https://arxiv.org/abs/2506.23152

代碼鏈接:https://github.com/4DVLab/DexH2R

項(xiàng)目主頁(yè):https://dexh2r.github.io/


2. EvolvingGrasp: 通過(guò)高效偏好對(duì)齊實(shí)現(xiàn)進(jìn)化式抓取生成/Evolutionary Grasp Generation via Efficient Preference Alignment

具備自主進(jìn)化能力、能夠越抓越穩(wěn)的靈巧手,是實(shí)現(xiàn)通用具身智能進(jìn)化道路上的關(guān)鍵突破。EvolvingGrasp 首次提出“進(jìn)化式抓取生成”框架:通過(guò)Handpose-wise Preference OptimizationHPO)方法,使機(jī)械手能以仿生方式從成功與失敗的抓取中持續(xù)學(xué)習(xí)。進(jìn)一步結(jié)合 Physics-Aware Consistency Model,在實(shí)現(xiàn)30倍推理加速的同時(shí)嚴(yán)格保證抓取的物理可行性。該方法在四個(gè)公開(kāi)數(shù)據(jù)集上均達(dá)到最優(yōu)表現(xiàn),并在ShadowHand真實(shí)機(jī)器人平臺(tái)上驗(yàn)證了其在線(xiàn)微調(diào)能力,展現(xiàn)出“越抓越好”的進(jìn)化特性。

該項(xiàng)研究由上??萍即髮W(xué)信息學(xué)院2025級(jí)碩士生朱宇飛與2024級(jí)碩士生鐘奕鳴擔(dān)任共同第一作者,信息學(xué)院馬月昕教授和香港中文大學(xué)祝新革博士擔(dān)任共同通訊作者。

論文鏈接:https://arxiv.org/pdf/2503.14329

代碼鏈接:https://github.com/4DVLab/EvolvingGrasp

項(xiàng)目主頁(yè):https://evolvinggrasp.github.io/


3. Human-X:實(shí)時(shí)物理可行人機(jī)交互生成新范式/Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis

當(dāng)前人機(jī)交互現(xiàn)有方法的“響應(yīng)延遲”與“物理不一致”問(wèn)題會(huì)顯著降低用戶(hù)體驗(yàn)并影響系統(tǒng)安全性。為此,研究團(tuán)隊(duì)提出了一種統(tǒng)一的實(shí)時(shí)交互合成框架 Human-X。在 Inter-X InterHuman 等多個(gè)人-人交互數(shù)據(jù)集上的全面驗(yàn)證顯示,其性能明顯優(yōu)于當(dāng)前主流方法,在VR/AR、社交機(jī)器人、數(shù)字人交互等沉浸式人機(jī)協(xié)同場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用潛力。

上??萍即髮W(xué)信息學(xué)院2024級(jí)碩士生季凱陽(yáng)為論文第一作者,汪婧雅教授為通訊作者,2023級(jí)碩士生金子棽與2025級(jí)碩士生陳康奕也參與了本研究工作。

論文鏈接:https://iccv.thecvf.com/virtual/2025/poster/939

代碼鏈接:https://github.com/humanx-interaction/Human-X-Interaction


4. ReAL-AD:邁向端到端自動(dòng)駕駛中的類(lèi)人推理/ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving

現(xiàn)有端到端自動(dòng)駕駛方法通常依賴(lài)固定且稀疏的軌跡監(jiān)督信號(hào),難以充分捕捉人類(lèi)駕駛員所具備的分層推理機(jī)制。研究提出了ReAL-AD(推理增強(qiáng)學(xué)習(xí)自動(dòng)駕駛框架),基于“策略—決策—操作”三級(jí)人類(lèi)認(rèn)知模型構(gòu)建自動(dòng)駕駛決策系統(tǒng),并融合視覺(jué)語(yǔ)言模型(VLM)以增強(qiáng)其在多層級(jí)上的態(tài)勢(shì)感知與結(jié)構(gòu)化推理能力。大量實(shí)驗(yàn)表明,集成該框架可顯著提升自動(dòng)駕駛系統(tǒng)的規(guī)劃準(zhǔn)確性與安全性,相比基線(xiàn)方法提升超過(guò)30%,同時(shí)增強(qiáng)了系統(tǒng)的可解釋性,使其決策過(guò)程更貼近人類(lèi)的分層推理模式。

信息學(xué)院科研助理陸宇航為論文第一作者,香港中文大學(xué)祝新革博士與上??萍即髮W(xué)信息學(xué)院馬月昕教授為共同通訊作者。

論文鏈接:https://arxiv.org/pdf/2507.12499

項(xiàng)目主頁(yè):https://4dvlab.github.io/project_page/realad


智能感知與三維視覺(jué)重建

5. CryoFastAR: 輕松實(shí)現(xiàn)快速冷凍電鏡從頭重構(gòu)/CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy

在冷凍電子顯微鏡(cryo-EM)等科學(xué)成像領(lǐng)域,從無(wú)序粒子圖像中恢復(fù)姿態(tài)并進(jìn)行三維重建,目前仍依賴(lài)于耗時(shí)的迭代優(yōu)化流程,主要是由于極低的信噪比(SNR)和對(duì)比度傳遞函數(shù)(CTF)所引入的圖像畸變等挑戰(zhàn)。研究提出了首個(gè)專(zhuān)用于 cryo-EM 的幾何基礎(chǔ)模型CryoFastAR直接從帶噪聲的 cryo-EM 圖像中預(yù)測(cè)粒子姿態(tài),實(shí)現(xiàn)快速的 ab initio 三維重構(gòu)。結(jié)果表明,CryoFastAR 在合成與真實(shí)數(shù)據(jù)集上均達(dá)到了與傳統(tǒng)迭代方法相當(dāng)?shù)闹貥?gòu)質(zhì)量,同時(shí)推理速度顯著提升。

該論文的第一作者為上??萍即髮W(xué)信息學(xué)院2022級(jí)博士生張家愷,第二作者為2021級(jí)本科生周守琛,虞晶怡教授為通訊作者。

論文鏈接:https://arxiv.org/pdf/2506.05864


6. 基于連續(xù)幾何表示的三維異常定位與修復(fù)新方法 / Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation

在高端裝備智能質(zhì)檢領(lǐng)域,傳統(tǒng)離散點(diǎn)云表達(dá)方法存在的幾何細(xì)節(jié)丟失、異常定位不精確瓶頸,研究團(tuán)隊(duì)創(chuàng)新性地提出了PASDF方法。該研究采用連續(xù)、高精度的有符號(hào)距離場(chǎng),并結(jié)合姿態(tài)自適應(yīng)的對(duì)齊模塊,能夠?qū)崿F(xiàn)對(duì)物體三維異常的精準(zhǔn)定位和高質(zhì)量自動(dòng)修復(fù)。該方法在國(guó)際權(quán)威數(shù)據(jù)集Real3D-ADAnomaly-ShapeNet上分別取得了80.2%90.0%的檢測(cè)準(zhǔn)確率(O-AUROC),并大幅提升了異常區(qū)域的修復(fù)效果。

2023級(jí)碩士研究生鄭博中、2024級(jí)碩士研究生甘錦業(yè)為共同第一作者,論文的合作者還包括2024級(jí)碩士研究生陳鑫濤、2022級(jí)碩士研究生李文嶠,論文由創(chuàng)藝學(xué)院武穎娜研究員與倪娜副研究員共同指導(dǎo)完成。

論文鏈接: https://arxiv.org/abs/2505.24431


7. TransiT: 基于Transient Transformer的非視域視頻成像/TransiT: Transient Transformer for Non-line-of-sight Videography

在非視線(xiàn)成像(NLOS)領(lǐng)域,實(shí)現(xiàn)高質(zhì)量、高幀率的視頻采集對(duì)自動(dòng)駕駛、災(zāi)后搜救等任務(wù)具有重要意義?,F(xiàn)有方法往往難以兼顧幀率與視頻質(zhì)量,研究提出了一種名為 TransiT 的瞬態(tài)Transformer架構(gòu)。在真實(shí)采集系統(tǒng)中,TransiT 能夠從每點(diǎn)曝光時(shí)間僅 0.4 毫秒、分辨率為 16×16 的稀疏瞬態(tài)數(shù)據(jù)中,重建出分辨率達(dá) 64×64、幀率為 10 fps 的高質(zhì)量非視域視頻。

上??萍即髮W(xué)信息學(xué)院2022級(jí)博士生李睿潛、2023級(jí)博士生沈思遠(yuǎn)和2022級(jí)研究生夏蘇安為論文共同第一作者,虞晶怡教授、李實(shí)英副研究員為論文共同通訊作者。

論文鏈接: https://arxiv.org/abs/2503.11328


8. 一種基于異步軌跡的結(jié)構(gòu)和運(yùn)動(dòng)線(xiàn)性N點(diǎn)求解器/A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks

傳統(tǒng)計(jì)算機(jī)視覺(jué)中的結(jié)構(gòu)與運(yùn)動(dòng)估計(jì)方法通常基于同步數(shù)據(jù)假設(shè),隨著滾動(dòng)快門(mén)相機(jī)和事件相機(jī)等異步傳感技術(shù)的發(fā)展,這一假設(shè)在實(shí)際應(yīng)用中往往不再成立。針對(duì)此,研究提出了一種統(tǒng)一的結(jié)構(gòu)與線(xiàn)性運(yùn)動(dòng)估計(jì)方法,能夠處理來(lái)自任意時(shí)間戳與任意視圖的二維點(diǎn)對(duì)應(yīng)。實(shí)驗(yàn)結(jié)果表明,該方法在多種數(shù)據(jù)模態(tài)下均優(yōu)于現(xiàn)有技術(shù),為異步視覺(jué)條件下的結(jié)構(gòu)與運(yùn)動(dòng)估計(jì)提供了新的技術(shù)路徑。

  

上??萍即髮W(xué)信息學(xué)院2023級(jí)博士生蘇杭為論文第一作者,Laurent Kneip教授為通訊作者。信息學(xué)院Xavier Lagorce教授、2023級(jí)碩士生馮云龍和2022級(jí)本科生江攀峰也參與了本研究工作。

代碼鏈接https://github.com/suhang99/AsyncTrack-Motion-Solver

論文鏈接https://arxiv.org/abs/2507.22733v1


視覺(jué)理解與智能決策

9. MP-ReID:多模態(tài)多平臺(tái)的行人重識(shí)別數(shù)據(jù)集基準(zhǔn)與/Multi-modal Multi-platform Person Re-Identification: Benchmark and Method

傳統(tǒng)行人重識(shí)別(ReID)受限于單一模態(tài)靜態(tài)攝像頭的部署條件,難以有效應(yīng)對(duì)真實(shí)世界的復(fù)雜場(chǎng)景。當(dāng)城市安防系統(tǒng)中同時(shí)存在地面RGB攝像頭、夜間紅外設(shè)備及動(dòng)態(tài)追蹤無(wú)人機(jī)時(shí),視角差異、光照變化與模態(tài)差異成為跨平臺(tái)精準(zhǔn)識(shí)別的主要挑戰(zhàn)。研究推出MP-ReID——全球首個(gè)專(zhuān)為多模態(tài)、多平臺(tái)行人重識(shí)別而構(gòu)建的基準(zhǔn)數(shù)據(jù)集?;谠摶鶞?zhǔn)庫(kù),團(tuán)隊(duì)進(jìn)一步提出Uni-Prompt ReID框架,通過(guò)定制化提示機(jī)制動(dòng)態(tài)適應(yīng)不同模態(tài)與平臺(tái)間的數(shù)據(jù)差異,在復(fù)雜場(chǎng)景下實(shí)現(xiàn)了顯著優(yōu)于現(xiàn)有最優(yōu)方案的識(shí)別精度。

上??萍即髮W(xué)信息學(xué)院2022級(jí)碩士生哈睿暘為論文第一作者,汪婧雅教授為通訊作者。2023級(jí)博士生潘比康、2023級(jí)碩士生朱翌航也參與了研究工作。

代碼及數(shù)據(jù)集鏈接: https://github.com/MP-ReID/mp-reid

論文鏈接https://arxiv.org/abs/2503.17096


10. GeoDistill: 用于跨視角定位的幾何引導(dǎo)的弱監(jiān)督自蒸餾方法/Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

跨視圖定位旨在通過(guò)對(duì)齊地面與航拍圖像以估計(jì)相機(jī)位姿,是增強(qiáng)現(xiàn)實(shí)等大規(guī)模戶(hù)外應(yīng)用中的關(guān)鍵技術(shù)?,F(xiàn)有方法普遍依賴(lài)于全監(jiān)督學(xué)習(xí),不僅需要昂貴真值位姿標(biāo)注,在面對(duì)與訓(xùn)練數(shù)據(jù)存在分布差異的未知區(qū)域時(shí),其定位性能往往顯著下降。針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)提出了一種名為GeoDistill 的幾何引導(dǎo)弱監(jiān)督自蒸餾框架。實(shí)驗(yàn)結(jié)果表明,GeoDistill 能夠顯著提升現(xiàn)有定位框架的性能,尤其在更具挑戰(zhàn)性的未見(jiàn)區(qū)域中表現(xiàn)出明顯的優(yōu)勢(shì)。

上??萍即髮W(xué)信息學(xué)院2024級(jí)碩士生童少文為論文第一作者,師玉嬌教授為通訊作者。

代碼鏈接: https://github.com/tongshw/GeoDistill

論文鏈接: https://arxiv.org/pdf/2507.10935


11. 閉環(huán)遷移用于弱監(jiān)督可供性定位/Closed-Loop Transfer for Weakly-supervised Affordance Grounding

人類(lèi)在面對(duì)陌生對(duì)象時(shí),往往能夠通過(guò)觀(guān)察他人與物體的交互行為,快速學(xué)習(xí)其使用方式。弱監(jiān)督可供性定位(Weakly-supervised Affordance Grounding)任務(wù)正是受此啟發(fā)?,F(xiàn)有方法在交互場(chǎng)景復(fù)雜、尤其是人體嚴(yán)重遮擋目標(biāo)區(qū)域的情況下,性能往往受限。為此團(tuán)隊(duì)提出一種新型閉環(huán)框架 LoopTrans,實(shí)現(xiàn)了跨視角的雙向知識(shí)遷移與增強(qiáng)。實(shí)驗(yàn)結(jié)果表明在多個(gè)圖像與視頻基準(zhǔn)上均取得了顯著性能提升,充分驗(yàn)證了其跨任務(wù)與跨場(chǎng)景的強(qiáng)泛化能力。

上??萍即髮W(xué)信息學(xué)院2023級(jí)博士生唐嘉晉與2022級(jí)本科生衛(wèi)正軒為共同第一作者,楊思蓓教授為通訊作者。


12. Sim-DETR:釋放 DETR 在時(shí)間句子定位中的潛力/Sim-DETR: Unlock DETR for Temporal Sentence Grounding

時(shí)間句子定位(Temporal Sentence Grounding)是一項(xiàng)關(guān)鍵的視頻理解任務(wù),現(xiàn)有方法多基于檢測(cè)TransformerDETR)框架構(gòu)建。但許多為提升DETR性能而設(shè)計(jì)的策略在該任務(wù)中不僅無(wú)效,甚至可能導(dǎo)致性能退化。本工作揭示了背后的兩個(gè)主要原因:一是在語(yǔ)義相似的目標(biāo)片段之間存在查詢(xún)沖突;二是單個(gè)查詢(xún)內(nèi)部難以協(xié)調(diào)全局語(yǔ)義理解與局部定位需求?;诖?,研究提出了一個(gè)簡(jiǎn)潔而高效的基線(xiàn)模型——Sim-DETR。實(shí)驗(yàn)表明,Sim-DETR在所有評(píng)價(jià)指標(biāo)上均達(dá)到了最先進(jìn)性能,不僅解決了時(shí)間句子定位中查詢(xún)間與查詢(xún)內(nèi)的沖突問(wèn)題,也為未來(lái)研究提供了一個(gè)強(qiáng)大而高效的基線(xiàn)模型。

  

上??萍即髮W(xué)信息學(xué)院2023級(jí)博士生唐嘉晉與2022級(jí)本科生衛(wèi)正軒為共同第一作者,楊思蓓教授為通訊作者。


13. AMR: 增強(qiáng)片段檢索:零依賴(lài)的兩階段學(xué)習(xí)/Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning

片段檢索(Moment Retrieval)是實(shí)現(xiàn)自然語(yǔ)言與視覺(jué)信息交互的關(guān)鍵任務(wù)之一。然而,標(biāo)注數(shù)據(jù)稀缺使得模型僅能學(xué)習(xí)到淺層的對(duì)應(yīng)關(guān)系、相鄰事件間過(guò)渡區(qū)域的邊界模糊使得片段定位精度下降、模型在區(qū)分語(yǔ)義相近的細(xì)粒度動(dòng)作時(shí)表現(xiàn)不佳等困境。為此,研究團(tuán)隊(duì)提出了一種無(wú)需外部依賴(lài)的增強(qiáng)型片段檢索框架 AMR,在多個(gè)公開(kāi)基準(zhǔn)上取得了顯著性能提升。實(shí)驗(yàn)結(jié)果驗(yàn)證了AMR 在應(yīng)對(duì)邊界模糊與細(xì)粒度語(yǔ)義區(qū)分問(wèn)題上的有效性。

  

上海科技大學(xué)信息學(xué)院2022級(jí)本科生衛(wèi)正軒與2023級(jí)博士生唐嘉晉為本文共同第一作者,楊思蓓教授為通訊作者。


14. 消除同源干擾:人物交互檢測(cè)中的去偏見(jiàn)研究/No More Sibling Rivalry: Debiasing Human-Object Interaction Detection

檢測(cè)TransformerDETR)已被應(yīng)用于人物交互(HOI)檢測(cè)任務(wù),顯著提升了圖像中“人-動(dòng)作-物”三元組的定位與識(shí)別性能。其中一個(gè)關(guān)鍵問(wèn)題——“有毒兄弟姐妹偏見(jiàn)”:在交互解碼器的輸入與輸出端,大量相似但不相同的HOI三元組相互干擾甚至彼此競(jìng)爭(zhēng),嚴(yán)重阻礙了解碼器的有效學(xué)習(xí),導(dǎo)致一種矛盾現(xiàn)象——相似性越高,識(shí)別精度反而下降。針對(duì)此,研究提出了兩個(gè)新的去偏見(jiàn)學(xué)習(xí)目標(biāo):“對(duì)比-校準(zhǔn)”與“合并-拆分”,分別從輸入與輸出兩個(gè)角度進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,多種設(shè)置下其均顯著優(yōu)于基線(xiàn)模型(在HICO-Det數(shù)據(jù)集上mAP提升+9.18%)和當(dāng)前最優(yōu)模型(mAP提升+3.59%)。

  

上海科技大學(xué)信息學(xué)院2023級(jí)碩士生楊斌與2024級(jí)碩士生張宇麟為論文的共同第一作者,楊思蓓教授為論文通訊作者。

論文鏈接:https://arxiv.org/pdf/2509.00760


15. SMGDiff:基于擴(kuò)散模型的實(shí)時(shí)可控足球動(dòng)作生成/ Soccer Motion Generation using diffusion probabilistic models

針對(duì)足球運(yùn)動(dòng)場(chǎng)景中復(fù)雜的運(yùn)動(dòng)軌跡與高度動(dòng)態(tài)的人物交互,研究團(tuán)隊(duì)提出了一種基于Diffusion 模型的兩階段實(shí)時(shí)足球動(dòng)作生成框架 SMGDiff,該框架包括一個(gè)軌跡生成模塊和一個(gè)動(dòng)作生成模型:軌跡生成模塊采用 one-step diffusion 策略高效生成多樣化的人物運(yùn)動(dòng)軌跡;動(dòng)作生成模型引入接觸引導(dǎo)機(jī)制,并提出 Contact loss 以在 Diffusion 采樣過(guò)程中優(yōu)化球與腳之間的動(dòng)態(tài)接觸關(guān)系。本研究為實(shí)時(shí)、高動(dòng)態(tài)的人物交互動(dòng)作生成提供了新的技術(shù)思路。

  

上??萍即髮W(xué)信息學(xué)院2023級(jí)碩士研究生楊宏笛和2022級(jí)本科生李承陽(yáng)為論文共同第一作者,許嵐教授為通訊作者。

論文鏈接:https://arxiv.org/abs/2411.16216

項(xiàng)目主頁(yè):https://geekyoung.red/SMGDiff/