智能感知與人機(jī)協(xié)同教育部重點(diǎn)實(shí)驗(yàn)室依托上海科技大學(xué)信息科學(xué)與技術(shù)學(xué)院,致力于探索下一代人類(lèi)智能與機(jī)器智能的協(xié)同發(fā)展與相互增強(qiáng),構(gòu)建支撐二者交互協(xié)作的新型理論基礎(chǔ)與實(shí)驗(yàn)平臺(tái),推動(dòng)人類(lèi)智能與機(jī)器智能的協(xié)同演進(jìn)與深度融合。國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(International Conference on Computer Vision,ICCV)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要國(guó)際會(huì)議(CCF A類(lèi)),將于2025年10月19日至23日在美國(guó)夏威夷舉行。ICCV 2025 共收到投稿11239篇,錄用2698篇,錄取率為 24%。在本屆會(huì)議中,實(shí)驗(yàn)室團(tuán)隊(duì)表現(xiàn)突出,共有14篇論文被接收。
1. DexH2R: 人機(jī)交接中動(dòng)態(tài)靈巧抓取的基準(zhǔn)
A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover
人與靈巧手機(jī)器手之間的物品遞接是人機(jī)協(xié)作中的基礎(chǔ)性挑戰(zhàn),高質(zhì)量真實(shí)世界人-機(jī)器人遞接數(shù)據(jù)集的缺乏,嚴(yán)重制約了相關(guān)研究的進(jìn)展。本研究首次提出了一個(gè)真實(shí)世界中的靈巧手人機(jī)遞接數(shù)據(jù)集 DexH2R,涵蓋了多樣化的交互物體、動(dòng)態(tài)運(yùn)動(dòng)過(guò)程、豐富的視覺(jué)信息以及詳細(xì)的行為標(biāo)注?;诖藬?shù)據(jù)集進(jìn)一步提出了動(dòng)態(tài)遞接解決方案 DynamicGrasp,還構(gòu)建了一個(gè)涵蓋安全性、準(zhǔn)確性與可靠性的多維評(píng)估體系,以推動(dòng)人-機(jī)器人遞接研究的發(fā)展。

上??萍即髮W(xué)信息學(xué)院2023級(jí)研究生王尤卓與2024級(jí)研究生葉佳怡為論文共同第一作者,馬月昕教授為論文通訊作者。
論文鏈接:https://arxiv.org/abs/2506.23152
代碼鏈接:https://github.com/4DVLab/DexH2R
項(xiàng)目主頁(yè):https://dexh2r.github.io/
2. GeoDistill: 用于跨視角定位的幾何引導(dǎo)的弱監(jiān)督自蒸餾方法
Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
跨視圖定位旨在通過(guò)對(duì)齊地面與航拍圖像以估計(jì)相機(jī)位姿,是增強(qiáng)現(xiàn)實(shí)等大規(guī)模戶(hù)外應(yīng)用中的關(guān)鍵技術(shù)?,F(xiàn)有方法普遍依賴(lài)于全監(jiān)督學(xué)習(xí),不僅需要昂貴真值位姿標(biāo)注,在面對(duì)與訓(xùn)練數(shù)據(jù)存在分布差異的未知區(qū)域時(shí),其定位性能往往顯著下降。針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)提出了一種名為GeoDistill 的幾何引導(dǎo)弱監(jiān)督自蒸餾框架。實(shí)驗(yàn)結(jié)果表明,GeoDistill 能夠顯著提升現(xiàn)有定位框架的性能,尤其在更具挑戰(zhàn)性的未見(jiàn)區(qū)域中表現(xiàn)出明顯的優(yōu)勢(shì)。

上??萍即髮W(xué)信息學(xué)院2024級(jí)碩士生童少文為論文第一作者,師玉嬌教授為通訊作者。
代碼鏈接: https://github.com/tongshw/GeoDistill
論文鏈接: https://arxiv.org/pdf/2507.10935
3. 一種基于異步軌跡的結(jié)構(gòu)和運(yùn)動(dòng)線(xiàn)性N點(diǎn)求解器
A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks
傳統(tǒng)計(jì)算機(jī)視覺(jué)中的結(jié)構(gòu)與運(yùn)動(dòng)估計(jì)方法通?;谕綌?shù)據(jù)假設(shè),例如經(jīng)典的五點(diǎn)法或八點(diǎn)法。然而,隨著滾動(dòng)快門(mén)相機(jī)和事件相機(jī)等異步傳感技術(shù)的發(fā)展,這一假設(shè)在實(shí)際應(yīng)用中往往不再成立。針對(duì)該問(wèn)題,研究團(tuán)隊(duì)提出了一種統(tǒng)一的結(jié)構(gòu)與線(xiàn)性運(yùn)動(dòng)估計(jì)方法,能夠處理來(lái)自任意時(shí)間戳與任意視圖的二維點(diǎn)對(duì)應(yīng)。實(shí)驗(yàn)結(jié)果表明,該方法在多種數(shù)據(jù)模態(tài)下均優(yōu)于現(xiàn)有技術(shù),為異步視覺(jué)條件下的結(jié)構(gòu)與運(yùn)動(dòng)估計(jì)提供了新的技術(shù)路徑。

上??萍即髮W(xué)信息學(xué)院2023級(jí)博士生蘇杭為論文第一作者,Laurent Kneip教授為通訊作者。信息學(xué)院Xavier Lagorce教授、2023級(jí)碩士生馮云龍和2022級(jí)本科生江攀峰也參與了本研究工作。
代碼鏈接: https://github.com/suhang99/AsyncTrack-Motion-Solver
論文鏈接: https://arxiv.org/abs/2507.22733v1
4. MP-ReID:多模態(tài)多平臺(tái)的行人重識(shí)別數(shù)據(jù)集基準(zhǔn)與方法
Multi-modal Multi-platform Person Re-Identification: Benchmark and Method
傳統(tǒng)行人重識(shí)別(ReID)長(zhǎng)期受限于單一模態(tài)靜態(tài)攝像頭的部署條件,難以有效應(yīng)對(duì)真實(shí)世界的復(fù)雜場(chǎng)景。當(dāng)城市安防系統(tǒng)中同時(shí)存在地面RGB攝像頭、夜間紅外設(shè)備及動(dòng)態(tài)追蹤無(wú)人機(jī)時(shí),視角差異、光照變化與模態(tài)差異成為跨平臺(tái)精準(zhǔn)識(shí)別的主要挑戰(zhàn)。研究團(tuán)隊(duì)推出MP-ReID——全球首個(gè)專(zhuān)為多模態(tài)、多平臺(tái)行人重識(shí)別而構(gòu)建的基準(zhǔn)數(shù)據(jù)集?;谠摶鶞?zhǔn)庫(kù),團(tuán)隊(duì)進(jìn)一步提出Uni-Prompt ReID框架,通過(guò)定制化提示機(jī)制動(dòng)態(tài)適應(yīng)不同模態(tài)與平臺(tái)間的數(shù)據(jù)差異,在復(fù)雜場(chǎng)景下實(shí)現(xiàn)了顯著優(yōu)于現(xiàn)有最優(yōu)方案的識(shí)別精度。

上??萍即髮W(xué)信息學(xué)院2022級(jí)碩士生哈睿暘為論文第一作者,汪婧雅教授為通訊作者。2023級(jí)博士生潘比康、2023級(jí)碩士生朱翌航也參與了研究工作。
代碼及數(shù)據(jù)集鏈接: https://github.com/MP-ReID/mp-reid
論文鏈接: https://arxiv.org/abs/2503.17096
5. Human-X:實(shí)時(shí)物理可行人機(jī)交互生成新范式
Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis
當(dāng)前人機(jī)交互研究中,現(xiàn)有方法往往難以在保持實(shí)時(shí)響應(yīng)、物理合理性與交互同步性的同時(shí),實(shí)現(xiàn)人-虛擬角色、人形實(shí)體或機(jī)器人之間的高質(zhì)量互動(dòng)。此類(lèi)“響應(yīng)延遲”與“物理不一致”問(wèn)題會(huì)顯著降低用戶(hù)體驗(yàn)并影響系統(tǒng)安全性。為此,研究團(tuán)隊(duì)提出了一種統(tǒng)一的實(shí)時(shí)交互合成框架 Human-X。該方法在 Inter-X 和 InterHuman 等多個(gè)人-人交互數(shù)據(jù)集上進(jìn)行了全面驗(yàn)證,其性能明顯優(yōu)于當(dāng)前主流方法,在VR/AR、社交機(jī)器人、數(shù)字人交互等沉浸式人機(jī)協(xié)同場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用潛力。

上??萍即髮W(xué)信息學(xué)院2024級(jí)碩士生季凱陽(yáng)為論文第一作者,汪婧雅教授為通訊作者,2023級(jí)碩士生金子棽與2025級(jí)碩士生陳康奕也參與了本研究工作。
論文鏈接:https://iccv.thecvf.com/virtual/2025/poster/939
代碼鏈接:https://github.com/humanx-interaction/Human-X-Interaction
6. SMGDiff:基于擴(kuò)散模型的實(shí)時(shí)可控足球動(dòng)作生成
Soccer Motion Generation using diffusion probabilistic models
針對(duì)足球運(yùn)動(dòng)場(chǎng)景中復(fù)雜的運(yùn)動(dòng)軌跡與高度動(dòng)態(tài)的人物交互,研究團(tuán)隊(duì)提出了一種基于Diffusion 模型的兩階段實(shí)時(shí)足球動(dòng)作生成框架 SMGDiff,該框架包括一個(gè)軌跡生成模塊和一個(gè)動(dòng)作生成模型:軌跡生成模塊采用 one-step diffusion 策略高效生成多樣化的人物運(yùn)動(dòng)軌跡;動(dòng)作生成模型引入接觸引導(dǎo)機(jī)制,并提出 Contact loss 以在 Diffusion 采樣過(guò)程中優(yōu)化球與腳之間的動(dòng)態(tài)接觸關(guān)系。本研究為實(shí)時(shí)、高動(dòng)態(tài)的人物交互動(dòng)作生成提供了新的技術(shù)思路。

圖: 基于Diffusion模型的兩階段實(shí)時(shí)足球動(dòng)作生成框架
上海科技大學(xué)信息學(xué)院2023級(jí)碩士研究生楊宏笛和2022級(jí)本科生李承陽(yáng)為論文共同第一作者,許嵐教授為通訊作者。
論文鏈接:https://arxiv.org/abs/2411.16216
項(xiàng)目主頁(yè):https://geekyoung.red/SMGDiff/
7. 閉環(huán)遷移用于弱監(jiān)督可供性定位
Closed-Loop Transfer for Weakly-supervised Affordance Grounding
人類(lèi)在面對(duì)陌生對(duì)象時(shí),往往能夠通過(guò)觀(guān)察他人與物體的交互行為,快速學(xué)習(xí)其使用方式。弱監(jiān)督可供性定位(Weakly-supervised Affordance Grounding)任務(wù)正是受此啟發(fā)。現(xiàn)有方法在交互場(chǎng)景復(fù)雜、尤其是人體嚴(yán)重遮擋目標(biāo)區(qū)域的情況下,性能往往受限。為此團(tuán)隊(duì)提出一種新型閉環(huán)框架 LoopTrans,實(shí)現(xiàn)了跨視角的雙向知識(shí)遷移與增強(qiáng)。實(shí)驗(yàn)結(jié)果表明在多個(gè)圖像與視頻基準(zhǔn)上均取得了顯著性能提升:在 AGD20K 數(shù)據(jù)集上,KLD、SIM 和 NSS 三項(xiàng)指標(biāo)平均提升 6.7%,相對(duì)改進(jìn)幅度達(dá) 236%,顯著超越現(xiàn)有最佳模型 WSMA;與 LOCATE 方法相比,在遮擋與復(fù)雜場(chǎng)景下,LoopTrans 的共享類(lèi)激活圖(CAM)表現(xiàn)出更高定位精度,綜合性能提升 11.3%。此外在 HICO-IFF 數(shù)據(jù)集上,該方法相較 WSMA 也取得了 10.5% 的性能優(yōu)勢(shì),充分驗(yàn)證了其跨任務(wù)與跨場(chǎng)景的強(qiáng)泛化能力。

上??萍即髮W(xué)信息學(xué)院2023級(jí)博士生唐嘉晉與2022級(jí)本科生衛(wèi)正軒為共同第一作者,楊思蓓教授為通訊作者。
8. Sim-DETR:釋放 DETR 在時(shí)間句子定位中的潛力
Sim-DETR: Unlock DETR for Temporal Sentence Grounding
時(shí)間句子定位(Temporal Sentence Grounding)是一項(xiàng)關(guān)鍵的視頻理解任務(wù),現(xiàn)有方法多基于檢測(cè)Transformer(DETR)框架構(gòu)建。但許多為提升DETR性能而設(shè)計(jì)的策略在該任務(wù)中不僅無(wú)效,甚至可能導(dǎo)致性能退化。通過(guò)系統(tǒng)性分析,本工作揭示了背后的兩個(gè)主要原因:一是在語(yǔ)義相似的目標(biāo)片段之間存在查詢(xún)沖突;二是單個(gè)查詢(xún)內(nèi)部難以協(xié)調(diào)全局語(yǔ)義理解與局部定位需求。基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)簡(jiǎn)潔而高效的基線(xiàn)模型——Sim-DETR。實(shí)驗(yàn)表明,Sim-DETR在所有評(píng)價(jià)指標(biāo)上均達(dá)到了最先進(jìn)性能,不僅解決了時(shí)間句子定位中查詢(xún)間與查詢(xún)內(nèi)的沖突問(wèn)題,也為未來(lái)研究提供了一個(gè)強(qiáng)大而高效的基線(xiàn)模型。

上??萍即髮W(xué)信息學(xué)院2023級(jí)博士生唐嘉晉與2022級(jí)本科生衛(wèi)正軒為共同第一作者,楊思蓓教授為通訊作者。
9. ReAL-AD:邁向端到端自動(dòng)駕駛中的類(lèi)人推理
ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving
現(xiàn)有端到端自動(dòng)駕駛方法通常依賴(lài)固定且稀疏的軌跡監(jiān)督信號(hào),難以充分捕捉人類(lèi)駕駛員所具備的分層推理機(jī)制。為彌補(bǔ)這一差距,研究團(tuán)隊(duì)提出了ReAL-AD(推理增強(qiáng)學(xué)習(xí)自動(dòng)駕駛框架),基于“策略—決策—操作”三級(jí)人類(lèi)認(rèn)知模型構(gòu)建自動(dòng)駕駛決策系統(tǒng),并融合視覺(jué)語(yǔ)言模型(VLM)以增強(qiáng)其在多層級(jí)上的態(tài)勢(shì)感知與結(jié)構(gòu)化推理能力。大量實(shí)驗(yàn)表明,集成該框架可顯著提升自動(dòng)駕駛系統(tǒng)的規(guī)劃準(zhǔn)確性與安全性,相比基線(xiàn)方法提升超過(guò)30%,同時(shí)增強(qiáng)了系統(tǒng)的可解釋性,使其決策過(guò)程更貼近人類(lèi)的分層推理模式。

信息學(xué)院科研助理陸宇航為論文第一作者,香港中文大學(xué)祝新革博士與上??萍即髮W(xué)信息學(xué)院馬月昕教授為共同通訊作者。
論文鏈接:https://arxiv.org/pdf/2507.12499
項(xiàng)目主頁(yè):https://4dvlab.github.io/project_page/realad
10. AMR: 增強(qiáng)片段檢索:零依賴(lài)的兩階段學(xué)習(xí)
Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
片段檢索(Moment Retrieval)是實(shí)現(xiàn)自然語(yǔ)言與視覺(jué)信息交互的關(guān)鍵任務(wù)之一。然而,標(biāo)注數(shù)據(jù)稀缺使得模型僅能學(xué)習(xí)到淺層的對(duì)應(yīng)關(guān)系、相鄰事件間過(guò)渡區(qū)域的邊界模糊使得片段定位精度下降、模型在區(qū)分語(yǔ)義相近的細(xì)粒度動(dòng)作時(shí)表現(xiàn)不佳等困境。為此,研究團(tuán)隊(duì)提出了一種無(wú)需外部依賴(lài)的增強(qiáng)型片段檢索框架 AMR,在多個(gè)公開(kāi)基準(zhǔn)上取得了顯著性能提升:QVHighlights 數(shù)據(jù)集上,AMR 相比之前最佳方法 BAM-DETR,在驗(yàn)證集 [email protected] 和 [email protected] 指標(biāo)上分別提升了 +5.03% 和 +5.04%,平均 mAP 提升 +4.05%;在測(cè)試集上,[email protected] 也實(shí)現(xiàn)了 +5.51% 的顯著優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果驗(yàn)證了AMR 在應(yīng)對(duì)邊界模糊與細(xì)粒度語(yǔ)義區(qū)分問(wèn)題上的有效性。

上??萍即髮W(xué)信息學(xué)院2022級(jí)本科生衛(wèi)正軒與2023級(jí)博士生唐嘉晉為本文共同第一作者,楊思蓓教授為通訊作者。
11. TransiT: 基于Transient Transformer的非視域視頻成像
TransiT: Transient Transformer for Non-line-of-sight Videography
在非視線(xiàn)成像(NLOS)領(lǐng)域,實(shí)現(xiàn)高質(zhì)量、高幀率的視頻采集對(duì)自動(dòng)駕駛、災(zāi)后搜救等任務(wù)具有重要意義。現(xiàn)有方法往往難以兼顧幀率與視頻質(zhì)量。為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了一種名為 TransiT 的瞬態(tài)Transformer架構(gòu)。在真實(shí)采集系統(tǒng)中,TransiT 能夠從每點(diǎn)曝光時(shí)間僅 0.4 毫秒、分辨率為 16×16 的稀疏瞬態(tài)數(shù)據(jù)中,重建出分辨率達(dá) 64×64、幀率為 10 fps 的高質(zhì)量非視域視頻。

上??萍即髮W(xué)信息學(xué)院2022級(jí)博士生李睿潛、2023級(jí)博士生沈思遠(yuǎn)和2022級(jí)研究生夏蘇安為論文共同第一作者,虞晶怡教授、李實(shí)英副研究員為論文共同通訊作者。
論文鏈接: https://arxiv.org/abs/2503.11328
12. CryoFastAR: 輕松實(shí)現(xiàn)快速冷凍電鏡從頭重構(gòu)
CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy
從無(wú)序圖像中估計(jì)姿態(tài)是三維重建、機(jī)器人技術(shù)與科學(xué)成像中的一個(gè)基礎(chǔ)性問(wèn)題,在冷凍電子顯微鏡(cryo-EM)等科學(xué)成像領(lǐng)域,從無(wú)序粒子圖像中恢復(fù)姿態(tài)并進(jìn)行三維重建,目前仍依賴(lài)于耗時(shí)的迭代優(yōu)化流程,主要是由于極低的信噪比(SNR)和對(duì)比度傳遞函數(shù)(CTF)所引入的圖像畸變等挑戰(zhàn)。研究提出了CryoFastAR,首個(gè)專(zhuān)用于 cryo-EM 的幾何基礎(chǔ)模型,能夠直接從帶噪聲的 cryo-EM 圖像中預(yù)測(cè)粒子姿態(tài),實(shí)現(xiàn)快速的 ab initio 三維重構(gòu)。實(shí)驗(yàn)結(jié)果表明,CryoFastAR 在合成與真實(shí)數(shù)據(jù)集上均達(dá)到了與傳統(tǒng)迭代方法相當(dāng)?shù)闹貥?gòu)質(zhì)量,同時(shí)推理速度顯著提升。

該論文的第一作者為上海科技大學(xué)信息學(xué)院2022級(jí)博士生張家愷,第二作者為2021級(jí)本科生周守琛,虞晶怡教授為通訊作者。
論文鏈接:https://arxiv.org/pdf/2506.05864
13. EvolvingGrasp: 通過(guò)高效偏好對(duì)齊實(shí)現(xiàn)進(jìn)化式抓取生成
Evolutionary Grasp Generation via Efficient Preference Alignment
具備自主進(jìn)化能力、能夠越抓越穩(wěn)的靈巧手,是實(shí)現(xiàn)通用具身智能進(jìn)化道路上的關(guān)鍵突破。面對(duì)真實(shí)世界中近乎無(wú)限的物體形態(tài)和抓取場(chǎng)景,EvolvingGrasp 首次提出“進(jìn)化式抓取生成”框架:通過(guò)Handpose-wise Preference Optimization(HPO)方法,使機(jī)械手能夠以仿生方式從成功與失敗的抓取中持續(xù)學(xué)習(xí);進(jìn)一步結(jié)合 Physics-Aware Consistency Model,將擴(kuò)散模型蒸餾為僅需 2~4 步推理的極速采樣器,在實(shí)現(xiàn)30倍推理加速的同時(shí)嚴(yán)格保證抓取的物理可行性。該方法在四個(gè)公開(kāi)數(shù)據(jù)集上均達(dá)到最先進(jìn)性能,并在ShadowHand真實(shí)機(jī)器人平臺(tái)上驗(yàn)證了其在線(xiàn)微調(diào)能力,展現(xiàn)出“越抓越好”的進(jìn)化特性。

該項(xiàng)研究由上??萍即髮W(xué)信息學(xué)院2025級(jí)碩士生朱宇飛與2024級(jí)碩士生鐘奕鳴擔(dān)任共同第一作者,信息學(xué)院馬月昕教授和香港中文大學(xué)祝新革博士擔(dān)任共同通訊作者。
論文鏈接:https://arxiv.org/pdf/2503.14329
代碼鏈接:https://github.com/4DVLab/EvolvingGrasp
項(xiàng)目主頁(yè):https://evolvinggrasp.github.io/
14. 消除同源干擾:人物交互檢測(cè)中的去偏見(jiàn)研究
No More Sibling Rivalry: Debiasing Human-Object Interaction Detection
檢測(cè)Transformer(DETR)已被應(yīng)用于人物交互(HOI)檢測(cè)任務(wù),顯著提升了圖像中“人-動(dòng)作-物”三元組的定位與識(shí)別性能。研究團(tuán)隊(duì)揭示了一個(gè)關(guān)鍵問(wèn)題——“有毒兄弟姐妹偏見(jiàn)”:在交互解碼器的輸入與輸出端,大量相似但不相同的HOI三元組相互干擾甚至彼此競(jìng)爭(zhēng),嚴(yán)重阻礙了解碼器的有效學(xué)習(xí)。該偏見(jiàn)源于兄弟三元組/類(lèi)別之間的高度混淆,導(dǎo)致一種矛盾現(xiàn)象——相似性越高,識(shí)別精度反而下降。為解決這一問(wèn)題,研究人員提出了兩個(gè)新的去偏見(jiàn)學(xué)習(xí)目標(biāo):“對(duì)比-校準(zhǔn)”與“合并-拆分”,分別從輸入與輸出兩個(gè)角度進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,本方法在多種設(shè)置下均顯著優(yōu)于基線(xiàn)模型(在HICO-Det數(shù)據(jù)集上mAP提升+9.18%)和當(dāng)前最優(yōu)模型(mAP提升+3.59%)。

上??萍即髮W(xué)信息學(xué)院2023級(jí)碩士生楊斌與2024級(jí)碩士生張宇麟為論文的第一作者,楊思蓓教授為論文通訊作者。
