信息學(xué)院虞晶怡課題組和高盛華課題組共同合作,在個(gè)性化顯著性預(yù)測(cè)方面取得進(jìn)展。近日,相關(guān)工作以“Personalized Saliency and Its Prediction”為題,在國(guó)際知名期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)》(影響因子:9.455)上在線(xiàn)發(fā)表。
顯著性檢測(cè)是計(jì)算機(jī)視覺(jué)中長(zhǎng)期存在的問(wèn)題?,F(xiàn)有的大部分研究都集中在探索用戶(hù)間普遍存在的顯著性模型,即缺乏對(duì)個(gè)體在性別、年齡、習(xí)慣上差異的重視。在該項(xiàng)研究中,研究團(tuán)隊(duì)首次提出了個(gè)人顯著性預(yù)測(cè)任務(wù),并建立了首個(gè)個(gè)人顯著性數(shù)據(jù)庫(kù),同時(shí)提出基于卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)個(gè)人顯著性預(yù)測(cè)模型(Multi-Task Convolutional Neural Network)和基于個(gè)人信息編碼的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型(Person-specific Information Encoded Filters),實(shí)驗(yàn)結(jié)果驗(yàn)證了模型的良好的性能。
圖像的顯著性檢測(cè)是檢測(cè)出圖像(RGB圖像或者光場(chǎng))中的感興趣區(qū)域。目前幾乎所有的顯著性檢測(cè)方法集中精力在預(yù)測(cè)大多數(shù)人感興趣的區(qū)域,卻忽略人和人之間的年齡、性別、愛(ài)好上的差異性。這些方法在尋找多數(shù)人感興趣的區(qū)域上具有很好的性能,但是在預(yù)測(cè)個(gè)人的感興趣區(qū)域上還會(huì)有些欠缺。如下圖所示,在每張圖像中,通常會(huì)存在很容易吸引人的物體,比如第一行圖像中的人臉,或者最后一行圖像中的文字。但是,不同的人也會(huì)對(duì)不同的物體感興趣,例如第一行圖像中,有的觀(guān)看者會(huì)關(guān)注網(wǎng)球拍和球,也有人會(huì)更多關(guān)注運(yùn)動(dòng)員本身。我們用“universal saliency”指代所有人感興趣的區(qū)域,“personalized saliency”指代個(gè)人感興趣的區(qū)域。
在該項(xiàng)研究中,首次提出的個(gè)人顯著性檢測(cè),有眾多的應(yīng)用場(chǎng)景。如果知道某個(gè)人的跟興趣區(qū)域的喜好傾向,我們可以為他/她訂制個(gè)性化算法。例如,對(duì)上圖中的最后一行圖像做壓縮時(shí),不同的人要采用不同的壓縮策略。對(duì)于觀(guān)測(cè)值B和C來(lái)講,圖中的文字部分一定是要保留,但是對(duì)于觀(guān)測(cè)者A,完全可以忽略桌子上的文字部分。另外,在A(yíng)R/VR的應(yīng)用中,對(duì)于那些用戶(hù)關(guān)注度高的區(qū)域,可以盡量少壓縮或者不壓縮,而其他區(qū)域可以盡可能多壓縮,這樣既可以保證用戶(hù)的體驗(yàn)也可以提高傳輸效率。此外,我們還可以在用戶(hù)感興趣的區(qū)域插入一些logo或者廣告。
該項(xiàng)研究提出了基于卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)個(gè)人顯著性預(yù)測(cè)模型(Multi-Task Convolutional Neural Network)和基于個(gè)人信息編碼的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型(Person-specific Information Encoded Filters),借助universal saliency map來(lái)預(yù)測(cè)personalized saliency map。實(shí)驗(yàn)結(jié)果驗(yàn)證了模型的良好的性能。
該論文中,博士生徐衍鈺為第一作者,高盛華助理教授為通信作者,助理研究員吳俊儒、訪(fǎng)問(wèn)學(xué)者李念怡及虞晶怡教授為共同作者,上科大為第一完成單位。該工作得到國(guó)家自然科學(xué)基金和上??萍即髮W(xué)科研啟動(dòng)基金的支持,李念怡還得到美國(guó)國(guó)家科學(xué)基金會(huì)的支持。
論文鏈接:
https://ieeexplore.ieee.org/document/8444709/

只要知道某個(gè)人的感興趣區(qū)域,即可為其訂制個(gè)性化算法。例如,對(duì)上圖中的最后一行圖像做壓縮時(shí),不同的人要采用不同的壓縮策略。對(duì)于觀(guān)測(cè)值B和C來(lái)講,圖中的文字部分一定是要保留,但是對(duì)于觀(guān)測(cè)者A,完全可以忽略桌子上的文字部分。
