基于時(shí)空信息輔助監(jiān)督的語(yǔ)言-視頻對(duì)比學(xué)習(xí)模型
計(jì)算機(jī)學(xué)報(bào)
頁(yè)數(shù): 17 2024-08-15
摘要: 同時(shí)使用語(yǔ)言和圖像兩種模態(tài)信息的神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了很大進(jìn)展.一些將其用于視頻識(shí)別任務(wù)的工作,存在未考慮視頻中豐富的時(shí)間-空間信息、用于描述類(lèi)別的文本過(guò)于簡(jiǎn)單等不足.對(duì)此,本文提出了基于時(shí)空輔助信息監(jiān)督的語(yǔ)言-視頻對(duì)比學(xué)習(xí)模型.對(duì)于視頻編碼,提出了基于類(lèi)別詞元的時(shí)序加權(quán)位移模塊進(jìn)行時(shí)序建模,使得時(shí)序信息在網(wǎng)絡(luò)從底層到高層的各個(gè)層次傳播;而且還提出了時(shí)空信息輔助監(jiān)督... (共17頁(yè))