{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,23]],"date-time":"2025-08-23T05:25:05Z","timestamp":1755926705600,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":67,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T00:00:00Z","timestamp":1665360000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"Key R & D Projects of the Ministry of Science and Technology","award":["2020YFC0832500"],"award-info":[{"award-number":["2020YFC0832500"]}]},{"name":"Zhejiang Natural Science Foundation","award":["LR19F020006"],"award-info":[{"award-number":["LR19F020006"]}]},{"name":"National Key R&D Program of China under Grant","award":["2020YFC0832505"],"award-info":[{"award-number":["2020YFC0832505"]}]},{"name":"Program of Zhejiang Province Science and Technology","award":["2022C01044"],"award-info":[{"award-number":["2022C01044"]}]},{"name":"NSFC","award":["62037001"],"award-info":[{"award-number":["62037001"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,10,10]]},"DOI":"10.1145\/3503161.3548333","type":"proceedings-article","created":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T15:43:12Z","timestamp":1665416592000},"page":"3801-3810","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":16,"title":["HERO: HiErarchical spatio-tempoRal reasOning with Contrastive Action Correspondence for End-to-End Video Object Grounding"],"prefix":"10.1145","author":[{"given":"Mengze","family":"Li","sequence":"first","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Tianbao","family":"Wang","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Haoyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Shengyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Zhou","family":"Zhao","sequence":"additional","affiliation":[{"name":"Zhejiang University, Shanghai Institute for Advanced Study of Zhejiang University, Hangzhou, China"}]},{"given":"Wenqiao","family":"Zhang","sequence":"additional","affiliation":[{"name":"National University of Singapore, Singapore, Singapore"}]},{"given":"Jiaxu","family":"Miao","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}]},{"given":"Shiliang","family":"Pu","sequence":"additional","affiliation":[{"name":"Hikvision, Hangzhou, China"}]},{"given":"Fei","family":"Wu","sequence":"additional","affiliation":[{"name":"Shanghai Institute for Advanced Study of Zhejiang University, Shanghai AI Laboratory, Shanghai, China"}]}],"member":"320","published-online":{"date-parts":[[2022,10,10]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"crossref","unstructured":"Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell and Bryan Russell. 2017. Localizing moments in video with natural language. In ICCV.  Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell and Bryan Russell. 2017. Localizing moments in video with natural language. In ICCV.","DOI":"10.1109\/ICCV.2017.618"},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"crossref","unstructured":"Jingyuan Chen Xinpeng Chen Lin Ma Zequn Jie and Tat-Seng Chua. 2018. Temporally grounding natural sentence in video. In EMNLP.  Jingyuan Chen Xinpeng Chen Lin Ma Zequn Jie and Tat-Seng Chua. 2018. Temporally grounding natural sentence in video. In EMNLP.","DOI":"10.18653\/v1\/D18-1015"},{"key":"e_1_3_2_2_3_1","volume-title":"Weakly supervised spatio-temporally grounding natural sentence in video. arXiv","author":"Chen Zhenfang","year":"2019","unstructured":"Zhenfang Chen , Lin Ma , Wenhan Luo , and Kwan-Yee K Wong . 2019. Weakly supervised spatio-temporally grounding natural sentence in video. arXiv ( 2019 ). Zhenfang Chen, Lin Ma, Wenhan Luo, and Kwan-Yee K Wong. 2019. Weakly supervised spatio-temporally grounding natural sentence in video. arXiv (2019)."},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"crossref","unstructured":"Marcella Cornia Matteo Stefanini Lorenzo Baraldi and Rita Cucchiara. 2020. Meshed-memory transformer for image captioning. In CVPR.  Marcella Cornia Matteo Stefanini Lorenzo Baraldi and Rita Cucchiara. 2020. Meshed-memory transformer for image captioning. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01059"},{"key":"e_1_3_2_2_5_1","volume-title":"Dependency parsing as mrc-based span-span prediction. arXiv","author":"Gan Leilei","year":"2021","unstructured":"Leilei Gan , Yuxian Meng , Kun Kuang , Xiaofei Sun , Chun Fan , Fei Wu , and Jiwei Li. 2021. Dependency parsing as mrc-based span-span prediction. arXiv ( 2021 ). Leilei Gan, Yuxian Meng, Kun Kuang, Xiaofei Sun, Chun Fan, Fei Wu, and Jiwei Li. 2021. Dependency parsing as mrc-based span-span prediction. arXiv (2021)."},{"key":"e_1_3_2_2_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2020.3030487"},{"key":"e_1_3_2_2_7_1","unstructured":"Shikang Gan Yong Luo Yonggang Wen Tongliang Liu and Han Hu. 2020. Deep Heterogeneous Multi-Task Metric Learning for Visual Recognition and Retrieval. In ACM MM.  Shikang Gan Yong Luo Yonggang Wen Tongliang Liu and Han Hu. 2020. Deep Heterogeneous Multi-Task Metric Learning for Visual Recognition and Retrieval. In ACM MM."},{"key":"e_1_3_2_2_8_1","unstructured":"Xuri Ge Fuhai Chen JoemonMJose Zhilong Ji ZhongqinWu and Xiao Liu. 2021. Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval. In ACM MM.  Xuri Ge Fuhai Chen JoemonMJose Zhilong Ji ZhongqinWu and Xiao Liu. 2021. Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval. In ACM MM."},{"key":"e_1_3_2_2_9_1","volume-title":"Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of Semi-Supervised Learning and Active Learning. arXiv","author":"Guo Jiannan","year":"2022","unstructured":"Jiannan Guo , Yangyang Kang , Yu Duan , Xiaozhong Liu , Siliang Tang , Wenqiao Zhang , Kun Kuang , Changlong Sun , and Fei Wu. 2022. Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of Semi-Supervised Learning and Active Learning. arXiv ( 2022 ). Jiannan Guo, Yangyang Kang, Yu Duan, Xiaozhong Liu, Siliang Tang, Wenqiao Zhang, Kun Kuang, Changlong Sun, and FeiWu. 2022. Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of Semi-Supervised Learning and Active Learning. arXiv (2022)."},{"key":"e_1_3_2_2_10_1","unstructured":"Jiannan Guo Haochen Shi Yangyang Kang Kun Kuang Siliang Tang Zhuoren Jiang Changlong Sun Fei Wu and Yueting Zhuang. 2021. Semi-supervised active learning for semi-supervised models: Exploit adversarial examples with graph-based virtual labels. In ICCV.  Jiannan Guo Haochen Shi Yangyang Kang Kun Kuang Siliang Tang Zhuoren Jiang Changlong Sun Fei Wu and Yueting Zhuang. 2021. Semi-supervised active learning for semi-supervised models: Exploit adversarial examples with graph-based virtual labels. In ICCV."},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"crossref","unstructured":"Liang Han PichaoWang Zhaozheng Yin FanWang and Hao Li. 2020. Exploiting better feature aggregation for video object detection. In ACM MM.  Liang Han PichaoWang Zhaozheng Yin FanWang and Hao Li. 2020. Exploiting better feature aggregation for video object detection. In ACM MM.","DOI":"10.1145\/3394171.3413927"},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"crossref","unstructured":"Ning Han Jingjing Chen Guangyi Xiao Hao Zhang Yawen Zeng and Hao Chen. 2021. Fine-grained Cross-modal Alignment Network for Text-Video Retrieval. In ACM MM.  Ning Han Jingjing Chen Guangyi Xiao Hao Zhang Yawen Zeng and Hao Chen. 2021. Fine-grained Cross-modal Alignment Network for Text-Video Retrieval. In ACM MM.","DOI":"10.1145\/3474085.3475241"},{"key":"e_1_3_2_2_13_1","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR.  Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR."},{"key":"e_1_3_2_2_14_1","volume-title":"Long short-term memory. Neural computation","author":"Hochreiter Sepp","year":"1997","unstructured":"Sepp Hochreiter and J\u00fcrgen Schmidhuber . 1997. Long short-term memory. Neural computation ( 1997 ). Sepp Hochreiter and J\u00fcrgen Schmidhuber. 1997. Long short-term memory. Neural computation (1997)."},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2911066"},{"key":"e_1_3_2_2_16_1","volume-title":"CONQUER: Contextual query-aware ranking for video corpus moment retrieval. In ACM MM.","author":"Hou Zhijian","year":"2021","unstructured":"Zhijian Hou , Chong-Wah Ngo , and Wing Kwong Chan . 2021 . CONQUER: Contextual query-aware ranking for video corpus moment retrieval. In ACM MM. Zhijian Hou, Chong-Wah Ngo, and Wing Kwong Chan. 2021. CONQUER: Contextual query-aware ranking for video corpus moment retrieval. In ACM MM."},{"key":"e_1_3_2_2_17_1","unstructured":"Ronghang Hu Anna Rohrbach Trevor Darrell and Kate Saenko. 2019. Language conditioned graph networks for relational reasoning. In ICCV.  Ronghang Hu Anna Rohrbach Trevor Darrell and Kate Saenko. 2019. Language conditioned graph networks for relational reasoning. In ICCV."},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"crossref","unstructured":"De-An Huang Shyamal Buch Lucio Dery Animesh Garg Li Fei-Fei and Juan Carlos Niebles. 2018. Finding\" it\":Weakly-supervised reference-aware visual grounding in instructional videos. In CVPR.  De-An Huang Shyamal Buch Lucio Dery Animesh Garg Li Fei-Fei and Juan Carlos Niebles. 2018. Finding\" it\":Weakly-supervised reference-aware visual grounding in instructional videos. In CVPR.","DOI":"10.1109\/CVPR.2018.00623"},{"key":"e_1_3_2_2_19_1","doi-asserted-by":"crossref","unstructured":"Jiayi Ji Yunpeng Luo Xiaoshuai Sun Fuhai Chen Gen Luo Yongjian Wu Yue Gao and Rongrong Ji. 2021. Improving image captioning by leveraging intra-and inter-layer global representation in transformer network. In AAAI.  Jiayi Ji Yunpeng Luo Xiaoshuai Sun Fuhai Chen Gen Luo Yongjian Wu Yue Gao and Rongrong Ji. 2021. Improving image captioning by leveraging intra-and inter-layer global representation in transformer network. In AAAI.","DOI":"10.1609\/aaai.v35i2.16258"},{"key":"e_1_3_2_2_20_1","doi-asserted-by":"crossref","unstructured":"Chenchen Jing Yuwei Wu Mingtao Pei Yao Hu Yunde Jia and Qi Wu. 2020. Visual-semantic graph matching for visual grounding. In ACM MM.  Chenchen Jing Yuwei Wu Mingtao Pei Yao Hu Yunde Jia and Qi Wu. 2020. Visual-semantic graph matching for visual grounding. In ACM MM.","DOI":"10.1145\/3394171.3413902"},{"key":"e_1_3_2_2_21_1","doi-asserted-by":"crossref","unstructured":"Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra and Nicolas Carion. 2021. MDETR-modulated detection for end-to-end multimodal understanding. In ICCV.  Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra and Nicolas Carion. 2021. MDETR-modulated detection for end-to-end multimodal understanding. In ICCV.","DOI":"10.1109\/ICCV48922.2021.00180"},{"key":"e_1_3_2_2_22_1","volume-title":"Attribute-aware interpretation learning for thyroid ultrasound diagnosis. Artificial Intelligence in Medicine","author":"Kong Ming","year":"2022","unstructured":"Ming Kong , Qing Guo , Shuowen Zhou , Mengze Li , Kun Kuang , Zhengxing Huang , Fei Wu , Xiaohong Chen , and Qiang Zhu . 2022. Attribute-aware interpretation learning for thyroid ultrasound diagnosis. Artificial Intelligence in Medicine ( 2022 ). Ming Kong, Qing Guo, Shuowen Zhou, Mengze Li, Kun Kuang, Zhengxing Huang, Fei Wu, Xiaohong Chen, and Qiang Zhu. 2022. Attribute-aware interpretation learning for thyroid ultrasound diagnosis. Artificial Intelligence in Medicine (2022)."},{"key":"e_1_3_2_2_23_1","unstructured":"Juncheng Li Siliang Tang Fei Wu and Yueting Zhuang. 2019. Walking with mind: Mental imagery enhanced embodied qa. In ACM MM.  Juncheng Li Siliang Tang Fei Wu and Yueting Zhuang. 2019. Walking with mind: Mental imagery enhanced embodied qa. In ACM MM."},{"key":"e_1_3_2_2_24_1","unstructured":"Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang and Yueting Zhuang. 2021. Adaptive hierarchical graph reasoning with semantic coherence for video-and-language inference. In ICCV.  Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang and Yueting Zhuang. 2021. Adaptive hierarchical graph reasoning with semantic coherence for video-and-language inference. In ICCV."},{"key":"e_1_3_2_2_25_1","unstructured":"Juncheng Li Xin Wang Siliang Tang Haizhou Shi Fei Wu Yueting Zhuang and William Yang Wang. 2020. Unsupervised reinforcement learning of transferable meta-skills for embodied navigation. In CVPR.  Juncheng Li Xin Wang Siliang Tang Haizhou Shi Fei Wu Yueting Zhuang and William Yang Wang. 2020. Unsupervised reinforcement learning of transferable meta-skills for embodied navigation. In CVPR."},{"key":"e_1_3_2_2_26_1","unstructured":"Juncheng Li Junlin Xie Long Qian Linchao Zhu Siliang Tang Fei Wu Yi Yang Yueting Zhuang and Xin Eric Wang. 2022. Compositional temporal grounding with structured variational cross-graph correspondence learning. In CVPR.  Juncheng Li Junlin Xie Long Qian Linchao Zhu Siliang Tang Fei Wu Yi Yang Yueting Zhuang and Xin Eric Wang. 2022. Compositional temporal grounding with structured variational cross-graph correspondence learning. In CVPR."},{"key":"e_1_3_2_2_27_1","unstructured":"Juncheng Li Junlin Xie Linchao Zhu Long Qian Siliang Tang Wenqiao Zhang Haochen Shi Shengyu Zhang Longhui Wei Qi Tian and Yueting Zhuang. 2022. Dilated context integrated network with cross-modal consensus for temporal emotion localization in videos. In ACM MM.  Juncheng Li Junlin Xie Linchao Zhu Long Qian Siliang Tang Wenqiao Zhang Haochen Shi Shengyu Zhang Longhui Wei Qi Tian and Yueting Zhuang. 2022. Dilated context integrated network with cross-modal consensus for temporal emotion localization in videos. In ACM MM."},{"key":"e_1_3_2_2_28_1","unstructured":"Mengze Li Ming Kong Kun Kuang Qiang Zhu and Fei Wu. 2020. Multi-task attribute-fusion model for fine-grained image recognition. In Optoelectronic Imaging and Multimedia Technology VII.  Mengze Li Ming Kong Kun Kuang Qiang Zhu and Fei Wu. 2020. Multi-task attribute-fusion model for fine-grained image recognition. In Optoelectronic Imaging and Multimedia Technology VII."},{"key":"e_1_3_2_2_29_1","unstructured":"Mengze Li Kun Kuang Qiang Zhu Xiaohong Chen Qing Guo and Fei Wu. 2020. IB-M: A Flexible Framework to Align an Interpretable Model and a Black-box Model. In BIBM.  Mengze Li Kun Kuang Qiang Zhu Xiaohong Chen Qing Guo and Fei Wu. 2020. IB-M: A Flexible Framework to Align an Interpretable Model and a Black-box Model. In BIBM."},{"key":"e_1_3_2_2_30_1","unstructured":"Mengze Li Tianbao Wang Haoyu Zhang Shengyu Zhang Zhou Zhao Jiaxu Miao Wenqiao Zhang Wenming Tan Jin Wang Peng Wang etal 2022. End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video Grounding. ACL (2022).  Mengze Li Tianbao Wang Haoyu Zhang Shengyu Zhang Zhou Zhao Jiaxu Miao Wenqiao Zhang Wenming Tan Jin Wang Peng Wang et al. 2022. End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video Grounding. ACL (2022)."},{"key":"e_1_3_2_2_31_1","volume-title":"Cees GM Snoek, and Arnold WM Smeulders","author":"Li Zhenyang","year":"2017","unstructured":"Zhenyang Li , Ran Tao , Efstratios Gavves , Cees GM Snoek, and Arnold WM Smeulders . 2017 . Tracking by natural language specification. In CVPR. Zhenyang Li, Ran Tao, Efstratios Gavves, Cees GM Snoek, and Arnold WM Smeulders. 2017. Tracking by natural language specification. In CVPR."},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"crossref","unstructured":"Yue Liao Si Liu Guanbin Li Fei Wang Yanjie Chen Chen Qian and Bo Li. 2020. A real-time cross-modality correlation filtering method for referring expression comprehension. In CVPR.  Yue Liao Si Liu Guanbin Li Fei Wang Yanjie Chen Chen Qian and Bo Li. 2020. A real-time cross-modality correlation filtering method for referring expression comprehension. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01089"},{"key":"e_1_3_2_2_33_1","unstructured":"Lijian Lin Haosheng Chen Honglun Zhang Jun Liang Yu Li Ying Shan and Hanzi Wang. 2020. Dual semantic fusion network for video object detection. In ACM MM.  Lijian Lin Haosheng Chen Honglun Zhang Jun Liang Yu Li Ying Shan and Hanzi Wang. 2020. Dual semantic fusion network for video object detection. In ACM MM."},{"key":"e_1_3_2_2_34_1","volume-title":"Roberta: A robustly optimized bert pretraining approach. arXiv","author":"Liu Yinhan","year":"2019","unstructured":"Yinhan Liu , Myle Ott , Naman Goyal , Jingfei Du , Mandar Joshi , Danqi Chen , Omer Levy , Mike Lewis , Luke Zettlemoyer , and Veselin Stoyanov . 2019 . Roberta: A robustly optimized bert pretraining approach. arXiv (2019). Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv (2019)."},{"key":"e_1_3_2_2_35_1","unstructured":"Ding Ma and Xiangqian Wu. 2021. Capsule-based Object Tracking with Natural Language Specification. In ACM MM.  Ding Ma and Xiangqian Wu. 2021. Capsule-based Object Tracking with Natural Language Specification. In ACM MM."},{"key":"e_1_3_2_2_36_1","unstructured":"Junhua Mao Jonathan Huang Alexander Toshev Oana Camburu Alan L Yuille and Kevin Murphy. 2016. Generation and comprehension of unambiguous object descriptions. In CVPR.  Junhua Mao Jonathan Huang Alexander Toshev Oana Camburu Alan L Yuille and Kevin Murphy. 2016. Generation and comprehension of unambiguous object descriptions. In CVPR."},{"key":"e_1_3_2_2_37_1","doi-asserted-by":"crossref","unstructured":"Varun K Nagaraja Vlad I Morariu and Larry S Davis. 2016. Modeling context between objects for referring expression understanding. In ECCV.  Varun K Nagaraja Vlad I Morariu and Larry S Davis. 2016. Modeling context between objects for referring expression understanding. In ECCV.","DOI":"10.1007\/978-3-319-46493-0_48"},{"key":"e_1_3_2_2_38_1","doi-asserted-by":"crossref","unstructured":"Arka Sadhu Kan Chen and Ram Nevatia. 2020. Video object grounding using semantic roles in language description. In CVPR.  Arka Sadhu Kan Chen and Ram Nevatia. 2020. Video object grounding using semantic roles in language description. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01043"},{"key":"e_1_3_2_2_39_1","doi-asserted-by":"crossref","unstructured":"Xindi Shang Donglin Di Junbin Xiao Yu Cao Xun Yang and Tat-Seng Chua. 2019. Annotating objects and relations in user-generated videos. In ICMR.  Xindi Shang Donglin Di Junbin Xiao Yu Cao Xun Yang and Tat-Seng Chua. 2019. Annotating objects and relations in user-generated videos. In ICMR.","DOI":"10.1145\/3323873.3325056"},{"key":"e_1_3_2_2_40_1","volume-title":"Stvgbert: A visual-linguistic transformer based framework for spatio-temporal video grounding. In ICCV.","author":"Su Rui","year":"2021","unstructured":"Rui Su , Qian Yu , and Dong Xu . 2021 . Stvgbert: A visual-linguistic transformer based framework for spatio-temporal video grounding. In ICCV. Rui Su, Qian Yu, and Dong Xu. 2021. Stvgbert: A visual-linguistic transformer based framework for spatio-temporal video grounding. In ICCV."},{"key":"e_1_3_2_2_41_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3085907"},{"key":"e_1_3_2_2_42_1","volume-title":"Attention is all you need. NIPS","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N Gomez , Lukasz Kaiser , and Illia Polosukhin . 2017. Attention is all you need. NIPS ( 2017 ). Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. NIPS (2017)."},{"key":"e_1_3_2_2_43_1","doi-asserted-by":"crossref","unstructured":"Peng Wang Qi Wu Jiewei Cao Chunhua Shen Lianli Gao and Anton van den Hengel. 2019. Neighbourhood watch: Referring expression comprehension via language-guided graph attention networks. In CVPR.  Peng Wang Qi Wu Jiewei Cao Chunhua Shen Lianli Gao and Anton van den Hengel. 2019. Neighbourhood watch: Referring expression comprehension via language-guided graph attention networks. In CVPR.","DOI":"10.1109\/CVPR.2019.00206"},{"key":"e_1_3_2_2_44_1","doi-asserted-by":"crossref","unstructured":"Wei Wang Junyu Gao and Changsheng Xu. 2021. Weakly-Supervised Video Object Grounding via Stable Context Learning. In ACM MM.  Wei Wang Junyu Gao and Changsheng Xu. 2021. Weakly-Supervised Video Object Grounding via Stable Context Learning. In ACM MM.","DOI":"10.1145\/3474085.3475245"},{"key":"e_1_3_2_2_45_1","volume":"201","author":"Worrall Daniel E","unstructured":"Daniel E Worrall , Stephan J Garbin , Daniyar Turmukhambetov , and Gabriel J Brostow. 201 7. Harmonic networks: Deep translation and rotation equivariance. In CVPR. Daniel E Worrall, Stephan J Garbin, Daniyar Turmukhambetov, and Gabriel J Brostow. 2017. Harmonic networks: Deep translation and rotation equivariance. In CVPR.","journal-title":"Gabriel J Brostow."},{"key":"e_1_3_2_2_46_1","unstructured":"Anpeng Wu Kun Kuang Bo Li and Fei Wu. 2022. Instrumental Variable Regression with Confounder Balancing. In ICML.  Anpeng Wu Kun Kuang Bo Li and Fei Wu. 2022. Instrumental Variable Regression with Confounder Balancing. In ICML."},{"key":"e_1_3_2_2_47_1","unstructured":"Yiquan Wu Kun Kuang Yating Zhang Xiaozhong Liu Changlong Sun Jun Xiao Yueting Zhuang Luo Si and Fei Wu. 2020. De-biased court's view generation with causality. In EMNLP.  Yiquan Wu Kun Kuang Yating Zhang Xiaozhong Liu Changlong Sun Jun Xiao Yueting Zhuang Luo Si and Fei Wu. 2020. De-biased court's view generation with causality. In EMNLP."},{"key":"e_1_3_2_2_48_1","volume-title":"Vitae: Vision transformer advanced by exploring intrinsic inductive bias. NIPS","author":"Xu Yufei","year":"2021","unstructured":"Yufei Xu , Qiming Zhang , Jing Zhang , and Dacheng Tao . 2021 . Vitae: Vision transformer advanced by exploring intrinsic inductive bias. NIPS (2021). Yufei Xu, Qiming Zhang, Jing Zhang, and Dacheng Tao. 2021. Vitae: Vision transformer advanced by exploring intrinsic inductive bias. NIPS (2021)."},{"key":"e_1_3_2_2_49_1","doi-asserted-by":"crossref","unstructured":"Masataka Yamaguchi Kuniaki Saito Yoshitaka Ushiku and Tatsuya Harada. 2017. Spatio-temporal person retrieval via natural language queries. In ICCV.  Masataka Yamaguchi Kuniaki Saito Yoshitaka Ushiku and Tatsuya Harada. 2017. Spatio-temporal person retrieval via natural language queries. In ICCV.","DOI":"10.1109\/ICCV.2017.162"},{"key":"e_1_3_2_2_50_1","doi-asserted-by":"crossref","unstructured":"Zhengyuan Yang Boqing Gong Liwei Wang Wenbing Huang Dong Yu and Jiebo Luo. 2019. A fast and accurate one-stage approach to visual grounding. In ICCV.  Zhengyuan Yang Boqing Gong Liwei Wang Wenbing Huang Dong Yu and Jiebo Luo. 2019. A fast and accurate one-stage approach to visual grounding. In ICCV.","DOI":"10.1109\/ICCV.2019.00478"},{"key":"e_1_3_2_2_51_1","unstructured":"Zhengyuan Yang Tushar Kumar Tianlang Chen Jingsong Su and Jiebo Luo. 2020. Grounding-tracking-integration. IEEE TCSVT (2020).  Zhengyuan Yang Tushar Kumar Tianlang Chen Jingsong Su and Jiebo Luo. 2020. Grounding-tracking-integration. IEEE TCSVT (2020)."},{"key":"e_1_3_2_2_52_1","unstructured":"Jiabo Ye Xin Lin Liang He Dingbang Li and Qin Chen. 2021. One-Stage Visual Grounding via Semantic-Aware Feature Filter. In ACM MM.  Jiabo Ye Xin Lin Liang He Dingbang Li and Qin Chen. 2021. One-Stage Visual Grounding via Semantic-Aware Feature Filter. In ACM MM."},{"key":"e_1_3_2_2_53_1","volume-title":"Mattnet: Modular attention network for referring expression comprehension. In CVPR.","author":"Yu Licheng","year":"2018","unstructured":"Licheng Yu , Zhe Lin , Xiaohui Shen , Jimei Yang , Xin Lu , Mohit Bansal , and Tamara L Berg . 2018 . Mattnet: Modular attention network for referring expression comprehension. In CVPR. Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L Berg. 2018. Mattnet: Modular attention network for referring expression comprehension. In CVPR."},{"key":"e_1_3_2_2_54_1","volume-title":"Recurrent neural network regularization. arXiv","author":"Zaremba Wojciech","year":"2014","unstructured":"Wojciech Zaremba , Ilya Sutskever , and Oriol Vinyals . 2014. Recurrent neural network regularization. arXiv ( 2014 ). Wojciech Zaremba, Ilya Sutskever, and Oriol Vinyals. 2014. Recurrent neural network regularization. arXiv (2014)."},{"key":"e_1_3_2_2_55_1","doi-asserted-by":"crossref","unstructured":"Feifei Zhang Mingliang Xu Qirong Mao and Changsheng Xu. 2020. Joint attribute manipulation and modality alignment learning for composing text and image to image retrieval. In ACM MM.  Feifei Zhang Mingliang Xu Qirong Mao and Changsheng Xu. 2020. Joint attribute manipulation and modality alignment learning for composing text and image to image retrieval. In ACM MM.","DOI":"10.1145\/3394171.3413917"},{"key":"e_1_3_2_2_56_1","doi-asserted-by":"crossref","unstructured":"Shengyu Zhang Tan Jiang Tan Wang Kun Kuang Zhou Zhao Jianke Zhu Jin Yu Hongxia Yang and Fei Wu. 2020. DeVLBert: Learning Deconfounded Visio-Linguistic Representations. In ACM MM.  Shengyu Zhang Tan Jiang Tan Wang Kun Kuang Zhou Zhao Jianke Zhu Jin Yu Hongxia Yang and Fei Wu. 2020. DeVLBert: Learning Deconfounded Visio-Linguistic Representations. In ACM MM.","DOI":"10.1145\/3394171.3413518"},{"key":"e_1_3_2_2_57_1","doi-asserted-by":"crossref","unstructured":"Shengyu Zhang Ziqi Tan Zhou Zhao Jin Yu Kun Kuang Tan Jiang Jingren Zhou Hongxia Yang and Fei Wu. 2020. Comprehensive Information Integration Modeling Framework for Video Titling. In KDD.  Shengyu Zhang Ziqi Tan Zhou Zhao Jin Yu Kun Kuang Tan Jiang Jingren Zhou Hongxia Yang and Fei Wu. 2020. Comprehensive Information Integration Modeling Framework for Video Titling. In KDD.","DOI":"10.1145\/3394486.3403325"},{"key":"e_1_3_2_2_58_1","doi-asserted-by":"crossref","unstructured":"Shengyu Zhang Lingxiao Yang Dong Yao Yujie Lu Fuli Feng Zhou Zhao Tat-Seng Chua and Fei Wu. 2022. Re4: Learning to Re-contrast Re-attend Re-construct for Multi-interest Recommendation. In WWW.  Shengyu Zhang Lingxiao Yang Dong Yao Yujie Lu Fuli Feng Zhou Zhao Tat-Seng Chua and Fei Wu. 2022. Re4: Learning to Re-contrast Re-attend Re-construct for Multi-interest Recommendation. In WWW.","DOI":"10.1145\/3485447.3512094"},{"key":"e_1_3_2_2_59_1","volume-title":"Magic: Multimodal relational graph adversarial inference for diverse and unpaired text-based image captioning. In AAAI.","author":"Zhang Wenqiao","year":"2022","unstructured":"Wenqiao Zhang , Haochen Shi , Jiannan Guo , Shengyu Zhang , Qingpeng Cai , Juncheng Li , Sihui Luo , and Yueting Zhuang . 2022 . Magic: Multimodal relational graph adversarial inference for diverse and unpaired text-based image captioning. In AAAI. Wenqiao Zhang, Haochen Shi, Jiannan Guo, Shengyu Zhang, Qingpeng Cai, Juncheng Li, Sihui Luo, and Yueting Zhuang. 2022. Magic: Multimodal relational graph adversarial inference for diverse and unpaired text-based image captioning. In AAAI."},{"key":"e_1_3_2_2_60_1","doi-asserted-by":"crossref","unstructured":"Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu and Yueting Zhuang. 2021. Consensus graph representation learning for better grounded image captioning. In AAAI.  Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu and Yueting Zhuang. 2021. Consensus graph representation learning for better grounded image captioning. In AAAI.","DOI":"10.1609\/aaai.v35i4.16452"},{"key":"e_1_3_2_2_61_1","volume-title":"Frame augmented alternating attention network for video question answering","author":"Zhang Wenqiao","year":"2019","unstructured":"Wenqiao Zhang , Siliang Tang , Yanpeng Cao , Shiliang Pu , Fei Wu , and Yueting Zhuang . 2019. Frame augmented alternating attention network for video question answering . IEEE TMM ( 2019 ). Wenqiao Zhang, Siliang Tang, Yanpeng Cao, Shiliang Pu, Fei Wu, and Yueting Zhuang. 2019. Frame augmented alternating attention network for video question answering. IEEE TMM (2019)."},{"key":"e_1_3_2_2_62_1","volume-title":"Siliang Tang, Haizhou Shi, Haochen Shi, Jun Xiao, Yueting Zhuang, and William Yang Wang.","author":"Zhang Wenqiao","year":"2020","unstructured":"Wenqiao Zhang , Xin Eric Wang , Siliang Tang, Haizhou Shi, Haochen Shi, Jun Xiao, Yueting Zhuang, and William Yang Wang. 2020 . Relational graph learning for grounded video description generation. In ACM MM. Wenqiao Zhang, Xin Eric Wang, Siliang Tang, Haizhou Shi, Haochen Shi, Jun Xiao, Yueting Zhuang, and William Yang Wang. 2020. Relational graph learning for grounded video description generation. In ACM MM."},{"key":"e_1_3_2_2_63_1","volume-title":"BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation. arXiv","author":"Zhang Wenqiao","year":"2022","unstructured":"Wenqiao Zhang , Lei Zhu , James Hallinan , Andrew Makmur , Shengyu Zhang , Qingpeng Cai , and Beng Chin Ooi . 2022. BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation. arXiv ( 2022 ). Wenqiao Zhang, Lei Zhu, James Hallinan, Andrew Makmur, Shengyu Zhang, Qingpeng Cai, and Beng Chin Ooi. 2022. BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation. arXiv (2022)."},{"key":"e_1_3_2_2_64_1","volume-title":"Image captioning with transformer and knowledge graph. Pattern Recognition Letters","author":"Zhang Yu","year":"2021","unstructured":"Yu Zhang , Xinyu Shi , Siya Mi , and Xu Yang . 2021. Image captioning with transformer and knowledge graph. Pattern Recognition Letters ( 2021 ). Yu Zhang, Xinyu Shi, Siya Mi, and Xu Yang. 2021. Image captioning with transformer and knowledge graph. Pattern Recognition Letters (2021)."},{"key":"e_1_3_2_2_65_1","volume-title":"Object-aware multi-branch relation networks for spatio-temporal video grounding. arXiv","author":"Zhang Zhu","year":"2020","unstructured":"Zhu Zhang , Zhou Zhao , Zhijie Lin , Baoxing Huai , and Nicholas Jing Yuan . 2020. Object-aware multi-branch relation networks for spatio-temporal video grounding. arXiv ( 2020 ). Zhu Zhang, Zhou Zhao, Zhijie Lin, Baoxing Huai, and Nicholas Jing Yuan. 2020. Object-aware multi-branch relation networks for spatio-temporal video grounding. arXiv (2020)."},{"key":"e_1_3_2_2_66_1","doi-asserted-by":"crossref","unstructured":"Zhu Zhang Zhou Zhao Yang Zhao QiWang Huasheng Liu and Lianli Gao. 2020. Where does it exist: Spatio-temporal video grounding for multi-form sentences. In CVPR.  Zhu Zhang Zhou Zhao Yang Zhao QiWang Huasheng Liu and Lianli Gao. 2020. Where does it exist: Spatio-temporal video grounding for multi-form sentences. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01068"},{"key":"e_1_3_2_2_67_1","volume-title":"TRAR: Routing the Attention Spans in Transformer for Visual Question Answering. In ICCV.","author":"Zhou Yiyi","year":"2021","unstructured":"Yiyi Zhou , Tianhe Ren , Chaoyang Zhu , Xiaoshuai Sun , Jianzhuang Liu , Xinghao Ding , Mingliang Xu , and Rongrong Ji . 2021 . TRAR: Routing the Attention Spans in Transformer for Visual Question Answering. In ICCV. Yiyi Zhou, Tianhe Ren, Chaoyang Zhu, Xiaoshuai Sun, Jianzhuang Liu, Xinghao Ding, Mingliang Xu, and Rongrong Ji. 2021. TRAR: Routing the Attention Spans in Transformer for Visual Question Answering. In ICCV."}],"event":{"name":"MM '22: The 30th ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Lisboa Portugal","acronym":"MM '22"},"container-title":["Proceedings of the 30th ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3503161.3548333","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3503161.3548333","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T19:00:43Z","timestamp":1750186843000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3503161.3548333"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,10]]},"references-count":67,"alternative-id":["10.1145\/3503161.3548333","10.1145\/3503161"],"URL":"https:\/\/doi.org\/10.1145\/3503161.3548333","relation":{},"subject":[],"published":{"date-parts":[[2022,10,10]]},"assertion":[{"value":"2022-10-10","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}