{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T18:14:09Z","timestamp":1775326449707,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":34,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"National Natural Science Foundation of China","award":["No.:62006142, No.:U1936203, and No.:62236003"],"award-info":[{"award-number":["No.:62006142, No.:U1936203, and No.:62236003"]}]},{"name":"Special Fund for Distinguished Professors of Shandong Jianzhu University"},{"name":"Shenzhen College Stability Support Plan","award":["No.:GXWD20220817144428005"],"award-info":[{"award-number":["No.:GXWD20220817144428005"]}]},{"name":"Defense Advanced Research Projects Agency (DARPA)","award":["No.: HR0011-22-2-0047"],"award-info":[{"award-number":["No.: HR0011-22-2-0047"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3612239","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:27:30Z","timestamp":1698391650000},"page":"3985-3993","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":10,"title":["Advancing Video Question Answering with a Multi-modal and Multi-layer Question Enhancement Network"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1582-5764","authenticated-orcid":false,"given":"Meng","family":"Liu","sequence":"first","affiliation":[{"name":"Shandong Jianzhu University, Jinan, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-8758-2773","authenticated-orcid":false,"given":"Fenglei","family":"Zhang","sequence":"additional","affiliation":[{"name":"Shandong Jianzhu University, Jinan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6901-5476","authenticated-orcid":false,"given":"Xin","family":"Luo","sequence":"additional","affiliation":[{"name":"Shandong University, Jinan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4547-3982","authenticated-orcid":false,"given":"Fan","family":"Liu","sequence":"additional","affiliation":[{"name":"National University of Singapore, Singapore, Singapore"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1791-3159","authenticated-orcid":false,"given":"Yinwei","family":"Wei","sequence":"additional","affiliation":[{"name":"Monash University, Melbourne, Australia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1476-0273","authenticated-orcid":false,"given":"Liqiang","family":"Nie","sequence":"additional","affiliation":[{"name":"Harbin Institute of Technology (Shenzhen), Shenzhen, China"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00210"},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00210"},{"key":"e_1_3_2_2_3_1","first-page":"4626","article-title":"Attention in attention networks for person retrieval","volume":"44","author":"Fang Pengfei","year":"2021","unstructured":"Pengfei Fang, Jieming Zhou, Soumava Kumar Roy, Pan Ji, Lars Petersson, and Mehrtash Harandi. 2021. Attention in attention networks for person retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, 9 (2021), 4626--4641.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33016391"},{"key":"e_1_3_2_2_5_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-10-7299-4_33"},{"key":"e_1_3_2_2_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01001"},{"key":"e_1_3_2_2_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.149"},{"key":"e_1_3_2_2_8_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6767"},{"key":"e_1_3_2_2_9_1","unstructured":"Will Kay Joao Carreira Karen Simonyan Brian Zhang Chloe Hillier Sudheendra Vijayanarasimhan Fabio Viola Tim Green Trevor Back Paul Natsev et al. 2017. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950 (2017) 1--22."},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_41"},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018658"},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-021-00805-6"},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00172"},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.3390\/sym14061133"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548180"},{"key":"e_1_3_2_2_16_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/178"},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3462829"},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.481"},{"key":"e_1_3_2_2_19_1","doi-asserted-by":"crossref","unstructured":"Aisha Urooj Amir Mazaheri Mubarak Shah et al. 2020. MMFT-BERT: Multimodal fusion transformer with BERT encodings for visual question answering. In Findings of the Association for Computational Linguistics: EMNLP. 4648--4660.","DOI":"10.18653\/v1\/2020.findings-emnlp.417"},{"key":"e_1_3_2_2_20_1","volume-title":"2023 a. TASTA: Text-assisted spatial and temporal attention network for video question answering. Advanced Intelligent Systems","author":"Wang Tian","year":"2023","unstructured":"Tian Wang, Boyao Hou, Jiakun Li, Peng Shi, Baochang Zhang, and Hichem Snoussi. 2023 a. TASTA: Text-assisted spatial and temporal attention network for video question answering. Advanced Intelligent Systems (2023), 2200131."},{"key":"e_1_3_2_2_21_1","volume-title":"2023 b. Multi-granularity interaction and integration network for video question answering","author":"Wang Yuanyuan","year":"2023","unstructured":"Yuanyuan Wang, Meng Liu, Jianlong Wu, and Liqiang Nie. 2023 b. Multi-granularity interaction and integration network for video question answering. IEEE Transactions on Circuits and Systems for Video Technology (2023), 1--13."},{"key":"e_1_3_2_2_22_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20184"},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20059-5_3"},{"key":"e_1_3_2_2_24_1","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123427"},{"key":"e_1_3_2_2_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"e_1_3_2_2_26_1","volume-title":"Modeling semantic composition with syntactic hypergraph for video question answering. arXiv preprint arXiv:2205.06530","author":"Xu Zenan","year":"2022","unstructured":"Zenan Xu, Wanjun Zhong, Qinliang Su, Zijing Ou, and Fuwei Zhang. 2022. Modeling semantic composition with syntactic hypergraph for video question answering. arXiv preprint arXiv:2205.06530 (2022), 1--11."},{"key":"e_1_3_2_2_27_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2746267"},{"key":"e_1_3_2_2_28_1","volume-title":"Video question answering using CLIP-guided visual-text attention. arXiv preprint arXiv:2303.03131","author":"Ye Shuhong","year":"2023","unstructured":"Shuhong Ye, Weikai Kong, Chenglin Yao, Jianfeng Ren, and Xudong Jiang. 2023. Video question answering using CLIP-guided visual-text attention. arXiv preprint arXiv:2303.03131 (2023), 1--5."},{"key":"e_1_3_2_2_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.347"},{"key":"e_1_3_2_2_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.3002667"},{"key":"e_1_3_2_2_31_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-022-10151-2"},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123364"},{"key":"e_1_3_2_2_33_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/492"},{"key":"e_1_3_2_2_34_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-017-1033-7"}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","location":"Ottawa ON Canada","acronym":"MM '23","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612239","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3612239","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T23:56:11Z","timestamp":1755820571000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612239"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":34,"alternative-id":["10.1145\/3581783.3612239","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3612239","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}