{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,17]],"date-time":"2026-02-17T12:07:30Z","timestamp":1771330050548,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":24,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T00:00:00Z","timestamp":1665360000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/501100004608","name":"Natural Science Foundation of Jiangsu Province","doi-asserted-by":"publisher","award":["BK20191248"],"award-info":[{"award-number":["BK20191248"]}],"id":[{"id":"10.13039\/501100004608","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Science Foundation of China","award":["62072232"],"award-info":[{"award-number":["62072232"]}]},{"name":"Collaborative Innovation Center of Novel Software Technology and Industrialization"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,10,10]]},"DOI":"10.1145\/3503161.3551600","type":"proceedings-article","created":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T15:42:46Z","timestamp":1665416566000},"page":"7165-7169","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":6,"title":["Multimodal Analysis for Deep Video Understanding with Video Language Transformer"],"prefix":"10.1145","author":[{"given":"Beibei","family":"Zhang","sequence":"first","affiliation":[{"name":"Nanjing University, Nanjing, China"}]},{"given":"Yaqun","family":"Fang","sequence":"additional","affiliation":[{"name":"Nanjing University, Nanjing, China"}]},{"given":"Tongwei","family":"Ren","sequence":"additional","affiliation":[{"name":"Nanjing University, Nanjing, China"}]},{"given":"Gangshan","family":"Wu","sequence":"additional","affiliation":[{"name":"Nanjing University, Nanjing, China"}]}],"member":"320","published-online":{"date-parts":[[2022,10,10]]},"reference":[{"key":"e_1_3_2_2_1_1","unstructured":"DownSub. https:\/\/downsub.com\/.  DownSub. https:\/\/downsub.com\/."},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.471"},{"key":"e_1_3_2_2_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.302"},{"key":"e_1_3_2_2_5_1","doi-asserted-by":"publisher","DOI":"10.1145\/3372278.3390742"},{"key":"e_1_3_2_2_6_1","volume-title":"RetinaFace: Single-Shot Multi-Level Face Localisation in the Wild. In IEEE Conference on Computer Vision and Pattern Recognition. 5203--5212","author":"Deng Jiankang","year":"2020","unstructured":"Jiankang Deng , Jia Guo , Evangelos Ververas , Irene Kotsia , and Stefanos Zafeiriou . 2020 . RetinaFace: Single-Shot Multi-Level Face Localisation in the Wild. In IEEE Conference on Computer Vision and Pattern Recognition. 5203--5212 . Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kotsia, and Stefanos Zafeiriou. 2020. RetinaFace: Single-Shot Multi-Level Face Localisation in the Wild. In IEEE Conference on Computer Vision and Pattern Recognition. 5203--5212."},{"key":"e_1_3_2_2_7_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT. 4171--4186.","author":"Devlin J.","year":"2019","unstructured":"J. Devlin , Ming-Wei Chang , Kenton Lee , and Kristina Toutanova . 2019 . BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT. 4171--4186. J. Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT. 4171--4186."},{"key":"e_1_3_2_2_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00987"},{"key":"e_1_3_2_2_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00725"},{"key":"e_1_3_2_2_10_1","volume-title":"Hero: Hierarchical encoder for video language omni-representation pre-training. arXiv preprint arXiv:2005.00200","author":"Li Linjie","year":"2020","unstructured":"Linjie Li , Yen-Chun Chen , Yu Cheng , Zhe Gan , Licheng Yu , and Jingjing Liu . 2020 . Hero: Hierarchical encoder for video language omni-representation pre-training. arXiv preprint arXiv:2005.00200 (2020). Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, and Jingjing Liu. 2020. Hero: Hierarchical encoder for video language omni-representation pre-training. arXiv preprint arXiv:2005.00200 (2020)."},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00539"},{"key":"e_1_3_2_2_12_1","volume-title":"Real-time 2d multi-person pose estimation on cpu: Lightweight openpose. arXiv preprint arXiv:1811.12004","author":"Osokin Daniil","year":"2018","unstructured":"Daniil Osokin . 2018. Real-time 2d multi-person pose estimation on cpu: Lightweight openpose. arXiv preprint arXiv:1811.12004 ( 2018 ). Daniil Osokin. 2018. Real-time 2d multi-person pose estimation on cpu: Lightweight openpose. arXiv preprint arXiv:1811.12004 (2018)."},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01016"},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123380"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_23"},{"key":"e_1_3_2_2_16_1","volume-title":"Contrastive Bidirectional Transformer for Temporal Representation Learning","author":"Sun Chen","year":"2019","unstructured":"Chen Sun , Fabien Baradel , Kevin Murphy , and Cordelia Schmid . 1906. Contrastive Bidirectional Transformer for Temporal Representation Learning . 2019 a. URL http:\/\/arxiv. org\/abs (1906). Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. 1906. Contrastive Bidirectional Transformer for Temporal Representation Learning. 2019a. URL http:\/\/arxiv. org\/abs (1906)."},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"e_1_3_2_2_18_1","volume-title":"VLM: Task-agnostic video-language model pre-training for video understanding. arXiv preprint arXiv:2105.09996","author":"Xu Hu","year":"2021","unstructured":"Hu Xu , Gargi Ghosh , Po-Yao Huang , Prahal Arora , Masoumeh Aminzadeh , Christoph Feichtenhofer , Florian Metze , and Luke Zettlemoyer . 2021 a. VLM: Task-agnostic video-language model pre-training for video understanding. arXiv preprint arXiv:2105.09996 (2021). Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, and Luke Zettlemoyer. 2021a. VLM: Task-agnostic video-language model pre-training for video understanding. arXiv preprint arXiv:2105.09996 (2021)."},{"key":"e_1_3_2_2_19_1","volume-title":"Videoclip: Contrastive pre-training for zero-shot video-text understanding. arXiv preprint arXiv:2109.14084","author":"Xu Hu","year":"2021","unstructured":"Hu Xu , Gargi Ghosh , Po-Yao Huang , Dmytro Okhonko , Armen Aghajanyan , Florian Metze , Luke Zettlemoyer , and Christoph Feichtenhofer . 2021 b. Videoclip: Contrastive pre-training for zero-shot video-text understanding. arXiv preprint arXiv:2109.14084 (2021). Hu Xu, Gargi Ghosh, Po-Yao Huang, Dmytro Okhonko, Armen Aghajanyan, Florian Metze, Luke Zettlemoyer, and Christoph Feichtenhofer. 2021b. Videoclip: Contrastive pre-training for zero-shot video-text understanding. arXiv preprint arXiv:2109.14084 (2021)."},{"key":"e_1_3_2_2_20_1","volume-title":"Deep Relationship Analysis in Video with Multimodal Feature Fusion. In ACM International Conference on Multimedia. 4640--4644","author":"Yu Fan","year":"2020","unstructured":"Fan Yu , DanDan Wang , Beibei Zhang , and Tongwei Ren . 2020 . Deep Relationship Analysis in Video with Multimodal Feature Fusion. In ACM International Conference on Multimedia. 4640--4644 . Fan Yu, DanDan Wang, Beibei Zhang, and Tongwei Ren. 2020. Deep Relationship Analysis in Video with Multimodal Feature Fusion. In ACM International Conference on Multimedia. 4640--4644."},{"key":"e_1_3_2_2_21_1","volume-title":"Two-person interaction detection using body-pose features and multiple instance learning. In 2012 IEEE computer society conference on computer vision and pattern recognition workshops","author":"Yun Kiwon","unstructured":"Kiwon Yun , Jean Honorio , Debaleena Chattopadhyay , Tamara L Berg , and Dimitris Samaras . 2012. Two-person interaction detection using body-pose features and multiple instance learning. In 2012 IEEE computer society conference on computer vision and pattern recognition workshops . IEEE , 28--35. Kiwon Yun, Jean Honorio, Debaleena Chattopadhyay, Tamara L Berg, and Dimitris Samaras. 2012. Two-person interaction detection using body-pose features and multiple instance learning. In 2012 IEEE computer society conference on computer vision and pattern recognition workshops. IEEE, 28--35."},{"key":"e_1_3_2_2_22_1","doi-asserted-by":"crossref","unstructured":"Beibei Zhang Fan Yu Yaqun Fang Tongwei Ren and Gangshan Wu. 2021a. Hybrid Improvements in Multimodal Analysis for Deep Video Understanding. In ACM Multimedia Asia. 1--5.  Beibei Zhang Fan Yu Yaqun Fang Tongwei Ren and Gangshan Wu. 2021a. Hybrid Improvements in Multimodal Analysis for Deep Video Understanding. In ACM Multimedia Asia. 1--5.","DOI":"10.1145\/3469877.3493599"},{"key":"e_1_3_2_2_23_1","volume-title":"Joint Learning for Relationship and Interaction Analysis in Video with Multimodal Feature Fusion. In ACM International Conference on Multimedia.","author":"Zhang Beibei","year":"2021","unstructured":"Beibei Zhang , Fan Yu , Yaqun Fang , Tongwei Ren , and Gangshan Wu . 2021 b. Joint Learning for Relationship and Interaction Analysis in Video with Multimodal Feature Fusion. In ACM International Conference on Multimedia. Beibei Zhang, Fan Yu, Yaqun Fang, Tongwei Ren, and Gangshan Wu. 2021b. Joint Learning for Relationship and Interaction Analysis in Video with Multimodal Feature Fusion. In ACM International Conference on Multimedia."},{"key":"e_1_3_2_2_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00877"}],"event":{"name":"MM '22: The 30th ACM International Conference on Multimedia","location":"Lisboa Portugal","acronym":"MM '22","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 30th ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3503161.3551600","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3503161.3551600","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T17:49:18Z","timestamp":1750182558000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3503161.3551600"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,10]]},"references-count":24,"alternative-id":["10.1145\/3503161.3551600","10.1145\/3503161"],"URL":"https:\/\/doi.org\/10.1145\/3503161.3551600","relation":{},"subject":[],"published":{"date-parts":[[2022,10,10]]},"assertion":[{"value":"2022-10-10","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}