{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T00:41:22Z","timestamp":1755823282856,"version":"3.44.0"},"publisher-location":"New York, NY, USA","reference-count":45,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3611870","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:27:12Z","timestamp":1698391632000},"page":"2775-2784","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":1,"title":["VTLayout: A Multi-Modal Approach for Video Text Layout"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-1134-4808","authenticated-orcid":false,"given":"Yuxuan","family":"Zhao","sequence":"first","affiliation":[{"name":"Tencent PCG, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-5837-6144","authenticated-orcid":false,"given":"Jin","family":"Ma","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8298-4063","authenticated-orcid":false,"given":"Zhongang","family":"Qi","sequence":"additional","affiliation":[{"name":"Tencent PCG, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-9948-4790","authenticated-orcid":false,"given":"Zehua","family":"Xie","sequence":"additional","affiliation":[{"name":"Tencent PCG, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-5766-5913","authenticated-orcid":false,"given":"Yu","family":"Luo","sequence":"additional","affiliation":[{"name":"Tencent PCG, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-6628-6213","authenticated-orcid":false,"given":"Qiusheng","family":"Kang","sequence":"additional","affiliation":[{"name":"Tencent PCG, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7673-8325","authenticated-orcid":false,"given":"Ying","family":"Shan","sequence":"additional","affiliation":[{"name":"Tencent PCG, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"LaTr: Layout-Aware Transformer for Scene-Text VQA. 2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Biten Ali Furkan","year":"2021","unstructured":"Ali Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, and R. Manmatha. 2021. LaTr: Layout-Aware Transformer for Scene-Text VQA. 2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021), 16527--16537."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-018-6081-7"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351093"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.3038520"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-86337-1_43"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-86337-1_43"},{"volume-title":"ImageNet: A large-scale hierarchical image database","author":"Deng Jia","key":"e_1_3_2_1_7_1","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. ImageNet: A large-scale hierarchical image database. In CVPR. IEEE Computer Society, 248--255."},{"key":"e_1_3_2_1_8_1","volume-title":"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ArXiv abs\/2010.11929","author":"Dosovitskiy Alexey","year":"2020","unstructured":"Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2020. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ArXiv abs\/2010.11929 (2020)."},{"key":"e_1_3_2_1_9_1","unstructured":"Jiuxiang Gu Jason Kuen Vlad I. Morariu Handong Zhao Rajiv Jain Nikolaos Barmpalios Ani Nenkova and Tong Sun. 2021. UniDoc: Unified Pretraining Framework for Document Understanding. In NeurIPS. 39--50."},{"volume-title":"XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding","author":"Gu Zhangxuan","key":"e_1_3_2_1_10_1","unstructured":"Zhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu, and Liqing Zhang. 2022. XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding. In CVPR. IEEE, 4573--4582."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2015.7333910"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2844175"},{"volume-title":"Deep Residual Learning for Image Recognition","author":"He Kaiming","key":"e_1_3_2_1_13_1","unstructured":"Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR. IEEE Computer Society, 770--778."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475452"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Yupan Huang Tengchao Lv Lei Cui Yutong Lu and Furu Wei. 2022. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. In ACM Multimedia. ACM 4083--4091.","DOI":"10.1145\/3503161.3548112"},{"key":"e_1_3_2_1_16_1","volume-title":"News: Towards VideoQA Models that can Read","author":"Jahagirdar Soumya","year":"2023","unstructured":"Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, and C. V. Jawahar. 2023. Watching the News: Towards VideoQA Models that can Read. In WACV. IEEE, 4430--4439."},{"key":"e_1_3_2_1_17_1","volume-title":"Hazim Kemal Ekenel, and Jean-Philippe Thiran","author":"Jaume Guillaume","year":"2019","unstructured":"Guillaume Jaume, Hazim Kemal Ekenel, and Jean-Philippe Thiran. 2019. FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents. In OST@ICDAR. IEEE, 1--6."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2013.221"},{"volume-title":"ECCV (28) (Lecture Notes in Computer Science","author":"Kim Geewook","key":"e_1_3_2_1_19_1","unstructured":"Geewook Kim, Teakgyu Hong, Moonbin Yim, JeongYeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, and Seunghyun Park. 2022. OCR-Free Document Understanding Transformer. In ECCV (28) (Lecture Notes in Computer Science, Vol. 13688). Springer, 498--517."},{"volume-title":"Real-Time Scene Text Detection with Differentiable Binarization","author":"Liao Minghui","key":"e_1_3_2_1_20_1","unstructured":"Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, and Xiang Bai. 2020. Real-Time Scene Text Detection with Differentiable Binarization. In AAAI. AAAI Press, 11474--11481."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"crossref","unstructured":"Peidong Liu Dongliang Liao Jinpeng Wang Yangxin Wu Gongfu Li Shu-Tao Xia and Jin Xu. 2022. Multi-task Ranking with User Behaviors for Text-video Search. In WWW (Companion Volume). ACM 126--130.","DOI":"10.1145\/3487553.3524207"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.107980"},{"key":"e_1_3_2_1_23_1","volume-title":"MOT16: A Benchmark for Multi-Object Tracking. ArXiv abs\/1603.00831","author":"Milan Anton","year":"2016","unstructured":"Anton Milan, Laura Leal-Taix\u00e9, Ian D. Reid, Stefan Roth, and Konrad Schindler. 2016. MOT16: A Benchmark for Multi-Object Tracking. ArXiv abs\/1603.00831 (2016)."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2011.6116563"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2019.00156"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2014.6836024"},{"key":"e_1_3_2_1_27_1","volume-title":"Retrieved","author":"AI.","year":"2023","unstructured":"OpenAI. 2023. Introducing ChatGPT. Retrieved April 10, 2023 from https:\/\/openai.com\/blog\/chatgpt"},{"key":"e_1_3_2_1_28_1","volume-title":"Workshop on Document Intelligence at NeurIPS","author":"Park Seunghyun","year":"2019","unstructured":"Seunghyun Park, Seung Shin, Bado Lee, Junyeop Lee, Jaeheung Surh, Minjoon Seo, and Hwalsuk Lee. 2019. CORD: a consolidated receipt dataset for post-OCR parsing. In Workshop on Document Intelligence at NeurIPS 2019."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196577"},{"key":"e_1_3_2_1_30_1","volume-title":"Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation. In Conference on Empirical Methods in Natural Language Processing.","author":"Reimers Nils","year":"2020","unstructured":"Nils Reimers and Iryna Gurevych. 2020. Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation. In Conference on Empirical Methods in Natural Language Processing."},{"key":"e_1_3_2_1_31_1","volume-title":"Steinbach","author":"Schroth Georg","year":"2011","unstructured":"Georg Schroth, Sebastian Hilsenbeck, Robert Huitl, Florian Schweiger, and Eckehard G. Steinbach. 2011. Exploiting Text-Related Features for Content-based Image Retrieval. In ISM. IEEE Computer Society, 77--84."},{"volume-title":"ACL (1)","author":"Wang Jiapeng","key":"e_1_3_2_1_32_1","unstructured":"Jiapeng Wang, Lianwen Jin, and Kai Ding. 2022. LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding. In ACL (1). Association for Computational Linguistics, 7747--7757."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413753"},{"key":"e_1_3_2_1_34_1","volume-title":"End-to-End Scene Text Recognition in Videos Based on Multi Frame Tracking. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) 01","author":"Wang Xiaobing","year":"2017","unstructured":"Xiaobing Wang, Yingying Jiang, Shuli Yang, Xiangyu Zhu, Wei Li, Pei Fu, Hua Wang, and Zhenbo Luo. 2017. End-to-End Scene Text Recognition in Videos Based on Multi Frame Tracking. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) 01 (2017), 1255--1260."},{"key":"e_1_3_2_1_35_1","volume-title":"End-to-End Video Text Spotting with Transformer. ArXiv abs\/2203.10539","author":"Wu Weijia","year":"2022","unstructured":"Weijia Wu, Debing Zhang, Ying Fu, Chunhua Shen, Hong Zhou, Yuanqiang Cai, and Ping Luo. 2022. End-to-End Video Text Spotting with Transformer. ArXiv abs\/2203.10539 (2022)."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"crossref","unstructured":"Yiheng Xu Minghao Li Lei Cui Shaohan Huang Furu Wei and Ming Zhou. 2020. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In KDD. ACM 1192--1200.","DOI":"10.1145\/3394486.3403172"},{"key":"e_1_3_2_1_37_1","volume-title":"XFUND: A Benchmark Dataset for Multilingual Visually Rich Form Understanding. In ACL (Findings)","author":"Xu Yiheng","year":"2022","unstructured":"Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei A. F. Flor\u00eancio, Cha Zhang, and Furu Wei. 2022. XFUND: A Benchmark Dataset for Multilingual Visually Rich Form Understanding. In ACL (Findings). Association for Computational Linguistics, 3214--3224."},{"volume-title":"ACL\/IJCNLP (1)","author":"Xu Yang","key":"e_1_3_2_1_38_1","unstructured":"Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei A. F. Flor\u00eancio, Cha Zhang, Wanxiang Che, Min Zhang, and Lidong Zhou. 2021. LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding. In ACL\/IJCNLP (1). Association for Computational Linguistics, 2579--2591."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2695104"},{"key":"e_1_3_2_1_40_1","volume-title":"TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption","author":"Yang Zhengyuan","year":"2021","unstructured":"Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Flor\u00eancio, Lijuan Wang, Cha Zhang, Lei Zhang, and Jiebo Luo. 2021. TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption. In CVPR. Computer Vision Foundation \/ IEEE, 8751--8761."},{"key":"e_1_3_2_1_41_1","volume-title":"BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling. CoRR abs\/1805.04687","author":"Yu Fisher","year":"2018","unstructured":"Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao, Vashisht Madhavan, and Trevor Darrell. 2018. BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling. CoRR abs\/1805.04687 (2018). arXiv:1805.04687"},{"key":"e_1_3_2_1_42_1","volume-title":"Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks 2021","author":"Zhang Debing","year":"2021","unstructured":"Debing Zhang, Yuanqiang Cai, Sibo Wang, Jiahong Li, Zhuang Li, Yejun Tang, and Hong Zhou. 2021. A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer. In Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks 2021, December 2021, virtual, Joaquin Vanschoren and Sai-Kit Yeung (Eds.). https:\/\/datasets-benchmarks-proceedings.neurips.cc\/paper\/2021\/hash\/b6d767d2f8ed5d21a44b0e5886680cb9-Abstract-round2.html"},{"key":"e_1_3_2_1_43_1","volume-title":"Towards Video Text Visual Question Answering: Benchmark and Baseline. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track.","author":"Zhao Minyi","year":"2022","unstructured":"Minyi Zhao, Bingjia Li, Jie Wang, Wanqing Li, Wenjing Zhou, Lan Zhang, Shijie Xuyang, Zhihang Yu, Xinkun Yu, Guangze Li, et al. 2022. Towards Video Text Visual Question Answering: Benchmark and Baseline. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track."},{"key":"e_1_3_2_1_44_1","volume-title":"IC-DAR 2015 Text Reading in the Wild Competition. CoRR abs\/1506.03184","author":"Zhou Xinyu","year":"2015","unstructured":"Xinyu Zhou, Shuchang Zhou, Cong Yao, Zhimin Cao, and Qi Yin. 2015. IC-DAR 2015 Text Reading in the Wild Competition. CoRR abs\/1506.03184 (2015). arXiv:1506.03184 http:\/\/arxiv.org\/abs\/1506.03184"},{"key":"e_1_3_2_1_45_1","volume-title":"AAAI Conference on Artificial Intelligence. http:\/\/arxiv.org\/abs\/1805","author":"Zhu Qi","year":"2020","unstructured":"Qi Zhu, Chenyu Gao, Peng Wang, and Qi Wu. 2020. Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps. In AAAI Conference on Artificial Intelligence. http:\/\/arxiv.org\/abs\/1805.04687"}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Ottawa ON Canada","acronym":"MM '23"},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3611870","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3611870","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T23:58:56Z","timestamp":1755820736000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3611870"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":45,"alternative-id":["10.1145\/3581783.3611870","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3611870","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}