{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,11]],"date-time":"2026-07-11T02:43:56Z","timestamp":1783737836106,"version":"3.55.0"},"publisher-location":"New York, NY, USA","reference-count":52,"publisher":"ACM","license":[{"start":{"date-parts":[[2021,10,17]],"date-time":"2021-10-17T00:00:00Z","timestamp":1634428800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2021,10,17]]},"DOI":"10.1145\/3474085.3475345","type":"proceedings-article","created":{"date-parts":[[2021,10,18]],"date-time":"2021-10-18T20:00:05Z","timestamp":1634587205000},"page":"1912-1920","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":100,"title":["StrucTexT: Structured Text Understanding with Multi-Modal Transformers"],"prefix":"10.1145","author":[{"given":"Yulin","family":"Li","sequence":"first","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuxi","family":"Qian","sequence":"additional","affiliation":[{"name":"Beijing University of Posts and Telecommunications, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuechen","family":"Yu","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiameng","family":"Qin","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chengquan","family":"Zhang","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yan","family":"Liu","sequence":"additional","affiliation":[{"name":"Taikang Insurance Group, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kun","family":"Yao","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Junyu","family":"Han","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jingtuo","family":"Liu","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Errui","family":"Ding","sequence":"additional","affiliation":[{"name":"Baidu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2021,10,17]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Alicia Forn\u00e9 s, and Josep Llad\u00f3 s","author":"Carbonell Manuel","year":"2020"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413511"},{"key":"e_1_3_2_1_3_1","unstructured":"Zihang Dai Zhilin Yang Yiming Yang Jaime Carbonell Quoc Le and Ruslan Salakhutdinov. 2019. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context. In ACL . ACL 2978--2988. Zihang Dai Zhilin Yang Yiming Yang Jaime Carbonell Quoc Le and Ruslan Salakhutdinov. 2019. Transformer-XL: Attentive Language Models beyond a Fixed-Length Context. In ACL . ACL 2978--2988."},{"key":"e_1_3_2_1_4_1","volume-title":"ImageNet: A large-scale hierarchical image database","author":"Deng Jia"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.5555\/647798.736679"},{"key":"e_1_3_2_1_6_1","volume-title":"Bertgrid: Contextualized embedding for 2d document representation and understanding. arXiv preprint arXiv:1909.04948","author":"Denk Timo I","year":"2019"},{"key":"e_1_3_2_1_7_1","volume-title":"Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805","author":"Devlin Jacob","year":"2018"},{"key":"e_1_3_2_1_8_1","volume-title":"EATEN: Entity-Aware Attention for Single Shot Visual Text Extraction. In ICDAR","author":"Guo He","year":"2019"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2015.7333910"},{"key":"e_1_3_2_1_10_1","volume-title":"Piotr Doll\u00e1 r, and Ross B. Girshick","author":"He Kaiming","year":"2017"},{"key":"e_1_3_2_1_11_1","volume-title":"CVPR","author":"He Tong"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"crossref","volume-title":"Icdar2019 competition on scanned receipt ocr and information extraction","author":"Huang Zheng","DOI":"10.1109\/ICDAR.2019.00244"},{"key":"e_1_3_2_1_13_1","volume-title":"NeurIPS Workshop.","author":"Hwang Wonseok","year":"2019"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Wonseok Hwang Jinyeong Yim Seunghyun Park Sohee Yang and Minjoon Seo. 2021. Spatial Dependency Parsing for Semi-Structured Document Information Extraction. In ACL-IJCNLP . Wonseok Hwang Jinyeong Yim Seunghyun Park Sohee Yang and Minjoon Seo. 2021. Spatial Dependency Parsing for Semi-Structured Document Information Extraction. In ACL-IJCNLP .","DOI":"10.18653\/v1\/2021.findings-acl.28"},{"key":"e_1_3_2_1_15_1","volume-title":"FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents. In ICDAR Workshop . IEEE, 1--6.","author":"Jaume Guillaume","year":"2019"},{"key":"e_1_3_2_1_16_1","volume-title":"Johannes H\u00f6 hne, and Jean Baptiste Faddoul","author":"Katti Anoop R.","year":"2018"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Guillaume Lample Miguel Ballesteros Sandeep Subramanian Kazuya Kawakami and Chris Dyer. 2016. Neural Architectures for Named Entity Recognition. In ACL. ACL 260--270. Guillaume Lample Miguel Ballesteros Sandeep Subramanian Kazuya Kawakami and Chris Dyer. 2016. Neural Architectures for Named Entity Recognition. In ACL. ACL 260--270.","DOI":"10.18653\/v1\/N16-1030"},{"key":"e_1_3_2_1_18_1","unstructured":"Minghao Li Yiheng Xu Lei Cui Shaohan Huang Furu Wei Zhoujun Li and Ming Zhou. 2020. DocBank: A Benchmark Dataset for Document Layout Analysis. In COLING . ICCL 949--960. Minghao Li Yiheng Xu Lei Cui Shaohan Huang Furu Wei Zhoujun Li and Ming Zhou. 2020. DocBank: A Benchmark Dataset for Document Layout Analysis. In COLING . ICCL 949--960."},{"key":"e_1_3_2_1_19_1","volume-title":"ECCV","author":"Liao Minghui"},{"key":"e_1_3_2_1_20_1","volume-title":"Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Belongie.","author":"Lin Tsung-Yi","year":"2017"},{"key":"e_1_3_2_1_21_1","unstructured":"Xiaojing Liu Feiyu Gao Qiong Zhang and Huasha Zhao. 2019. Graph Convolution for Multimodal Information Extraction from Visually Rich Documents. In NAACL-HLT. ACL 32--39. Xiaojing Liu Feiyu Gao Qiong Zhang and Huasha Zhao. 2019. Graph Convolution for Multimodal Information Extraction from Visually Rich Documents. In NAACL-HLT. ACL 32--39."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.5555\/3454287.3454289"},{"key":"e_1_3_2_1_23_1","unstructured":"Xuezhe Ma and Eduard Hovy. 2016. End-to-end Sequence Labeling via Bi-directional LS\u2122-CNNs-CRF. In ACL . ACL 1064--1074. Xuezhe Ma and Eduard Hovy. 2016. End-to-end Sequence Labeling via Bi-directional LS\u2122-CNNs-CRF. In ACL . ACL 1064--1074."},{"key":"e_1_3_2_1_24_1","volume-title":"Qi Zhao, and Marc Najork.","author":"Majumder Bodhisattwa Prasad","year":"2020"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.5555\/2999792.2999959"},{"key":"e_1_3_2_1_26_1","volume-title":"ICDAR","author":"Palm Rasmus Berg"},{"key":"e_1_3_2_1_27_1","volume-title":"CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks","author":"Palm Rasmus Berg"},{"key":"e_1_3_2_1_28_1","volume-title":"Multi-task Learning based Pre-training Framework for Document Representation Learning. CoRR","author":"Pramanik Subhojeet","year":"2020"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"crossref","unstructured":"Yujie Qian Enrico Santus Zhijing Jin Jiang Guo and Regina Barzilay. 2019. GraphIE: A Graph-Based Framework for Information Extraction. In ACL. ACL 751--761. Yujie Qian Enrico Santus Zhijing Jin Jiang Guo and Regina Barzilay. 2019. GraphIE: A Graph-Based Framework for Information Extraction. In ACL. ACL 751--761.","DOI":"10.18653\/v1\/N19-1082"},{"key":"e_1_3_2_1_30_1","volume-title":"Haytham Elghazel, and J\u00e9 r\u00e9 my Espinas.","author":"Sage Cl\u00e9","year":"2020"},{"key":"e_1_3_2_1_31_1","volume-title":"V\u00e9 ronique Eglin, and J\u00e9 r\u00e9 my Espinas","author":"Sage Cl\u00e9","year":"2019"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1145\/3299869.3319867"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2646371"},{"key":"e_1_3_2_1_34_1","volume-title":"ACCV","author":"Su Bolan"},{"key":"e_1_3_2_1_35_1","unstructured":"Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei and Jifeng Dai. 2020. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In ICLR . Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei and Jifeng Dai. 2020. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In ICLR ."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"crossref","unstructured":"Yu Sun Shuohuan Wang Yu-Kun Li Shikun Feng Hao Tian Hua Wu and Haifeng Wang. 2020. ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding. In AAAI . AAAI 8968--8975. Yu Sun Shuohuan Wang Yu-Kun Li Shikun Feng Hao Tian Hua Wu and Haifeng Wang. 2020. ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding. In AAAI . AAAI 8968--8975.","DOI":"10.1609\/aaai.v34i05.6428"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"crossref","unstructured":"Guozhi Tang Lele Xie Lianwen Jin Jiapeng Wang Jingdong Chen Zhen Xu Qianying Wang Yaqiang Wu and Hui Li. 2021. MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction. In IJCAI. ijcai.org. Guozhi Tang Lele Xie Lianwen Jin Jiapeng Wang Jingdong Chen Zhen Xu Qianying Wang Yaqiang Wu and Hui Li. 2021. MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction. In IJCAI. ijcai.org.","DOI":"10.24963\/ijcai.2021\/144"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Jiapeng Wang Chongyu Liu Lianwen Jin Guozhi Tang Jiaxin Zhang Shuaitao Zhang Qianying Wang Yaqiang Wu and Mingxiang Cai. 2021 a. Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution. In AAAI. AAAI 2738--2745. Jiapeng Wang Chongyu Liu Lianwen Jin Guozhi Tang Jiaxin Zhang Shuaitao Zhang Qianying Wang Yaqiang Wu and Mingxiang Cai. 2021 a. Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution. In AAAI. AAAI 2738--2745.","DOI":"10.1609\/aaai.v35i4.16378"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3350988"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Pengfei Wang Chengquan Zhang Fei Qi Shanshan Liu Xiaoqiang Zhang Pengyuan Lyu Junyu Han Jingtuo Liu Errui Ding and Guangming Shi. 2021 b. PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network. In AAAI . AAAI 2782--2790. Pengfei Wang Chengquan Zhang Fei Qi Shanshan Liu Xiaoqiang Zhang Pengyuan Lyu Junyu Han Jingtuo Liu Errui Ding and Guangming Shi. 2021 b. PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network. In AAAI . AAAI 2782--2790.","DOI":"10.1609\/aaai.v35i4.16383"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"crossref","unstructured":"Zilong Wang Mingjie Zhan Xuebo Liu and Ding Liang. 2020. DocStruct: A Multimodal Method to Extract Hierarchy Structure in Document for General Form Understanding. In EMNLP. ACL 898--908. Zilong Wang Mingjie Zhan Xuebo Liu and Ding Liang. 2020. DocStruct: A Multimodal Method to Extract Hierarchy Structure in Document for General Form Understanding. In EMNLP. ACL 898--908.","DOI":"10.18653\/v1\/2020.findings-emnlp.80"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1145\/3397271.3401442"},{"key":"e_1_3_2_1_43_1","volume-title":"et almbox","author":"Wu Yonghui","year":"2016"},{"key":"e_1_3_2_1_44_1","volume-title":"Zhuowen Tu, and Kaiming He.","author":"Xie Saining","year":"2017"},{"key":"e_1_3_2_1_45_1","unstructured":"Yiheng Xu Minghao Li Lei Cui Shaohan Huang Furu Wei and Ming Zhou. 2020 a. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In KDD . ACM 1192--1200. Yiheng Xu Minghao Li Lei Cui Shaohan Huang Furu Wei and Ming Zhou. 2020 a. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In KDD . ACM 1192--1200."},{"key":"e_1_3_2_1_46_1","volume-title":"et almbox. 2020 b. LayoutLMv2: Multi-modal pre-training for visually-rich document understanding. arXiv preprint arXiv:2012.14740","author":"Xu Yang","year":"2020"},{"key":"e_1_3_2_1_47_1","unstructured":"Deli Yu Xuan Li Chengquan Zhang Tao Liu Junyu Han Jingtuo Liu and Errui Ding. 2020 a. Towards accurate scene text recognition with semantic reasoning networks. In CVPR . 12113--12122. Deli Yu Xuan Li Chengquan Zhang Tao Liu Junyu Han Jingtuo Liu and Errui Ding. 2020 a. Towards accurate scene text recognition with semantic reasoning networks. In CVPR . 12113--12122."},{"key":"e_1_3_2_1_48_1","volume-title":"2020 b","author":"Yu Wenwen"},{"key":"e_1_3_2_1_49_1","volume-title":"CVPR","author":"Zhang Chengquan"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413900"},{"key":"e_1_3_2_1_51_1","volume-title":"Cutie: Learning to understand documents with convolutional universal text information extractor. arXiv preprint arXiv:1903.12363","author":"Zhao Xiaohui","year":"2019"},{"key":"e_1_3_2_1_52_1","volume-title":"EAST: An Efficient and Accurate Scene Text Detector","author":"Zhou Xinyu","year":"2017"}],"event":{"name":"MM '21: ACM Multimedia Conference","location":"Virtual Event China","acronym":"MM '21","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 29th ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3474085.3475345","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3474085.3475345","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:49:18Z","timestamp":1750193358000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3474085.3475345"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,10,17]]},"references-count":52,"alternative-id":["10.1145\/3474085.3475345","10.1145\/3474085"],"URL":"https:\/\/doi.org\/10.1145\/3474085.3475345","relation":{},"subject":[],"published":{"date-parts":[[2021,10,17]]},"assertion":[{"value":"2021-10-17","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}