{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T21:24:06Z","timestamp":1777584246915,"version":"3.51.4"},"publisher-location":"Cham","reference-count":57,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030863302","type":"print"},{"value":"9783030863319","type":"electronic"}],"license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021]]},"DOI":"10.1007\/978-3-030-86331-9_47","type":"book-chapter","created":{"date-parts":[[2021,9,4]],"date-time":"2021-09-04T02:05:57Z","timestamp":1630721157000},"page":"732-747","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":105,"title":["Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer"],"prefix":"10.1007","author":[{"given":"Rafa\u0142","family":"Powalski","sequence":"first","affiliation":[]},{"given":"\u0141ukasz","family":"Borchmann","sequence":"additional","affiliation":[]},{"given":"Dawid","family":"Jurkiewicz","sequence":"additional","affiliation":[]},{"given":"Tomasz","family":"Dwojak","sequence":"additional","affiliation":[]},{"given":"Micha\u0142","family":"Pietruszka","sequence":"additional","affiliation":[]},{"given":"Gabriela","family":"Pa\u0142ka","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2021,9,2]]},"reference":[{"key":"47_CR1","unstructured":"Cho, M., Amplayo, R., Hwang, S.W., Park, J.: Adversarial TableQA: attention supervision for question answering on tables. In: PMLR (2018)"},{"key":"47_CR2","doi-asserted-by":"crossref","unstructured":"Choi, E., et al.: QuAC: question answering in context. In: EMNLP (2018)","DOI":"10.18653\/v1\/D18-1241"},{"key":"47_CR3","doi-asserted-by":"crossref","unstructured":"Chuang, Y., Liu, C., Lee, H., Lee, L.: SpeechBERT: an audio-and-text jointly learned language model for end-to-end spoken question answering. In: ISCA (2020)","DOI":"10.21437\/Interspeech.2020-1570"},{"key":"47_CR4","doi-asserted-by":"crossref","unstructured":"Clark, J.H., et al.: TyDi QA: a benchmark for information-seeking question answering in typologically diverse languages. TACL 8, 454\u2013470 (2020)","DOI":"10.1162\/tacl_a_00317"},{"key":"47_CR5","unstructured":"Dai, J., Li, Y., He, K., Sun, J.: R-FCN: object detection via region-based fully convolutional networks. In: NeurIPS (2016)"},{"key":"47_CR6","unstructured":"Denk, T.I., Reisswig, C.: BERTgrid: contextualized embedding for 2d document representation and understanding. arXiv preprint (2019)"},{"key":"47_CR7","unstructured":"Dodge, J., Ilharco, G., Schwartz, R., Farhadi, A., Hajishirzi, H., Smith, N.A.: Fine-tuning pretrained language models: weight initializations, data orders, and early stopping. arXiv preprint (2020)"},{"key":"47_CR8","unstructured":"Dua, D., Wang, Y., Dasigi, P., Stanovsky, G., Singh, S., Gardner, M.: DROP: a reading comprehension benchmark requiring discrete reasoning over paragraphs. In: NAACL-HLT (2019)"},{"key":"47_CR9","doi-asserted-by":"crossref","unstructured":"Dwojak, T., Pietruszka, M., Borchmann, \u0141., Ch\u0142edowski, J., Grali\u0144ski, F.: From dataset recycling to multi-property extraction and beyond. In: CoNLL (2020)","DOI":"10.18653\/v1\/2020.conll-1.52"},{"key":"47_CR10","doi-asserted-by":"crossref","unstructured":"Ethayarajh, K.: How contextual are contextualized word representations? comparing the geometry of BERT, ELMo, and GPT-2 embeddings. In: EMNLP-IJCNLP (2019)","DOI":"10.18653\/v1\/D19-1006"},{"key":"47_CR11","doi-asserted-by":"crossref","unstructured":"Garncarek, \u0141., et al.: LAMBERT: layout-aware (language) modeling using BERT for information extraction. In: Llads, J. et al. (eds.) ICDAR 2021. LNCS, vol. 12822, pp. 532\u2013547 (2021). Accepted to ICDAR 2021","DOI":"10.1007\/978-3-030-86549-8_34"},{"key":"47_CR12","unstructured":"Guu, K., Lee, K., Tung, Z., Pasupat, P., Chang, M.: Retrieval augmented language model pre-training. In: ICML (2020)"},{"key":"47_CR13","unstructured":"Han, K., et al.: A survey on visual transformer. arXiv preprint (2021)"},{"key":"47_CR14","doi-asserted-by":"crossref","unstructured":"Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval. In: ICDAR (2015)","DOI":"10.1109\/ICDAR.2015.7333910"},{"key":"47_CR15","doi-asserted-by":"crossref","unstructured":"Herzig, J., Nowak, P.K., M\u00fcller, T., Piccinno, F., Eisenschlos, J.: TaPas: weakly supervised table parsing via pre-training. In: ACL (2020)","DOI":"10.18653\/v1\/2020.acl-main.398"},{"key":"47_CR16","doi-asserted-by":"crossref","unstructured":"Hewlett, D., et al.: WikiReading: a novel large-scale language understanding task over Wikipedia. In: ACL (2016)","DOI":"10.18653\/v1\/P16-1145"},{"key":"47_CR17","unstructured":"Ho, J., Kalchbrenner, N., Weissenborn, D., Salimans, T.: Axial attention in multidimensional transformers. arXiv preprint (2019)"},{"key":"47_CR18","unstructured":"Hong, T., Kim, D., Ji, M., Hwang, W., Nam, D., Park, S.: BROS: a pre-trained language model for understanding texts in document. openreview.net preprint (2021)"},{"key":"47_CR19","doi-asserted-by":"crossref","unstructured":"Huang, Z., et al.: ICDAR2019 competition on scanned receipt OCR and information extraction. In: ICDAR (2019)","DOI":"10.1109\/ICDAR.2019.00244"},{"key":"47_CR20","doi-asserted-by":"crossref","unstructured":"Hwang, W., Yim, J., Park, S., Yang, S., Seo, M.: Spatial dependency parsing for semi-structured document information extraction. arXiv preprint (2020)","DOI":"10.18653\/v1\/2021.findings-acl.28"},{"key":"47_CR21","doi-asserted-by":"crossref","unstructured":"Jaume, G., Ekenel, H.K., Thiran, J.P.: FUNSD: a dataset for form understanding in noisy scanned documents. In: ICDAR-OST (2019)","DOI":"10.1109\/ICDARW.2019.10029"},{"key":"47_CR22","doi-asserted-by":"crossref","unstructured":"Kafle, K., Price, B.L., Cohen, S., Kanan, C.: DVQA: understanding data visualizations via question answering. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00592"},{"key":"47_CR23","unstructured":"Kahou, S.E., Michalski, V., Atkinson, A., K\u00e1d\u00e1r, \u00c1., Trischler, A., Bengio, Y.: FigureQA: an annotated figure dataset for visual reasoning. In: ICLR (2018)"},{"key":"47_CR24","unstructured":"Kasai, J., Pappas, N., Peng, H., Cross, J., Smith, N.A.: Deep encoder, shallow decoder: reevaluating the speed-quality tradeoff in machine translation. arXiv preprint (2020)"},{"key":"47_CR25","unstructured":"Keskar, N., McCann, B., Xiong, C., Socher, R.: Unifying question answering and text classification via span extraction. arXiv preprint (2019)"},{"key":"47_CR26","doi-asserted-by":"crossref","unstructured":"Khashabi, D., et al.: UnifiedQA: crossing format boundaries with a single QA system. In: EMNLP-Findings (2020)","DOI":"10.18653\/v1\/2020.findings-emnlp.171"},{"key":"47_CR27","doi-asserted-by":"crossref","unstructured":"Khot, T., Clark, P., Guerquin, M., Jansen, P., Sabharwal, A.: QASC: a dataset for question answering via sentence composition. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i05.6319"},{"key":"47_CR28","doi-asserted-by":"crossref","unstructured":"Kudo, T.: Subword regularization: improving neural network translation models with multiple subword candidates. In: ACL (2018)","DOI":"10.18653\/v1\/P18-1007"},{"key":"47_CR29","unstructured":"Kumar, A., et al.: Ask me anything: dynamic memory networks for natural language processing. In: ICML (2016)"},{"key":"47_CR30","doi-asserted-by":"publisher","first-page":"453","DOI":"10.1162\/tacl_a_00276","volume":"7","author":"T Kwiatkowski","year":"2019","unstructured":"Kwiatkowski, T., et al.: Natural questions: a benchmark for question answering research. TACL 7, 453\u2013466 (2019)","journal-title":"TACL"},{"key":"47_CR31","doi-asserted-by":"crossref","unstructured":"Lai, G., Xie, Q., Liu, H., Yang, Y., Hovy, E.: RACE: large-scale ReAding comprehension dataset from examinations. In: EMNLP (2017)","DOI":"10.18653\/v1\/D17-1082"},{"key":"47_CR32","doi-asserted-by":"crossref","unstructured":"Le, H., Sahoo, D., Chen, N., Hoi, S.: Multimodal transformer networks for end-to-end video-grounded dialogue systems. In: ACL (2019)","DOI":"10.18653\/v1\/P19-1564"},{"key":"47_CR33","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"212","DOI":"10.1007\/978-3-030-01225-0_13","volume-title":"Computer Vision \u2013 ECCV 2018","author":"K-H Lee","year":"2018","unstructured":"Lee, K.-H., Chen, X., Hua, G., Hu, H., He, X.: Stacked cross attention for image-text matching. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11208, pp. 212\u2013228. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01225-0_13"},{"key":"47_CR34","doi-asserted-by":"crossref","unstructured":"Lewis, M., et al.: BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In: ACL (2020)","DOI":"10.18653\/v1\/2020.acl-main.703"},{"key":"47_CR35","unstructured":"Li, L.H., Yatskar, M., Yin, D., Hsieh, C.J., Chang, K.W.: VisualBERT: a simple and performant baseline for vision and language. arXiv preprint (2019)"},{"key":"47_CR36","doi-asserted-by":"crossref","unstructured":"Liu, X., Gao, F., Zhang, Q., Zhao, H.: Graph convolution for multimodal information extraction from visually rich documents. In: NAACL-HLT (2019)","DOI":"10.18653\/v1\/N19-2005"},{"key":"47_CR37","doi-asserted-by":"crossref","unstructured":"Ma, J., Qin, S., Su, L., Li, X., Xiao, L.: Fusion of image-text attention for transformer-based multimodal machine translation. In: IALP (2019)","DOI":"10.1109\/IALP48816.2019.9037732"},{"key":"47_CR38","doi-asserted-by":"crossref","unstructured":"Mathew, M., Karatzas, D., Jawahar, C.: DocVQA: a dataset for VQA on document images. In: WACV, pp. 2200\u20132209 (2021)","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"47_CR39","unstructured":"McCann, B., Keskar, N.S., Xiong, C., Socher, R.: The natural language decathlon: multitask learning as question answering. arXiv preprint (2018)"},{"key":"47_CR40","doi-asserted-by":"crossref","unstructured":"Palm, R.B., Winther, O., Laws, F.: CloudScan - a configuration-free invoice analysis system using recurrent neural networks. In: ICDAR (2017)","DOI":"10.1109\/ICDAR.2017.74"},{"key":"47_CR41","unstructured":"Park, S., et al.: CORD: a consolidated receipt dataset for post-OCR parsing. In: Document Intelligence Workshop at NeurIPS (2019)"},{"key":"47_CR42","unstructured":"Powalski, R., Stanislawek, T.: UniCase - rethinking casing in language models. arXiv prepint (2020)"},{"key":"47_CR43","unstructured":"Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I.: Language models are unsupervised multitask learners. Technical report (2019)"},{"key":"47_CR44","unstructured":"Raffel, C., et al.: Exploring the limits of transfer learning with a unified text-to-text transformer. JMRL (2020)"},{"key":"47_CR45","doi-asserted-by":"crossref","unstructured":"Rajpurkar, P., Zhang, J., Lopyrev, K., Liang, P.: SQuAD: 100,000+ questions for machine comprehension of text. In: EMNLP (2016)","DOI":"10.18653\/v1\/D16-1264"},{"key":"47_CR46","doi-asserted-by":"crossref","unstructured":"Reddy, S., Chen, D., Manning, C.D.: CoQA: a conversational question answering challenge. TACL 7, 249\u2013266 (2019)","DOI":"10.1162\/tacl_a_00266"},{"key":"47_CR47","doi-asserted-by":"crossref","unstructured":"Ren, Y., Liu, J., Tan, X., Zhao, Z., Zhao, S., Liu, T.Y.: A study of non-autoregressive model for sequence generation. In: ACL (2020)","DOI":"10.18653\/v1\/2020.acl-main.15"},{"key":"47_CR48","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"234","DOI":"10.1007\/978-3-319-24574-4_28","volume-title":"Medical Image Computing and Computer-Assisted Intervention \u2013 MICCAI 2015","author":"O Ronneberger","year":"2015","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-Net: convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W.M., Frangi, A.F. (eds.) MICCAI 2015. LNCS, vol. 9351, pp. 234\u2013241. Springer, Cham (2015). https:\/\/doi.org\/10.1007\/978-3-319-24574-4_28"},{"key":"47_CR49","doi-asserted-by":"crossref","unstructured":"Sennrich, R., Haddow, B., Birch, A.: Neural machine translation of rare words with subword units. In: ACL (2016)","DOI":"10.18653\/v1\/P16-1162"},{"key":"47_CR50","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"742","DOI":"10.1007\/978-3-030-58536-5_44","volume-title":"Computer Vision \u2013 ECCV 2020","author":"O Sidorov","year":"2020","unstructured":"Sidorov, O., Hu, R., Rohrbach, M., Singh, A.: TextCaps: a dataset for image captioning with reading comprehension. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12347, pp. 742\u2013758. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58536-5_44"},{"key":"47_CR51","doi-asserted-by":"crossref","unstructured":"Singh, A., et al.: Towards VQA models that can read. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00851"},{"key":"47_CR52","doi-asserted-by":"crossref","unstructured":"Stanis\u0142awek, T., et al.: Kleister: key information extraction datasets involving long documents with complex layouts. In: Llads, J. et al. (eds.) ICDAR 2021. LNCS, vol. 12822, pp. 564\u2013579 (2021). Accepted to ICDAR 2021","DOI":"10.1007\/978-3-030-86549-8_36"},{"key":"47_CR53","unstructured":"Su, W., Zhu, X., Cao, Y., Li, B., Lu, L., Wei, F., Dai, J.: VL-BERT: pre-training of generic visual-linguistic representations. In: ICLR (2020)"},{"key":"47_CR54","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS (2017)"},{"key":"47_CR55","doi-asserted-by":"crossref","unstructured":"Xu, Y., et al.: LayoutLMv2: multi-modal pre-training for visually-rich document understanding. arXiv preprint (2020)","DOI":"10.18653\/v1\/2021.acl-long.201"},{"key":"47_CR56","doi-asserted-by":"crossref","unstructured":"Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: LayoutLM: pre-training of text and layout for document image understanding. In: KDD (2020)","DOI":"10.1145\/3394486.3403172"},{"key":"47_CR57","doi-asserted-by":"crossref","unstructured":"Yin, P., Neubig, G., Yih, W.t., Riedel, S.: TaBERT: pretraining for joint understanding of textual and tabular data. In: ACL (2020)","DOI":"10.18653\/v1\/2020.acl-main.745"}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2021"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-86331-9_47","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T22:05:31Z","timestamp":1756937131000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-86331-9_47"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"ISBN":["9783030863302","9783030863319"],"references-count":57,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-86331-9_47","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]},"assertion":[{"value":"2 September 2021","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Lausanne","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Switzerland","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2021","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"5 September 2021","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"10 September 2021","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2021","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/iapr.org\/icdar2021","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"EasyChair","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"340","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"182","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"54% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"2.9","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"4.9","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"No","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Additionally, 13 competition reports are included.","order":10,"name":"additional_info_on_review_process","label":"Additional Info on Review Process","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}