{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,21]],"date-time":"2026-05-21T01:08:13Z","timestamp":1779325693581,"version":"3.51.4"},"publisher-location":"Cham","reference-count":42,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031915710","type":"print"},{"value":"9783031915727","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-91572-7_13","type":"book-chapter","created":{"date-parts":[[2025,5,23]],"date-time":"2025-05-23T04:15:38Z","timestamp":1747973738000},"page":"212-228","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["$$\\mu $$gat: Improving Single-Page Document Parsing by\u00a0Providing Multi-page Context"],"prefix":"10.1007","author":[{"given":"Fabio","family":"Quattrini","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Carmine","family":"Zaccagnino","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Silvia","family":"Cascianelli","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Laura","family":"Righi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rita","family":"Cucchiara","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,5,12]]},"reference":[{"key":"13_CR1","doi-asserted-by":"crossref","unstructured":"Appalaraju, S., Jasani, B., Kota, B.U., Xie, Y., Manmatha, R.: DocFormer: end-to-end transformer for document understanding. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00103"},{"key":"13_CR2","doi-asserted-by":"crossref","unstructured":"Appalaraju, S., Tang, P., Dong, Q., Sankaran, N., Zhou, Y., Manmatha, R.: DocFormerv2: local features for document understanding. In: AAAI (2024)","DOI":"10.1609\/aaai.v38i2.27828"},{"key":"13_CR3","unstructured":"Banerjee, S., Lavie, A.: METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. In: Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization, pp. 65\u201372 (2005)"},{"key":"13_CR4","doi-asserted-by":"crossref","unstructured":"Biten, A.F., Litman, R., Xie, Y., Appalaraju, S., Manmatha, R.: LaTr: layout-aware transformer for scene-text VQA. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01605"},{"key":"13_CR5","doi-asserted-by":"crossref","unstructured":"Blau, T., et al.: GRAM: global reasoning for multi-page VQA. In: CVPR (2024)","DOI":"10.1109\/CVPR52733.2024.01477"},{"key":"13_CR6","unstructured":"Blecher, L., Cucurull, G., Scialom, T., Stojnic, R.: Nougat: neural optical understanding for academic documents. In: ICLR (2024)"},{"key":"13_CR7","doi-asserted-by":"crossref","unstructured":"Cascianelli, S., et al.: The LAM dataset: a novel benchmark for line-level handwritten text recognition. In: ICPR. IEEE (2022)","DOI":"10.1109\/ICPR56361.2022.9956189"},{"key":"13_CR8","doi-asserted-by":"crossref","unstructured":"Davis, B., Morse, B., Price, B., Tensmeyer, C., Wigington, C., Morariu, V.: End-to-end document recognition and understanding with Dessurt. In: ECCV (2022)","DOI":"10.1007\/978-3-031-25069-9_19"},{"key":"13_CR9","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: NAACL (2018)"},{"key":"13_CR10","doi-asserted-by":"crossref","unstructured":"Harley, A.W., Ufkes, A., Derpanis, K.G.: Evaluation of deep convolutional nets for document image classification and retrieval. In: ICDAR (2015)","DOI":"10.1109\/ICDAR.2015.7333910"},{"key":"13_CR11","doi-asserted-by":"crossref","unstructured":"Huang, Y., Lv, T., Cui, L., Lu, Y., Wei, F.: LayoutLMv3: pre-training for document AI with unified text and image masking. ACM Multimedia (2022)","DOI":"10.1145\/3503161.3548112"},{"key":"13_CR12","unstructured":"Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J.: Perceiver: general perception with iterative attention. In: ICML (2021)"},{"key":"13_CR13","doi-asserted-by":"crossref","unstructured":"Jaume, G., Ekenel, H.K., Thiran, J.P.: FUNSD: a dataset for form understanding in noisy scanned documents. In: ICDAR Workshops (2019)","DOI":"10.1109\/ICDARW.2019.10029"},{"key":"13_CR14","doi-asserted-by":"crossref","unstructured":"Kang, L., Tito, R., Valveny, E., Karatzas, D.: Multi-page document visual question answering using self-attention scoring mechanism. arXiv preprint arXiv:2404.19024 (2024)","DOI":"10.1007\/978-3-031-70552-6_13"},{"key":"13_CR15","doi-asserted-by":"crossref","unstructured":"Kim, G., et al.: OCR-Free document understanding transformer. In: ECCV (2022)","DOI":"10.1007\/978-3-031-19815-1_29"},{"key":"13_CR16","unstructured":"Lee, K., et al.: Pix2Struct: screenshot parsing as pretraining for visual language understanding. In: ICML (2023)"},{"key":"13_CR17","unstructured":"Levenshtein, V.I., et\u00a0al.: Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady 10, 707\u2013710 (1966)"},{"key":"13_CR18","doi-asserted-by":"crossref","unstructured":"Lewis, D., Agam, G., Argamon, S., Frieder, O., Grossman, D., Heard, J.: Building a test collection for complex document information processing. In: SIGIR (2006)","DOI":"10.1145\/1148170.1148307"},{"key":"13_CR19","doi-asserted-by":"crossref","unstructured":"Lewis, M., et al.: BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In: ACL (2019)","DOI":"10.18653\/v1\/2020.acl-main.703"},{"key":"13_CR20","doi-asserted-by":"crossref","unstructured":"Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., Wei, F.: DiT: self-supervised pre-training for document image transformer. ACM Multimedia (2022)","DOI":"10.1145\/3503161.3547911"},{"key":"13_CR21","doi-asserted-by":"crossref","unstructured":"Li, M., et al.: DocBank: a benchmark dataset for document layout analysis. In: ACL (2020)","DOI":"10.18653\/v1\/2020.coling-main.82"},{"key":"13_CR22","unstructured":"Liu, C., et al.: Focus anywhere for fine-grained multi-page document understanding. arXiv preprint arXiv:2405.14295 (2024)"},{"key":"13_CR23","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: hierarchical vision transformer using shifted windows. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"13_CR24","unstructured":"Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101 (2017)"},{"key":"13_CR25","unstructured":"Lv, T., et\u00a0al.: KOSMOS-2.5: a multimodal literate model. arXiv preprint arXiv:2309.11419 (2023)"},{"key":"13_CR26","doi-asserted-by":"crossref","unstructured":"Mathew, M., Karatzas, D., Jawahar, C.: DocVQA: a dataset for VQA on document images. In: WACV (2021)","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"13_CR27","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic evaluation of machine translation. In: ACL (2002)","DOI":"10.3115\/1073083.1073135"},{"key":"13_CR28","doi-asserted-by":"crossref","unstructured":"Pippi, V., Cascianelli, S., Kermorvant, C., Cucchiara, R.: How to choose pretrained handwriting recognition models for single writer fine-tuning. In: ICDAR. Springer (2023)","DOI":"10.1007\/978-3-031-41679-8_19"},{"key":"13_CR29","unstructured":"Potthast, A.: Regesta pontificum romanorum inde a 1198 ad 1304, vol.\u00a01. De Decker (1874)"},{"key":"13_CR30","doi-asserted-by":"crossref","unstructured":"Quattrini, F., Pippi, V., Cascianelli, S., Cucchiara, R.: Binarizing documents by leveraging both space and frequency. In: ICDAR (2024)","DOI":"10.1007\/978-3-031-70543-4_1"},{"issue":"140","key":"13_CR31","first-page":"1","volume":"21","author":"C Raffel","year":"2020","unstructured":"Raffel, C., et al.: Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res. 21(140), 1\u201367 (2020)","journal-title":"J. Mach. Learn. Res."},{"key":"13_CR32","doi-asserted-by":"crossref","unstructured":"Sun, Y., Zhou, D., Lin, C., He, C., Ouyang, W., Zhong, H.S.: LOCR: location-guided transformer for optical character recognition. arXiv preprint arXiv:2403.02127 (2024)","DOI":"10.18653\/v1\/2024.findings-emnlp.314"},{"key":"13_CR33","doi-asserted-by":"crossref","unstructured":"Tang, Z., et al.: Unifying vision, text, and layout for universal document processing. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01845"},{"key":"13_CR34","unstructured":"Taylor, R., et al.: Galactica: a large language model for science. arXiv preprint arXiv:2211.09085 (2022)"},{"key":"13_CR35","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.109834","volume":"144","author":"R Tito","year":"2023","unstructured":"Tito, R., Karatzas, D., Valveny, E.: Hierarchical multimodal transformers for multipage DocVQA. Pattern Recognit. 144, 109834 (2023)","journal-title":"Pattern Recognit."},{"key":"13_CR36","doi-asserted-by":"crossref","unstructured":"Turski, M., Stanis\u0142awek, T., Kaczmarek, K., Dyda, P., Grali\u0144ski, F.: CCpdf: building a high quality corpus for visually rich documents from web crawl data. In: ICDAR (2023)","DOI":"10.1007\/978-3-031-41682-8_22"},{"key":"13_CR37","doi-asserted-by":"crossref","unstructured":"Van\u00a0Landeghem, J., Biswas, S., Blaschko, M., Moens, M.F.: Beyond document page classification: design, datasets, and challenges. In: WACV (2024)","DOI":"10.1109\/WACV57701.2024.00294"},{"key":"13_CR38","doi-asserted-by":"crossref","unstructured":"Van\u00a0Landeghem, J., et\u00a0al.: Document understanding dataset and evaluation (DUDE). In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01789"},{"key":"13_CR39","unstructured":"Vaswani, A., et al.: Attention is all You need. In: NeurIPS (2017)"},{"key":"13_CR40","doi-asserted-by":"crossref","unstructured":"Xu, Y., et\u00a0al.: LayoutLMv2: multi-modal pre-training for visually-rich document understanding. In: ACL (2020)","DOI":"10.18653\/v1\/2021.acl-long.201"},{"key":"13_CR41","doi-asserted-by":"crossref","unstructured":"Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: LayoutLM: pre-training of text and layout for document image understanding. In: SIGKDD (2020)","DOI":"10.1145\/3394486.3403172"},{"key":"13_CR42","doi-asserted-by":"crossref","unstructured":"Zhong, X., Tang, J., Yepes, A.J.: PubLayNet: largest dataset ever for document layout analysis. In: ICDAR (2019)","DOI":"10.1109\/ICDAR.2019.00166"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-91572-7_13","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,21]],"date-time":"2026-05-21T00:53:30Z","timestamp":1779324810000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-91572-7_13"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9783031915710","9783031915727"],"references-count":42,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-91572-7_13","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"12 May 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}