{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T06:20:24Z","timestamp":1773901224878,"version":"3.50.1"},"publisher-location":"Cham","reference-count":40,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032046239","type":"print"},{"value":"9783032046246","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04624-6_17","type":"book-chapter","created":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T05:34:18Z","timestamp":1758000858000},"page":"287-304","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["BiblioPage: A Dataset of\u00a0Scanned Title Pages for\u00a0Bibliographic Metadata Extraction"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0774-8903","authenticated-orcid":false,"given":"Jan","family":"Koh\u00fat","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0580-9357","authenticated-orcid":false,"given":"Martin","family":"Do\u010dekal","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6364-129X","authenticated-orcid":false,"given":"Michal","family":"Hradi\u0161","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1404-4154","authenticated-orcid":false,"given":"Marek","family":"Va\u0161ko","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,9,17]]},"reference":[{"key":"17_CR1","unstructured":"Achiam, J., Adler, S.: Gpt-4 technical report (2023). https:\/\/api.semanticscholar.org\/CorpusID:257532815"},{"key":"17_CR2","doi-asserted-by":"publisher","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.L., Parikh, D.: Vqa: visual question answering. In: 2015 IEEE International Conference on Computer Vision (ICCV), pp. 2425\u20132433 (2015). https:\/\/doi.org\/10.1109\/ICCV.2015.279","DOI":"10.1109\/ICCV.2015.279"},{"key":"17_CR3","doi-asserted-by":"crossref","unstructured":"Appalaraju, S., Jasani, B., Kota, B.U., Xie, Y., Manmatha, R.: Docformer: End-to-end transformer for document understanding. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 993\u20131003 (2021)","DOI":"10.1109\/ICCV48922.2021.00103"},{"key":"17_CR4","doi-asserted-by":"crossref","unstructured":"Bhardwaj, A., Mercier, D., Dengel, A., Ahmed, S.: Deepbibx: Deep learning for image based bibliographic data extraction. In: International Conference on Neural Information Processing. International Conference on Neural Information Processing (ICONIP-2017), 24th International Conference on Neural Information Processing, November 14-18, Guangzhou, China, vol. 10635, pp. 286\u2013293. Springer (2017)","DOI":"10.1007\/978-3-319-70096-0_30"},{"key":"17_CR5","doi-asserted-by":"publisher","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12346, pp. 213\u2013229. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58452-8_13","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"17_CR6","unstructured":"Councill, I., Giles, C.L., Kan, M.Y.: ParsCit: an open-source CRF reference string parsing package. In: Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odijk, J., Piperidis, S., Tapias, D. (eds.) Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC\u201808). European Language Resources Association (ELRA), Marrakech, Morocco, May 2008. https:\/\/aclanthology.org\/L08-1291\/"},{"key":"17_CR7","unstructured":"Dubey, A., Jauhri, A.: The llama 3 herd of models. ArXiv abs\/2407.21783 (2024). https:\/\/api.semanticscholar.org\/CorpusID:271571434"},{"key":"17_CR8","doi-asserted-by":"publisher","unstructured":"Geng, J., Yang, J.: Autobib: automatic extraction of bibliographic information on the web. In: Proceedings. International Database Engineering and Applications Symposium, 2004. IDEAS \u201904, pp. 193\u2013204 (2004). https:\/\/doi.org\/10.1109\/IDEAS.2004.1319792","DOI":"10.1109\/IDEAS.2004.1319792"},{"key":"17_CR9","doi-asserted-by":"publisher","unstructured":"Granitzer, M., Hristakeva, M., Knight, R., Jack, K., Kern, R.: A comparison of layout based bibliographic metadata extraction techniques. In: Proceedings of the 2nd International Conference on Web Intelligence, Mining and Semantics, WIMS \u201912. Association for Computing Machinery, New York (2012). https:\/\/doi.org\/10.1145\/2254129.2254154","DOI":"10.1145\/2254129.2254154"},{"key":"17_CR10","doi-asserted-by":"crossref","unstructured":"Guillaume\u00a0Jaume, Hazim Kemal\u00a0Ekenel, J.P.T.: Funsd: a dataset for form understanding in noisy scanned documents. In: Accepted to ICDAR-OST (2019)","DOI":"10.1109\/ICDARW.2019.10029"},{"key":"17_CR11","doi-asserted-by":"publisher","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask r-cnn. In: 2017 IEEE International Conference on Computer Vision (ICCV), pp. 2980\u20132988 (2017). https:\/\/doi.org\/10.1109\/ICCV.2017.322","DOI":"10.1109\/ICCV.2017.322"},{"key":"17_CR12","doi-asserted-by":"crossref","unstructured":"Huang, Y., Lv, T., Cui, L., Lu, Y., Wei, F.: Layoutlmv3: pre-training for document ai with unified text and image masking. In: Proceedings of the 30th ACM International Conference on Multimedia, pp. 4083\u20134091 (2022)","DOI":"10.1145\/3503161.3548112"},{"key":"17_CR13","doi-asserted-by":"crossref","unstructured":"Huang, Z., Chen, K., He, J., Bai, X., Karatzas, D., Lu, S., Jawahar, C.: Icdar2019 competition on scanned receipt ocr and information extraction. In: 2019 International Conference on Document Analysis and Recognition (ICDAR), pp. 1516\u20131520. IEEE (2019)","DOI":"10.1109\/ICDAR.2019.00244"},{"key":"17_CR14","unstructured":"Jocher, G., Qiu, J.: Ultralytics yolo11 (2024). https:\/\/github.com\/ultralytics\/ultralytics"},{"key":"17_CR15","unstructured":"Khanam, R., Hussain, M.: Yolov11: an overview of the key architectural enhancements. arXiv preprint arXiv:2410.17725 (2024)"},{"key":"17_CR16","doi-asserted-by":"crossref","unstructured":"Kodym, O., Hradi\u0161, M.: Page layout analysis system for unconstrained historic documents. In: Document Analysis and Recognition\u2013ICDAR 2021: 16th International Conference, Lausanne, Switzerland, September 5\u201310, 2021, Proceedings, Part II 16, pp. 492\u2013506. Springer (2021)","DOI":"10.1007\/978-3-030-86331-9_32"},{"key":"17_CR17","doi-asserted-by":"crossref","unstructured":"Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., Wei, F.: Dit: Self-supervised pre-training for document image transformer. In: Proceedings of the 30th ACM International Conference on Multimedia, pp. 3530\u20133539 (2022)","DOI":"10.1145\/3503161.3547911"},{"key":"17_CR18","unstructured":"Liu, S., et al.: DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR, October 2021"},{"key":"17_CR19","doi-asserted-by":"publisher","unstructured":"Liu, W., et al.: SSD: single shot MultiBox detector. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9905, pp. 21\u201337. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46448-0_2","DOI":"10.1007\/978-3-319-46448-0_2"},{"key":"17_CR20","doi-asserted-by":"crossref","unstructured":"Mathew, M., Karatzas, D., Manmatha, R., Jawahar, C.V.: Docvqa: a dataset for vqa on document images. In: 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 2199\u20132208 (2020). https:\/\/api.semanticscholar.org\/CorpusID:220280200","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"17_CR21","doi-asserted-by":"publisher","unstructured":"Matsuoka, D., Ohta, M., Takasu, A., Adachi, J.: Examination of effective features for crf-based bibliography extraction from reference strings. In: 2016 Eleventh International Conference on Digital Information Management (ICDIM), pp. 243\u2013248 (2016). https:\/\/doi.org\/10.1109\/ICDIM.2016.7829774","DOI":"10.1109\/ICDIM.2016.7829774"},{"key":"17_CR22","doi-asserted-by":"crossref","unstructured":"Meng, D., et al.: Conditional DETR for fast training convergence. In: 2021 IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 3631\u20133640. IEEE, Montreal, QC, Canada, October 2021","DOI":"10.1109\/ICCV48922.2021.00363"},{"key":"17_CR23","unstructured":"Ollama: Ollama (2025). https:\/\/ollama.com\/"},{"key":"17_CR24","unstructured":"OpenAI: Openai api (2025). https:\/\/platform.openai.com\/"},{"key":"17_CR25","doi-asserted-by":"crossref","unstructured":"Papadopoulos, C., Pletschacher, S., Clausner, C., Antonacopoulos, A.: The impact dataset of historical document images. In: Proceedings of the 2nd International Workshop on Historical Document Imaging and Processing, pp. 123\u2013130 (2013)","DOI":"10.1145\/2501115.2501130"},{"key":"17_CR26","unstructured":"Park, S., Shin, S., Lee, B., Lee, J., Surh, J., Seo, M., Lee, H.: Cord: a consolidated receipt dataset for post-ocr parsing (2019)"},{"key":"17_CR27","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: towards real-time object detection with region proposal networks. Advances in neural information processing systems 28 (2015)"},{"key":"17_CR28","doi-asserted-by":"publisher","unstructured":"Rizvi, S.T.R., Dengel, A., Ahmed, S.: A hybrid approach and unified framework for bibliographic reference extraction. IEEE Access 8, 217231\u2013217245 (2020). https:\/\/doi.org\/10.1109\/ACCESS.2020.3042455","DOI":"10.1109\/ACCESS.2020.3042455"},{"key":"17_CR29","doi-asserted-by":"crossref","unstructured":"Singh, A., et al.: Towards vqa models that can read. In: CVPR, pp. 8317\u20138326. Computer Vision Foundation\/IEEE (2019)","DOI":"10.1109\/CVPR.2019.00851"},{"key":"17_CR30","doi-asserted-by":"crossref","unstructured":"Stanis\u0142awek, T., et al.: Kleister: key information extraction datasets involving long documents with complex layouts. In: International Conference on Document Analysis and Recognition, pp. 564\u2013579. Springer (2021)","DOI":"10.1007\/978-3-030-86549-8_36"},{"key":"17_CR31","doi-asserted-by":"publisher","unstructured":"Takasu, A.: Bibliographic attribute extraction from erroneous references based on a statistical model. In: 2003 Joint Conference on Digital Libraries, 2003. Proceedings, pp. 49\u201360 (2003). https:\/\/doi.org\/10.1109\/JCDL.2003.1204843","DOI":"10.1109\/JCDL.2003.1204843"},{"key":"17_CR32","doi-asserted-by":"crossref","unstructured":"Wang, J., Jin, L., Ding, K.: Lilt: A simple yet effective language-independent layout transformer for structured document understanding. arXiv preprint arXiv:2202.13669 (2022)","DOI":"10.18653\/v1\/2022.acl-long.534"},{"key":"17_CR33","doi-asserted-by":"crossref","unstructured":"Wang, J., Hu, K., Huo, Q.: Dlaformer: an end-to-end transformer for document layout analysis. In: International Conference on Document Analysis and Recognition, pp. 40\u201357. Springer (2024)","DOI":"10.1007\/978-3-031-70546-5_3"},{"key":"17_CR34","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2024.110836","volume":"156","author":"J Wang","year":"2024","unstructured":"Wang, J., Hu, K., Zhong, Z., Sun, L., Huo, Q.: Detect-order-construct: a tree construction based approach for hierarchical document structure analysis. Pattern Recogn. 156, 110836 (2024)","journal-title":"Pattern Recogn."},{"key":"17_CR35","doi-asserted-by":"crossref","unstructured":"Xu, Y., et\u00a0al.: Layoutlmv2: multi-modal pre-training for visually-rich document understanding. arXiv preprint arXiv:2012.14740 (2020)","DOI":"10.18653\/v1\/2021.acl-long.201"},{"key":"17_CR36","doi-asserted-by":"crossref","unstructured":"Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M.: Layoutlm: pre-training of text and layout for document image understanding. In: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 1192\u20131200 (2020)","DOI":"10.1145\/3394486.3403172"},{"key":"17_CR37","doi-asserted-by":"publisher","unstructured":"Xu, Y., Lv, T., Cui, L., Wang, G., Lu, Y., Florencio, D., Zhang, C., Wei, F.: XFUND: a benchmark dataset for multilingual visually rich form understanding. In: Findings of the Association for Computational Linguistics: ACL 2022, pp. 3214\u20133224. Association for Computational Linguistics, Dublin, Ireland, May 2022. https:\/\/doi.org\/10.18653\/v1\/2022.findings-acl.253, https:\/\/aclanthology.org\/2022.findings-acl.253","DOI":"10.18653\/v1\/2022.findings-acl.253"},{"key":"17_CR38","doi-asserted-by":"publisher","unstructured":"Yang, H., Onda, N., Kashimura, M., Ozawa, S.: Extraction of bibliography information based on image of book cover. In: Proceedings 10th International Conference on Image Analysis and Processing, pp. 921\u2013926 (1999). https:\/\/doi.org\/10.1109\/ICIAP.1999.797713","DOI":"10.1109\/ICIAP.1999.797713"},{"key":"17_CR39","doi-asserted-by":"crossref","unstructured":"Zhao, Y., et al.: DETRs beat YOLOs on real-time object detection. In: 2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16965\u201316974. IEEE, Seattle, WA, USA, June 2024","DOI":"10.1109\/CVPR52733.2024.01605"},{"key":"17_CR40","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: Deformable Transformers for End-to-End Object Detection, October 2020"}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04624-6_17","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T05:34:29Z","timestamp":1758000869000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04624-6_17"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,17]]},"ISBN":["9783032046239","9783032046246"],"references-count":40,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04624-6_17","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,17]]},"assertion":[{"value":"17 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wuhan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icdar2025","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}