{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,25]],"date-time":"2025-12-25T07:21:25Z","timestamp":1766647285688,"version":"3.40.3"},"publisher-location":"Cham","reference-count":52,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031705328"},{"type":"electronic","value":"9783031705335"}],"license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024]]},"DOI":"10.1007\/978-3-031-70533-5_19","type":"book-chapter","created":{"date-parts":[[2024,9,7]],"date-time":"2024-09-07T05:02:25Z","timestamp":1725685345000},"page":"313-330","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Dynamic Relation Transformer for\u00a0Contextual Text Block Detection"],"prefix":"10.1007","author":[{"given":"Jiawei","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shunchi","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kai","family":"Hu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chixiang","family":"Ma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhuoyao","family":"Zhong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lei","family":"Sun","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qiang","family":"Huo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,9,8]]},"reference":[{"key":"19_CR1","doi-asserted-by":"crossref","unstructured":"Baek, Y., Lee, B., Han, D., Yun, S., Lee, H.: Character region awareness for text detection. In: CVPR, pp. 9365\u20139374 (2019)","DOI":"10.1109\/CVPR.2019.00959"},{"key":"19_CR2","unstructured":"Biswas, S., Banerjee, A., Llad\u00f3s, J., Pal, U.: DocSegTr: an instance-level end-to-end document image segmentation transformer. arXiv preprint arXiv:2201.11438 (2022)"},{"issue":"5","key":"19_CR3","doi-asserted-by":"publisher","first-page":"1483","DOI":"10.1109\/TPAMI.2019.2956516","volume":"43","author":"Z Cai","year":"2019","unstructured":"Cai, Z., Vasconcelos, N.: Cascade R-CNN: high quality object detection and instance segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 43(5), 1483\u20131498 (2019)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"19_CR4","doi-asserted-by":"crossref","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: ECCV, pp. 213\u2013229 (2020)","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"19_CR5","doi-asserted-by":"crossref","unstructured":"Cheng, B., Misra, I., Schwing, A.G., Kirillov, A., Girdhar, R.: Masked-attention mask transformer for universal image segmentation. In: CVPR, pp. 1290\u20131299 (2022)","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"19_CR6","doi-asserted-by":"crossref","unstructured":"Cheng, H., et al.: M6Doc: a large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis. In: CVPR, pp. 15138\u201315147 (2023)","DOI":"10.1109\/CVPR52729.2023.01453"},{"key":"19_CR7","doi-asserted-by":"crossref","unstructured":"Ch\u2019ng, C.K., Chan, C.S.: Total-text: a comprehensive dataset for scene text detection and recognition. In: ICDAR, pp. 935\u2013942 (2017)","DOI":"10.1109\/ICDAR.2017.157"},{"key":"19_CR8","doi-asserted-by":"crossref","unstructured":"Girshick, R.: Fast R-CNN. In: ICCV, pp. 1440\u20131448 (2015)","DOI":"10.1109\/ICCV.2015.169"},{"key":"19_CR9","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: CVPR, pp. 580\u2013587 (2014)","DOI":"10.1109\/CVPR.2014.81"},{"key":"19_CR10","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"19_CR11","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.110212","volume":"148","author":"K Hu","year":"2024","unstructured":"Hu, K., Zhong, Z., Sun, L., Huo, Q.: Mathematical formula detection in document images: a new dataset and a new approach. Pattern Recogn. 148, 110212 (2024)","journal-title":"Pattern Recogn."},{"key":"19_CR12","doi-asserted-by":"crossref","unstructured":"Huang, Y., Lv, T., Cui, L., Lu, Y., Wei, F.: LayoutLMV3: pre-training for document AI with unified text and image masking. In: ACM MM, pp. 4083\u20134091 (2022)","DOI":"10.1145\/3503161.3548112"},{"key":"19_CR13","unstructured":"Jocher, G., et\u00a0al.: ultralytics\/yolov5: v5.0 - YOLOv5-P6 1280 models, AWS, Supervise.ly and YouTube integrations (2021)"},{"key":"19_CR14","unstructured":"Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. In: ICLR (2015)"},{"key":"19_CR15","doi-asserted-by":"crossref","unstructured":"Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., Wei, F.: DiT: self-supervised pre-training for document image transformer. In: ACM MM, pp. 3530\u20133539 (2022)","DOI":"10.1145\/3503161.3547911"},{"key":"19_CR16","doi-asserted-by":"crossref","unstructured":"Li, X.H., Yin, F., Liu, C.L.: Page segmentation using convolutional neural network and graphical model. In: DAS Workshop, pp. 231\u2013245 (2020)","DOI":"10.1007\/978-3-030-57058-3_17"},{"key":"19_CR17","doi-asserted-by":"crossref","unstructured":"Li, X., Yin, F., Liu, C.: Page object detection from pdf document images by deep structured prediction and supervised clustering. In: ICIP, pp. 3627\u20133632 (2018)","DOI":"10.1109\/ICPR.2018.8546073"},{"key":"19_CR18","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll\u00e1r, P.: Focal loss for dense object detection. In: ICCV, pp. 2980\u20132988 (2017)","DOI":"10.1109\/ICCV.2017.324"},{"key":"19_CR19","doi-asserted-by":"publisher","unstructured":"Liu, S., Wang, R., Raptis, M., Fujii, Y.: Unified line and paragraph detection by graph convolutional networks. In: Uchida, S., Barney, E., Eglin, V. (eds.) DAS Workshop, vol. 13237, pp. 33\u201347. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-06555-2_3","DOI":"10.1007\/978-3-031-06555-2_3"},{"key":"19_CR20","unstructured":"Liu, X., et\u00a0al.: ICDAR 2019 robust reading challenge on reading Chinese text on signboard. arXiv preprint arXiv:1912.09641 (2019)"},{"key":"19_CR21","doi-asserted-by":"crossref","unstructured":"Liu, Y., Chen, H., Shen, C., He, T., Jin, L., Wang, L.: ABCNet: real-time scene text spotting with adaptive bezier-curve network. In: CVPR, pp. 9809\u20139818 (2020)","DOI":"10.1109\/CVPR42600.2020.00983"},{"key":"19_CR22","doi-asserted-by":"publisher","first-page":"161","DOI":"10.1007\/s11263-020-01369-0","volume":"129","author":"S Long","year":"2021","unstructured":"Long, S., He, X., Yao, C.: Scene text detection and recognition: the deep learning era. IJCV 129, 161\u2013184 (2021)","journal-title":"IJCV"},{"key":"19_CR23","doi-asserted-by":"crossref","unstructured":"Long, S., Qin, S., Panteleev, D., Bissacco, A., Fujii, Y., Raptis, M.: Towards end-to-end unified scene text detection and layout analysis. In: CVPR, pp. 1049\u20131059 (2022)","DOI":"10.1109\/CVPR52688.2022.00112"},{"key":"19_CR24","doi-asserted-by":"crossref","unstructured":"Long, S., Ruan, J., Zhang, W., He, X., Wu, W., Yao, C.: TextSnake: a flexible representation for detecting text of arbitrary shapes. In: ECCV, pp. 20\u201336 (2018)","DOI":"10.1007\/978-3-030-01216-8_2"},{"key":"19_CR25","unstructured":"Luo, S., Ding, Y., Long, S., Poon, J., Han, S.C.: Doc-GCN: heterogeneous graph convolutional networks for document layout analysis. In: COLING, pp. 2906\u20132916 (2022)"},{"key":"19_CR26","doi-asserted-by":"publisher","unstructured":"Ma, C., Sun, L., Wang, J., Huo, Q.: DQ-DETR: dynamic queries enhanced detection transformer for arbitrary shape text detection. In: Fink, G.A., Jain, R., Kise, K., Zanibbi, R. (eds.) ICDAR, vol. 14188, pp. 243\u2013260. Springer, Cham (2023). https:\/\/doi.org\/10.1007\/978-3-031-41679-8_14","DOI":"10.1007\/978-3-031-41679-8_14"},{"key":"19_CR27","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107684","volume":"111","author":"C Ma","year":"2021","unstructured":"Ma, C., Sun, L., Zhong, Z., Huo, Q.: ReLaText: exploiting visual relationships for arbitrary-shaped scene text detection with graph convolutional networks. Pattern Recognit. 111, 107684 (2021)","journal-title":"Pattern Recognit."},{"issue":"11","key":"19_CR28","doi-asserted-by":"publisher","first-page":"3111","DOI":"10.1109\/TMM.2018.2818020","volume":"20","author":"J Ma","year":"2018","unstructured":"Ma, J., et al.: Arbitrary-oriented scene text detection via rotation proposals. IEEE Trans. Multimedia 20(11), 3111\u20133122 (2018)","journal-title":"IEEE Trans. Multimedia"},{"issue":"14","key":"19_CR29","doi-asserted-by":"publisher","first-page":"20255","DOI":"10.1007\/s11042-022-12693-7","volume":"81","author":"F Naiemi","year":"2022","unstructured":"Naiemi, F., Ghods, V., Khalesi, H.: Scene text detection and recognition: a survey. Multimed. Tools. Appl. 81(14), 20255\u201320290 (2022)","journal-title":"Multimed. Tools. Appl."},{"key":"19_CR30","doi-asserted-by":"crossref","unstructured":"Nayef, N., et\u00a0al.: ICDAR2017 robust reading challenge on multi-lingual scene text detection and script identification-RRC-MLT. In: ICDAR, pp. 1454\u20131459 (2017)","DOI":"10.1109\/ICDAR.2017.237"},{"key":"19_CR31","doi-asserted-by":"crossref","unstructured":"Oliveira, D.A.B., Viana, M.P.: Fast CNN-based document layout analysis. In: ICCV Workshops, pp. 1173\u20131180 (2017)","DOI":"10.1109\/ICCVW.2017.142"},{"key":"19_CR32","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic evaluation of machine translation. In: ACL, pp. 311\u2013318 (2002)","DOI":"10.3115\/1073083.1073135"},{"key":"19_CR33","doi-asserted-by":"crossref","unstructured":"Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A.S., Staar, P.: DocLayNet: a large human-annotated dataset for document-layout segmentation. In: KDD, pp. 3743\u20133751 (2022)","DOI":"10.1145\/3534678.3539043"},{"key":"19_CR34","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. In: NeurIPS, pp. 91\u201399 (2015)"},{"key":"19_CR35","doi-asserted-by":"crossref","unstructured":"Vo, N.D., Nguyen, K., Nguyen, T.V., Nguyen, K.: Ensemble of deep object detectors for page object detection. In: IMCOM, pp.\u00a01\u20136 (2018)","DOI":"10.1145\/3164541.3164644"},{"key":"19_CR36","doi-asserted-by":"crossref","unstructured":"Wang, R., Fujii, Y., Popat, A.C.: Post-OCR paragraph recognition by graph convolutional networks. In: WACV, pp. 493\u2013502 (2022)","DOI":"10.1109\/WACV51458.2022.00259"},{"key":"19_CR37","doi-asserted-by":"crossref","unstructured":"Wang, X., Jiang, Y., Luo, Z., Liu, C., Choi, H., Kim, S.: Arbitrary shape scene text detection with adaptive text region representation. In: CVPR, pp. 6449\u20136458 (2019)","DOI":"10.1109\/CVPR.2019.00661"},{"key":"19_CR38","unstructured":"Wang, X., Zhang, R., Kong, T., Li, L., Shen, C.: SOLOv2: dynamic and fast instance segmentation. In: NeurIPS, vol.\u00a033, pp. 17721\u201317732 (2020)"},{"key":"19_CR39","doi-asserted-by":"publisher","unstructured":"Xue, C., Huang, J., Zhang, W., Lu, S., Wang, C., Bai, S.: Contextual text block detection towards scene text understanding. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV, vol. 13688, pp. 374\u2013391. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19815-1_22","DOI":"10.1007\/978-3-031-19815-1_22"},{"key":"19_CR40","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108494","volume":"124","author":"C Xue","year":"2022","unstructured":"Xue, C., Lu, S., Hoi, S.: Detection and rectification of arbitrary shaped scene texts by using text keypoints and links. Pattern Recognit. 124, 108494 (2022)","journal-title":"Pattern Recognit."},{"key":"19_CR41","doi-asserted-by":"crossref","unstructured":"Yang, H., Hsu, W.: Transformer-based approach for document layout understanding. In: ICIP, pp. 4043\u20134047 (2022)","DOI":"10.1109\/ICIP46576.2022.9897491"},{"key":"19_CR42","doi-asserted-by":"crossref","unstructured":"Yi, X., Gao, L., Liao, Y., Zhang, X., Liu, R., Jiang, Z.: CNN based page object detection in document images. In: ICDAR, vol.\u00a01, pp. 230\u2013235 (2017)","DOI":"10.1109\/ICDAR.2017.46"},{"key":"19_CR43","unstructured":"Yuliang, L., Lianwen, J., Shuaitao, Z., Sheng, Z.: Detecting curve text in the wild: new dataset and new solution. arXiv preprint arXiv:1712.02170 (2017)"},{"key":"19_CR44","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"115","DOI":"10.1007\/978-3-030-86549-8_8","volume-title":"Document Analysis and Recognition \u2013 ICDAR 2021","author":"P Zhang","year":"2021","unstructured":"Zhang, P., Li, C., Qiao, L., Cheng, Z., Pu, S., Niu, Y., Wu, F.: VSR: a unified framework for document layout analysis combining vision, semantics and relations. In: Llad\u00f3s, J., Lopresti, D., Uchida, S. (eds.) ICDAR 2021. LNCS, vol. 12821, pp. 115\u2013130. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-030-86549-8_8"},{"key":"19_CR45","doi-asserted-by":"crossref","unstructured":"Zhang, S.X., et al.: Deep relational reasoning graph network for arbitrary shape text detection. In: CVPR, pp. 9699\u20139708 (2020)","DOI":"10.1109\/CVPR42600.2020.00972"},{"key":"19_CR46","doi-asserted-by":"crossref","unstructured":"Zhang, X., Su, Y., Tripathi, S., Tu, Z.: Text spotting transformers. In: CVPR, pp. 9519\u20139528 (2022)","DOI":"10.1109\/CVPR52688.2022.00930"},{"key":"19_CR47","doi-asserted-by":"crossref","unstructured":"Zhong, X., Tang, J., Yepes, A.J.: PubLayNet: largest dataset ever for document layout analysis. In: ICDAR, pp. 1015\u20131022 (2019)","DOI":"10.1109\/ICDAR.2019.00166"},{"key":"19_CR48","doi-asserted-by":"crossref","unstructured":"Zhong, Z., Jin, L., Huang, S.: DeepText: a new approach for text proposal generation and text detection in natural images. In: ICASSP, pp. 1208\u20131212 (2017)","DOI":"10.1109\/ICASSP.2017.7952348"},{"key":"19_CR49","doi-asserted-by":"publisher","unstructured":"Zhong, Z., et al.: A hybrid approach to document layout analysis for heterogeneous document images. In: Fink, G.A., Jain, R., Kise, K., Zanibbi, R. (eds.) ICDAR, vol. 14191, pp. 189\u2013206. Springer, Cham (2023). https:\/\/doi.org\/10.1007\/978-3-031-41734-4_12","DOI":"10.1007\/978-3-031-41734-4_12"},{"key":"19_CR50","doi-asserted-by":"crossref","unstructured":"Zhou, X., et al.: EAST: an efficient and accurate scene text detector. In: CVPR, pp. 5551\u20135560 (2017)","DOI":"10.1109\/CVPR.2017.283"},{"key":"19_CR51","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: deformable transformers for end-to-end object detection. In: ICLR (2021)"},{"key":"19_CR52","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1007\/s11704-015-4488-0","volume":"10","author":"Y Zhu","year":"2016","unstructured":"Zhu, Y., Yao, C., Bai, X.: Scene text detection and recognition: recent advances and future trends. Front. Comput. Sci. 10, 19\u201336 (2016)","journal-title":"Front. Comput. Sci."}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition - ICDAR 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-70533-5_19","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,27]],"date-time":"2024-11-27T21:45:47Z","timestamp":1732743947000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-70533-5_19"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"ISBN":["9783031705328","9783031705335"],"references-count":52,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-70533-5_19","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"8 September 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Athens","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Greece","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 August 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 September 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/icdar2024.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}