{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T06:09:50Z","timestamp":1758089390098,"version":"3.44.0"},"publisher-location":"Cham","reference-count":40,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783032046239"},{"type":"electronic","value":"9783032046246"}],"license":[{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04624-6_10","type":"book-chapter","created":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T05:33:09Z","timestamp":1758000789000},"page":"163-179","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["CHSAM: Efficient Scene Text Segmentation via\u00a0SAM with\u00a0Convolutional Adapters and\u00a0Hierarchical Decoding"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-9277-5131","authenticated-orcid":false,"given":"Jing-Yao","family":"Zhang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9448-4031","authenticated-orcid":false,"given":"Heng","family":"Zhang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6412-9140","authenticated-orcid":false,"given":"Fei","family":"Yin","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,9,17]]},"reference":[{"key":"10_CR1","doi-asserted-by":"crossref","unstructured":"Deepak, K.: Methods for text segmentation from scene images. ELCVIA. Electron. Letters Comput. Vision Image Anal. 13(2), 0032\u20130034 (2014)","DOI":"10.5565\/rev\/elcvia.591"},{"issue":"3","key":"10_CR2","doi-asserted-by":"publisher","first-page":"1509","DOI":"10.1109\/TIP.2017.2656474","volume":"26","author":"Y Tang","year":"2017","unstructured":"Tang, Y., Xiangqian, W.: Scene text detection and segmentation based on cascaded convolution neural networks. IEEE Trans. Image Process. 26(3), 1509\u20131520 (2017)","journal-title":"IEEE Trans. Image Process."},{"key":"10_CR3","doi-asserted-by":"crossref","unstructured":"Qin, S., Ren, P., Kim, S., Manduchi, R.: Robust and accurate text stroke segmentation. In: 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 242\u2013250. IEEE (2018)","DOI":"10.1109\/WACV.2018.00033"},{"key":"10_CR4","unstructured":"Vaswani, A.: Attention is all you need. In: Advances in neural information processing systems, vol. 30 (2017)"},{"key":"10_CR5","unstructured":"Dosovitskiy, A., et\u00a0al. An image is worth 16x16 words: Transformers for image recognition at scale (2020)"},{"key":"10_CR6","doi-asserted-by":"crossref","unstructured":"Kirillov, A., et\u00a0al. Segment anything. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4015\u20134026 (2023)","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"10_CR7","doi-asserted-by":"crossref","unstructured":"Chollet, F., Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1251\u20131258 (2017)","DOI":"10.1109\/CVPR.2017.195"},{"key":"10_CR8","doi-asserted-by":"publisher","first-page":"833","DOI":"10.1007\/978-3-030-01234-2_49","volume-title":"Computer Vision \u2013 ECCV 2018: 15th European Conference, Munich, Germany, September 8\u201314, 2018, Proceedings, Part VII","author":"L-C Chen","year":"2018","unstructured":"Chen, L.-C., Zhu, Y., Papandreou, G., Schroff, F., Adam, H.: Encoder-decoder with atrous separable convolution for semantic image segmentation. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) Computer Vision \u2013 ECCV 2018: 15th European Conference, Munich, Germany, September 8\u201314, 2018, Proceedings, Part VII, pp. 833\u2013851. Springer International Publishing, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01234-2_49"},{"issue":"10","key":"10_CR9","doi-asserted-by":"publisher","first-page":"3349","DOI":"10.1109\/TPAMI.2020.2983686","volume":"43","author":"J Wang","year":"2020","unstructured":"Wang, J., et al.: Deep high-resolution representation learning for visual recognition. IEEE Trans. Pattern Anal. Mach. Intell. 43(10), 3349\u20133364 (2020)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10_CR10","doi-asserted-by":"crossref","unstructured":"Xu,X., Zhang, Z., Wang, Z., Price, B., Wang, Z., Shi, H.: Rethinking text segmentation: A novel dataset and a text-specific refinement approach. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12045\u201312055 (2021)","DOI":"10.1109\/CVPR46437.2021.01187"},{"key":"10_CR11","doi-asserted-by":"crossref","unstructured":"Xu, X., Qi, Z., Ma, J., Zhang, H., Shan, Y., Qie, X.: Bts: a bi-lingual benchmark for text segmentation in the wild. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19152\u201319162 (2022)","DOI":"10.1109\/CVPR52688.2022.01856"},{"key":"10_CR12","doi-asserted-by":"publisher","first-page":"180","DOI":"10.1007\/978-3-031-70549-6_11","volume-title":"Document Analysis and Recognition - ICDAR 2024: 18th International Conference, Athens, Greece, August 30\u2013September 4, 2024, Proceedings, Part V","author":"T-Z Li","year":"2024","unstructured":"Li, T.-Z., Zhang, H., Li, X.-H., Yin, F.: Adaptive scaling and\u00a0refined pyramid feature fusion network for\u00a0scene text segmentation. In: Barney Smith, E.H., Liwicki, M., Peng, L. (eds.) Document Analysis and Recognition - ICDAR 2024: 18th International Conference, Athens, Greece, August 30\u2013September 4, 2024, Proceedings, Part V, pp. 180\u2013195. Springer Nature Switzerland, Cham (2024). https:\/\/doi.org\/10.1007\/978-3-031-70549-6_11"},{"key":"10_CR13","unstructured":"Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: Segformer: simple and efficient design for semantic segmentation with transformers. In: Advances in Neural Information Processing Systems. 34, 12077\u201312090 (2021)"},{"key":"10_CR14","doi-asserted-by":"crossref","unstructured":"Yu, H., Wang, X., Niu, K., Li, B., Xue, X.: Scene text segmentation with text-focused transformers. In: Proceedings of the 31st ACM International Conference on Multimedia, pp. 2898\u20132907 (2023)","DOI":"10.1145\/3581783.3611755"},{"key":"10_CR15","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s11432-017-9189-6","volume":"61","author":"Q Geng","year":"2018","unstructured":"Geng, Q., Zhou, Z., Cao, X.: Survey of recent progress in semantic image segmentation with CNNs. SCIENCE CHINA Inf. Sci. 61, 1\u201318 (2018)","journal-title":"SCIENCE CHINA Inf. Sci."},{"key":"10_CR16","doi-asserted-by":"crossref","unstructured":"Neven, D., De Brabandere, B., Georgoulis, S., Proesmans, M., Van Gool, L.: Towards end-to-end lane detection: an instance segmentation approach. In: 2018 IEEE Intelligent Vehicles Symposium (IV), pp. 286\u2013291. IEEE (2018)","DOI":"10.1109\/IVS.2018.8500547"},{"key":"10_CR17","unstructured":"Ziou, D., Tabbone, S.: Edge detection techniques-an overview. Pattern Recogn. Image Anal.: Adv. Math. Theory Appl. 8(4), 537\u2013559 (1998)"},{"issue":"7","key":"10_CR18","doi-asserted-by":"publisher","first-page":"1079","DOI":"10.1109\/83.701170","volume":"7","author":"SA Hojjatoleslami and Josef Kittler","year":"1998","unstructured":"SA Hojjatoleslami and Josef Kittler: Region growing: a new approach. IEEE Trans. Image Process. 7(7), 1079\u20131084 (1998)","journal-title":"IEEE Trans. Image Process."},{"issue":"2","key":"10_CR19","doi-asserted-by":"publisher","first-page":"109","DOI":"10.1007\/s11263-006-7934-5","volume":"70","author":"Y Boykov","year":"2006","unstructured":"Boykov, Y., Funka-Lea, G.: Graph cuts and efficient ND image segmentation. Int. J. Comput. Vision 70(2), 109\u2013131 (2006)","journal-title":"Int. J. Comput. Vision"},{"issue":"11","key":"10_CR20","doi-asserted-by":"publisher","first-page":"2278","DOI":"10.1109\/5.726791","volume":"86","author":"Y LeCun","year":"1998","unstructured":"LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition. Proc. IEEE 86(11), 2278\u20132324 (1998)","journal-title":"Proc. IEEE"},{"key":"10_CR21","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431\u20133440 (2015)","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"10_CR22","doi-asserted-by":"publisher","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-Net: convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W.M., Frangi, A.F. (eds.) MICCAI 2015. LNCS, vol. 9351, pp. 234\u2013241. Springer, Cham (2015). https:\/\/doi.org\/10.1007\/978-3-319-24574-4_28","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"10_CR23","doi-asserted-by":"crossref","unstructured":"Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CFRs. IEEE Trans. Pattern Anal. Mach. Intell. 40(4), 834\u2013848 (2017)","DOI":"10.1109\/TPAMI.2017.2699184"},{"key":"10_CR24","doi-asserted-by":"crossref","unstructured":"Zheng, S., et\u00a0al.: Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6881\u20136890 (2021)","DOI":"10.1109\/CVPR46437.2021.00681"},{"key":"10_CR25","unstructured":"Chen, J., et al.:. Transunet: Transformers make strong encoders for medical image segmentation. arXiv e-prints, pages arXiv\u20132102 (2021)"},{"key":"10_CR26","unstructured":"Saleem, H., Salim, F., Purcell, C.: STC-VIT: Spatio temporal continuous vision transformer for weather forecasting. arXiv preprint arXiv:2402.17966 (2024)"},{"key":"10_CR27","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"10_CR28","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2025.103547","volume":"102","author":"W Junde","year":"2025","unstructured":"Junde, W., et al.: Medical sam adapter: adapting segment anything model for medical image segmentation. Med. Image Anal. 102, 103547 (2025)","journal-title":"Med. Image Anal."},{"key":"10_CR29","unstructured":"Mo, S., Tian, Y.: Av-sam: Segment anything model meets audio-visual localization and segmentation. arXiv e-prints, pages arXiv\u20132305 (2023)"},{"key":"10_CR30","unstructured":"Zhou, Y., Gu, J., Chiang, T.Y., Xiang, F., Su, H.: Point-sam: promptable 3d segmentation model for point clouds. In: The Thirteenth International Conference on Learning Representations, ICLR (2025)"},{"key":"10_CR31","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American chapter of the Association for Computational Linguistics: Human Language Technologies, volume 1 (long and short papers), pp. 4171\u20134186 (2019)"},{"key":"10_CR32","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., Girshick, R.: Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16000\u201316009 (2022)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"10_CR33","unstructured":"Houlsby, N., et al.: Parameter-efficient transfer learning for NLP. In: International Conference on Machine Learning, pp. 2790\u20132799. PMLR (2019)"},{"key":"10_CR34","unstructured":"Hu, E.J., et\u00a0al. Lora: low-rank adaptation of large language models. ICLR 1(2), 3 (2022)"},{"key":"10_CR35","unstructured":"Howard, A.G., et al.: Mobilenets: efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)"},{"key":"10_CR36","doi-asserted-by":"crossref","unstructured":"Ch\u2019ng, C.K., Chan, C.S.: Total-text: a comprehensive dataset for scene text detection and recognition. In: 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol. 1, pp. 935\u2013942. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.157"},{"key":"10_CR37","doi-asserted-by":"crossref","unstructured":"Long, S., Qin, S., Panteleev, D., Bissacco, A., Fujii, Y., Raptis, M.: Towards end-to-end unified scene text detection and layout analysis. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1049\u20131059 (2022)","DOI":"10.1109\/CVPR52688.2022.00112"},{"key":"10_CR38","doi-asserted-by":"crossref","unstructured":"Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., Savarese, S.: 2. Generalized intersection over union: a metric and a loss for bounding box regression. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 658\u2013666 (2019)","DOI":"10.1109\/CVPR.2019.00075"},{"issue":"1","key":"10_CR39","first-page":"37","volume":"2","author":"D Powers","year":"2011","unstructured":"Powers, D.: Evaluation: from precision, recall and f-measure to roc, informedness, markedness and correlation. J. Mach. Learn. Technol. 2(1), 37\u201363 (2011)","journal-title":"J. Mach. Learn. Technol."},{"issue":"03","key":"10_CR40","doi-asserted-by":"publisher","first-page":"1431","DOI":"10.1109\/TPAMI.2024.3495831","volume":"47","author":"M Ye","year":"2025","unstructured":"Ye, M., et al.: Hi-sam: Marrying segment anything model for hierarchical text segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 47(03), 1431\u20131447 (2025)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04624-6_10","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T05:33:21Z","timestamp":1758000801000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04624-6_10"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,17]]},"ISBN":["9783032046239","9783032046246"],"references-count":40,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04624-6_10","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,9,17]]},"assertion":[{"value":"17 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wuhan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icdar2025","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}