{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T15:17:58Z","timestamp":1780413478313,"version":"3.54.1"},"publisher-location":"Cham","reference-count":34,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032093677","type":"print"},{"value":"9783032093684","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,11,24]],"date-time":"2025-11-24T00:00:00Z","timestamp":1763942400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,24]],"date-time":"2025-11-24T00:00:00Z","timestamp":1763942400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-09368-4_5","type":"book-chapter","created":{"date-parts":[[2025,11,23]],"date-time":"2025-11-23T18:14:09Z","timestamp":1763921649000},"page":"71-91","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Text Prompt to Image Generation for Classification of Similar and Non-similar Scene Images to Improve Text Spotting Performance"],"prefix":"10.1007","author":[{"given":"Surajit","family":"Mukherjee","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shivakumara","family":"Palaiahnakote","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sukalpa","family":"Chanda","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Umapada","family":"Pal","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tong","family":"Lu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2025,11,24]]},"reference":[{"key":"5_CR1","doi-asserted-by":"crossref","unstructured":"Baek, Y., Lee, B., Han, D., Yun, S., Lee, H.: Character region awareness for text detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9365\u20139374 (2019)","DOI":"10.1109\/CVPR.2019.00959"},{"issue":"2","key":"5_CR2","doi-asserted-by":"publisher","first-page":"423","DOI":"10.1109\/TPAMI.2018.2798607","volume":"41","author":"T Baltru\u0161aitis","year":"2018","unstructured":"Baltru\u0161aitis, T., Ahuja, C., Morency, L.P.: Multimodal machine learning: a survey and taxonomy. IEEE Trans. Pattern Anal. Mach. Intell. 41(2), 423\u2013443 (2018)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"5_CR3","doi-asserted-by":"publisher","first-page":"14804","DOI":"10.1109\/ACCESS.2023.3243854","volume":"11","author":"A Barua","year":"2023","unstructured":"Barua, A., Ahmed, M.U., Begum, S.: A systematic literature review on multimodal machine learning: applications, challenges, gaps and future directions. IEEE Access 11, 14804\u201314831 (2023)","journal-title":"IEEE Access"},{"key":"5_CR4","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.122016","volume":"238","author":"Y Bounab","year":"2024","unstructured":"Bounab, Y., Oussalah, M., Arhab, N., Bekhouche, S.: Towards job screening and personality traits estimation from video transcriptions. Expert Syst. Appl. 238, 122016 (2024)","journal-title":"Expert Syst. Appl."},{"key":"5_CR5","doi-asserted-by":"publisher","first-page":"9353","DOI":"10.52202\/075280-0410","volume":"36","author":"J Chen","year":"2023","unstructured":"Chen, J., Huang, Y., Lv, T., Cui, L., Chen, Q., Wei, F.: Textdiffuser: diffusion models as text painters. Adv. Neural. Inf. Process. Syst. 36, 9353\u20139387 (2023)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"5_CR6","doi-asserted-by":"crossref","unstructured":"Ch\u2019ng, C.K., Chan, C.S.: Total-text: a comprehensive dataset for scene text detection and recognition. In: 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol. 1, pp. 935\u2013942. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.157"},{"key":"5_CR7","doi-asserted-by":"crossref","unstructured":"Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: StarGAN: unified generative adversarial networks for multi-domain image-to-image translation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8789\u20138797 (2018)","DOI":"10.1109\/CVPR.2018.00916"},{"key":"5_CR8","doi-asserted-by":"crossref","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bi-directional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol. 1 (long and short papers), pp. 4171\u20134186 (2019)","DOI":"10.18653\/v1\/N19-1423"},{"key":"5_CR9","unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"5_CR10","doi-asserted-by":"crossref","unstructured":"El Houby, E.M.: Covid-19 detection from chest x-ray images using transfer learning. Sci. Rep. 14(1), 11639 (2024)","DOI":"10.1038\/s41598-024-61693-0"},{"key":"5_CR11","doi-asserted-by":"crossref","unstructured":"Huang, X., Liu, M.Y., Belongie, S., Kautz, J.: Multimodal unsupervised image-to-image translation. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 172\u2013189 (2018)","DOI":"10.1007\/978-3-030-01219-9_11"},{"key":"5_CR12","doi-asserted-by":"crossref","unstructured":"Isola, P., Zhu, J.Y., Zhou, T., Efros, A.A.: Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1125\u20131134 (2017)","DOI":"10.1109\/CVPR.2017.632"},{"key":"5_CR13","doi-asserted-by":"crossref","unstructured":"Karatzas, D., et al.: ICDAR 2013 robust reading competition. In: 2013 12th International Conference on Document Analysis and Recognition, pp. 1484\u20131493. IEEE (2013)","DOI":"10.1109\/ICDAR.2013.221"},{"key":"5_CR14","unstructured":"Kiela, D., Bhooshan, S., Firooz, H., Testuggine, D.: Supervised multimodal bi-transformers for classifying images and text. CoRR abs\/1909.02950 (2019). http:\/\/arxiv.org\/abs\/1909.02950"},{"key":"5_CR15","doi-asserted-by":"crossref","unstructured":"Kwenda, C., Gwetu, M.V., Fonou-Dombeu, J.V.: Forest image classification based on deep learning and XGBoost algorithm. In: International Conference on Computational Science, pp. 217\u2013229. Springer (2023)","DOI":"10.1007\/978-3-031-36027-5_16"},{"key":"5_CR16","doi-asserted-by":"publisher","first-page":"2763","DOI":"10.1007\/s11263-020-01309-y","volume":"128","author":"Y Li","year":"2020","unstructured":"Li, Y., et al.: CR- Net: a deep classification-regression network for multimodal apparent personality analysis. Int. J. Comput. Vision 128, 2763\u20132780 (2020)","journal-title":"Int. J. Comput. Vision"},{"key":"5_CR40","unstructured":"Li, S., Tang, H.: Multimodal alignment and fusion: a survey. arXiv preprint arXiv:2411.17040 (2024)"},{"issue":"11","key":"5_CR17","first-page":"8048","volume":"44","author":"Y Liu","year":"2021","unstructured":"Liu, Y., et al.: ABCNet V2: adaptive bezier-curve network for real-time end-to-end text spotting. IEEE Trans. Pattern Anal. Mach. Intell. 44(11), 8048\u20138064 (2021)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"5_CR18","doi-asserted-by":"crossref","unstructured":"Purkayastha, K., Sarkar, S., Palaiahnakote, S., Pal, U., Ghosal, P.: DATR: domain agnostic text recognizer. In: International Conference on Pattern Recognition, pp. 220\u2013235. Springer (2025)","DOI":"10.1007\/978-3-031-78447-7_15"},{"key":"5_CR19","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10684\u201310695 (2022)","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"5_CR20","unstructured":"Tan, M., Le, Q.: EfficientNet: rethinking model scaling for convolutional neural networks. In: International Conference on Machine Learning, pp. 6105\u20136114. PMLR (2019)"},{"issue":"2","key":"5_CR21","first-page":"1849","volume":"12","author":"K Thammarak","year":"2022","unstructured":"Thammarak, K., Kongkla, P., Sirisathitkul, Y., Intakosum, S.: Comparative analysis of tesseract and google cloud vision for that vehicle registration certificate. Int. J. Electr. Comput. Eng. 12(2), 1849\u20131858 (2022)","journal-title":"Int. J. Electr. Comput. Eng."},{"key":"5_CR22","doi-asserted-by":"crossref","unstructured":"Thapa, L., Pandey, A., Gupta, D., Deep, A., Garg, R.: A framework for personality prediction for e-recruitment using machine learning algorithms. In: 2024 14th International Conference on Cloud Computing, Data Science Engineering (Confluence), pp. 1\u20135 (2024)","DOI":"10.1109\/Confluence60223.2024.10463354"},{"key":"5_CR23","doi-asserted-by":"crossref","unstructured":"Wang, K., Babenko, B., Belongie, S.: End-to-end scene text recognition. In: 2011 International Conference on Computer Vision, pp. 1457\u20131464. IEEE (2011)","DOI":"10.1109\/ICCV.2011.6126402"},{"key":"5_CR24","doi-asserted-by":"crossref","unstructured":"Wang, W., et al.: Shape robust text detection with progressive scale expansion network. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9336\u20139345 (2019)","DOI":"10.1109\/CVPR.2019.00956"},{"key":"5_CR25","doi-asserted-by":"crossref","unstructured":"Ye, M., et al.: DeepSolo: let trans former decoder with explicit points solo for text spotting. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19348\u201319357 (2023)","DOI":"10.1109\/CVPR52729.2023.01854"},{"key":"5_CR26","unstructured":"Yuliang, L., Lianwen, J., Shuaitao, Z., Sheng, Z.: Detecting curve text in the wild: new dataset and new solution. arXiv preprint arXiv:1712.02170 (2017)"},{"key":"5_CR27","doi-asserted-by":"crossref","unstructured":"Zhang, L., Chen, X., Wang, Y., Lu, Y., Qiao, Y.: Brush your text: synthesize any scene text on images via diffusion model. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 7215\u20137223 (2024)","DOI":"10.1609\/aaai.v38i7.28550"},{"key":"5_CR28","unstructured":"Zhang, L.: Fooocus [Computer software] (2024). https:\/\/github.com\/lllyasviel\/Fooocus"},{"key":"5_CR29","doi-asserted-by":"publisher","first-page":"73","DOI":"10.1016\/j.patrec.2019.01.006","volume":"130","author":"X Zhang","year":"2020","unstructured":"Zhang, X., Huang, Y., Zou, Q., Pei, Y., Zhang, R., Wang, S.: A hybrid convolutional neural network for sketch recognition. Pattern Recogn. Lett. 130, 73\u201382 (2020)","journal-title":"Pattern Recogn. Lett."},{"key":"5_CR30","doi-asserted-by":"crossref","unstructured":"Zhang, X., Su, Y., Tripathi, S., Tu, Z.: Text spotting transformers. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9519\u20139528 (2022)","DOI":"10.1109\/CVPR52688.2022.00930"},{"key":"5_CR31","doi-asserted-by":"crossref","unstructured":"Zhou, X., et al.: East: an efficient and accurate scene text detector. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5551\u20135560 (2017)","DOI":"10.1109\/CVPR.2017.283"},{"key":"5_CR32","doi-asserted-by":"crossref","unstructured":"Zhu, J.Y., Park, T., Isola, P., Efros, A.A.: Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2223\u20132232 (2017a)","DOI":"10.1109\/ICCV.2017.244"},{"key":"5_CR33","unstructured":"Zhu, J.Y., et al.: Toward multimodal image-to-image translation. Adv. Neural Inf. Process. Syst. 30 (2017b)"}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2025 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-09368-4_5","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T14:58:47Z","timestamp":1780412327000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-09368-4_5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,24]]},"ISBN":["9783032093677","9783032093684"],"references-count":34,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-09368-4_5","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,24]]},"assertion":[{"value":"24 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wuhan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icdar2025","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}