{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T04:38:21Z","timestamp":1758083901565,"version":"3.44.0"},"publisher-location":"Cham","reference-count":25,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783032046260"},{"type":"electronic","value":"9783032046277"}],"license":[{"start":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T00:00:00Z","timestamp":1757980800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T00:00:00Z","timestamp":1757980800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04627-7_33","type":"book-chapter","created":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T02:06:29Z","timestamp":1757988389000},"page":"570-586","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Towards Cross-Modal Retrieval in\u00a0Chinese Cultural Heritage Documents: Dataset and\u00a0Solution"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-0160-6878","authenticated-orcid":false,"given":"Junyi","family":"Yuan","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-3092-4576","authenticated-orcid":false,"given":"Jian","family":"Zhang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9618-8965","authenticated-orcid":false,"given":"Fangyu","family":"Wu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4924-1038","authenticated-orcid":false,"given":"Huanda","family":"Lu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7228-0887","authenticated-orcid":false,"given":"Dongming","family":"Lu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0918-4606","authenticated-orcid":false,"given":"Qiufeng","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,9,16]]},"reference":[{"key":"33_CR1","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2425\u20132433 (2015)","DOI":"10.1109\/ICCV.2015.279"},{"issue":"1","key":"33_CR2","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3631130","volume":"17","author":"M Bahrami","year":"2024","unstructured":"Bahrami, M., Albadvi, A.: Deep learning for identifying Iran\u2019s cultural heritage buildings in need of conservation using image classification and grad-cam. ACM J. Comput. Cult. Heritage 17(1), 1\u201320 (2024)","journal-title":"ACM J. Comput. Cult. Heritage"},{"key":"33_CR3","doi-asserted-by":"crossref","unstructured":"Chen, W., Yao, L., Jin, Q.: Rethinking benchmarks for cross-modal image-text retrieval. In: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1241\u20131251 (2023)","DOI":"10.1145\/3539618.3591758"},{"key":"33_CR4","doi-asserted-by":"crossref","unstructured":"Chen, Z., Liu, G., Zhang, B.W., Ye, F., Yang, Q., Wu, L.: Altclip: altering the language encoder in clip for extended language capabilities. arXiv preprint arXiv:2211.06679 (2022)","DOI":"10.18653\/v1\/2023.findings-acl.552"},{"key":"33_CR5","unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"33_CR6","first-page":"26418","volume":"35","author":"J Gu","year":"2022","unstructured":"Gu, J., et al.: Wukong: a 100 million large-scale Chinese cross-modal pre-training benchmark. Adv. Neural. Inf. Process. Syst. 35, 26418\u201326431 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"33_CR7","unstructured":"Hurst, A., et al.: GPT-4o system card. arXiv preprint arXiv:2410.21276 (2024)"},{"key":"33_CR8","doi-asserted-by":"crossref","unstructured":"Jahagirdar, S., Gangisetty, S., Mishra, A.: Look, read and ask: learning to ask questions by reading text in images. In: International Conference on Document Analysis and Recognition, pp. 335\u2013349. Springer (2021)","DOI":"10.1007\/978-3-030-86549-8_22"},{"key":"33_CR9","doi-asserted-by":"crossref","unstructured":"Lan, W., Li, X., Dong, J.: Fluency-guided cross-lingual image captioning. In: Proceedings of the 25th ACM International Conference on Multimedia, pp. 1549\u20131557 (2017)","DOI":"10.1145\/3123266.3123366"},{"issue":"9","key":"33_CR10","doi-asserted-by":"publisher","first-page":"2347","DOI":"10.1109\/TMM.2019.2896494","volume":"21","author":"X Li","year":"2019","unstructured":"Li, X., et al.: COCO-CN for cross-lingual image tagging, captioning, and retrieval. IEEE Trans. Multimedia 21(9), 2347\u20132360 (2019)","journal-title":"IEEE Trans. Multimedia"},{"key":"33_CR11","first-page":"1141","volume":"37","author":"Y Li","year":"2024","unstructured":"Li, Y., Wang, Y., Fu, Y., Ru, D., Zhang, Z., He, T.: Unified lexical representation for interpretable visual-language alignment. Adv. Neural. Inf. Process. Syst. 37, 1141\u20131161 (2024)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"33_CR12","unstructured":"Liu, J., Krotova, T., Yezhova, O., Pashkevich, K.: Traditional elements of Chinese culture in logo design. In: International Circular of Graphic Education and Research, pp. 66\u201375 (2018)"},{"key":"33_CR13","unstructured":"Liu, Y., et al.: Roberta: a robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692 (2019)"},{"issue":"6","key":"33_CR14","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3453476","volume":"54","author":"TTH Nguyen","year":"2021","unstructured":"Nguyen, T.T.H., Jatowt, A., Coustaty, M., Doucet, A.: Survey of post-OCR processing approaches. ACM Comput. Surv. (CSUR) 54(6), 1\u201337 (2021)","journal-title":"ACM Comput. Surv. (CSUR)"},{"key":"33_CR15","unstructured":"Nilson, T., Thorell, K.: Cultural Heritage Preservation: The Past, the Present and the Future. Halmstad University Press (2018)"},{"key":"33_CR16","doi-asserted-by":"crossref","unstructured":"Pan, Z., Wu, F., Zhang, B.: Fine-grained image-text matching by cross-modal hard aligning network. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19275\u201319284 (2023)","DOI":"10.1109\/CVPR52729.2023.01847"},{"issue":"3\u20134","key":"33_CR17","doi-asserted-by":"publisher","first-page":"1216","DOI":"10.1016\/j.gr.2013.08.017","volume":"26","author":"J Qu","year":"2014","unstructured":"Qu, J., Cao, S., Li, G., Niu, Q., Feng, Q.: Conservation of natural and cultural heritage in Dunhuang, China. Gondwana Res. 26(3\u20134), 1216\u20131221 (2014)","journal-title":"Gondwana Res."},{"key":"33_CR18","unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PmLR (2021)"},{"key":"33_CR19","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2024.124811","volume":"255","author":"F Wu","year":"2024","unstructured":"Wu, F., et al.: Discriminative feature enhancement network for few-shot classification and beyond. Expert Syst. Appl. 255, 124811 (2024)","journal-title":"Expert Syst. Appl."},{"key":"33_CR20","doi-asserted-by":"crossref","unstructured":"Xie, C., et al.: CCMB: a large-scale Chinese cross-modal benchmark. In: Proceedings of the 31st ACM International Conference on Multimedia, pp. 4219\u20134227 (2023)","DOI":"10.1145\/3581783.3611877"},{"key":"33_CR21","unstructured":"Yang, A., et al.: Chinese clip: contrastive vision-language pretraining in Chinese. arXiv preprint arXiv:2211.01335 (2022)"},{"key":"33_CR22","unstructured":"Yin, Y., et al.: Sea: supervised embedding alignment for token-level visual-textual integration in MLLMs. arXiv preprint arXiv:2408.11813 (2024)"},{"key":"33_CR23","unstructured":"Yu, T., et al.: Dunhuang grottoes painting dataset and benchmark. arXiv preprint arXiv:1907.04589 (2019)"},{"key":"33_CR24","doi-asserted-by":"crossref","unstructured":"Zhang, J., Huang, J., Jin, S., Lu, S.: Vision-language models for vision tasks: a survey. IEEE Trans. Pattern Anal. Mach. Intell. (2024)","DOI":"10.1109\/TPAMI.2024.3369699"},{"issue":"52","key":"33_CR25","first-page":"42","volume":"11","author":"M \u017buchowska","year":"2013","unstructured":"\u017buchowska, M.: From china to palmyra: the value of silk. \u015awiatowit 11(52), 42\u201357 (2013)","journal-title":"\u015awiatowit"}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04627-7_33","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T02:06:38Z","timestamp":1757988398000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04627-7_33"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,16]]},"ISBN":["9783032046260","9783032046277"],"references-count":25,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04627-7_33","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,9,16]]},"assertion":[{"value":"16 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wuhan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icdar2025","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}