{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,26]],"date-time":"2025-11-26T23:07:22Z","timestamp":1764198442799,"version":"3.46.0"},"publisher-location":"Singapore","reference-count":25,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819549597"},{"type":"electronic","value":"9789819549603"}],"license":[{"start":{"date-parts":[[2025,11,27]],"date-time":"2025-11-27T00:00:00Z","timestamp":1764201600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,27]],"date-time":"2025-11-27T00:00:00Z","timestamp":1764201600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-4960-3_17","type":"book-chapter","created":{"date-parts":[[2025,11,26]],"date-time":"2025-11-26T04:58:14Z","timestamp":1764133094000},"page":"210-221","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["CLIP-AMR-GPT: Enhancing Image Captioning via Cross-Modal Semantics Fusion and GPT-Based Re-ranking"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-7543-5207","authenticated-orcid":false,"given":"Nguyen Van","family":"Thinh","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8925-5549","authenticated-orcid":false,"given":"Tran Van","family":"Lang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4329-7428","authenticated-orcid":false,"given":"Nguyen Minh","family":"Hai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,11,27]]},"reference":[{"key":"17_CR1","doi-asserted-by":"crossref","unstructured":"Abdulgalil, H.D., Basir, O.A.: Next-generation image captioning: a survey of methodologies and emerging challenges from transformers to multimodal large language models. Nat. Lang. Process. J., 100159 (2025)","DOI":"10.1016\/j.nlp.2025.100159"},{"key":"17_CR2","doi-asserted-by":"crossref","unstructured":"Abinaya, S., Deepak, M., Alphonse, A.S.: Enhanced image captioning using Bahdanau attention mechanism and heuristic beam search algorithm. IEEE Access (2024)","DOI":"10.1109\/ACCESS.2024.3431091"},{"issue":"12","key":"17_CR3","doi-asserted-by":"publisher","first-page":"34219","DOI":"10.1007\/s11042-024-18307-8","volume":"83","author":"AS Al-Shamayleh","year":"2024","unstructured":"Al-Shamayleh, A.S., Adwan, O., Alsharaiah, M.A., Hussein, A.H., Kharma, Q.M., Eke, C.I.: A comprehensive literature review on image captioning methods and metrics based on deep learning technique. Multimedia Tools Appl. 83(12), 34219\u201334268 (2024)","journal-title":"Multimedia Tools Appl."},{"key":"17_CR4","doi-asserted-by":"publisher","first-page":"1270850","DOI":"10.3389\/fnins.2023.1270850","volume":"17","author":"T Bai","year":"2023","unstructured":"Bai, T., Zhou, S., Pang, Y., Luo, J., Wang, H., Du, Y.: An image caption model based on attention mechanism and deep reinforcement learning. Front. Neurosci. 17, 1270850 (2023)","journal-title":"Front. Neurosci."},{"key":"17_CR5","unstructured":"Banarescu, L., et al.: Abstract meaning representation for Sembanking. In: Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse, pp. 178\u2013186 (2013)"},{"key":"17_CR6","doi-asserted-by":"crossref","unstructured":"Barraco, M., Cornia, M., Cascianelli, S., Baraldi, L., Cucchiara, R.: The unreasonable effectiveness of clip features for image captioning: an experimental analysis. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4662\u20134670 (2022)","DOI":"10.1109\/CVPRW56347.2022.00512"},{"issue":"2","key":"17_CR7","doi-asserted-by":"publisher","first-page":"112","DOI":"10.1007\/s11760-024-03721-0","volume":"19","author":"J Guo","year":"2025","unstructured":"Guo, J., Li, Y., Cheng, G., Li, W.: Based-clip early fusion transformer for image caption. SIViP 19(2), 112 (2025)","journal-title":"SIViP"},{"key":"17_CR8","doi-asserted-by":"crossref","unstructured":"Jamil, A., et\u00a0al.: Deep learning approaches for image captioning: opportunities, challenges and future potential. IEEE Access (2024)","DOI":"10.1109\/ACCESS.2024.3365528"},{"key":"17_CR9","doi-asserted-by":"crossref","unstructured":"Karpathy, A., Fei-Fei, L.: Deep visual-semantic alignments for generating image descriptions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3128\u20133137 (2015)","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"17_CR10","doi-asserted-by":"crossref","unstructured":"Li, Y., Pan, Y., Yao, T., Mei, T.: Comprehending and ordering semantics for image captioning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 17990\u201317999 (2022)","DOI":"10.1109\/CVPR52688.2022.01746"},{"key":"17_CR11","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"17_CR12","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Adv. Neural Inf. Process. Syst. 32 (2019)"},{"key":"17_CR13","doi-asserted-by":"crossref","unstructured":"Pan, Y., Yao, T., Li, Y., Mei, T.: X-linear attention networks for image captioning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10971\u201310980 (2020)","DOI":"10.1109\/CVPR42600.2020.01098"},{"key":"17_CR14","doi-asserted-by":"publisher","DOI":"10.1016\/j.image.2025.117273","volume":"133","author":"MJ Parseh","year":"2025","unstructured":"Parseh, M.J., Ghadiri, S.: Graph-based image captioning with semantic and spatial features. Signal Process. Image Commun. 133, 117273 (2025)","journal-title":"Signal Process. Image Commun."},{"key":"17_CR15","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PmLR (2021)"},{"issue":"6","key":"17_CR16","doi-asserted-by":"publisher","first-page":"1137","DOI":"10.1109\/TPAMI.2016.2577031","volume":"39","author":"S Ren","year":"2016","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell. 39(6), 1137\u20131149 (2016)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"3","key":"17_CR17","doi-asserted-by":"publisher","first-page":"1459","DOI":"10.1007\/s11831-024-10190-8","volume":"32","author":"G Salgotra","year":"2025","unstructured":"Salgotra, G., Abrol, P., Selwal, A.: A survey on automatic image captioning approaches: contemporary trends and future perspectives. Arch. Comput. Methods Eng. 32(3), 1459\u20131497 (2025)","journal-title":"Arch. Comput. Methods Eng."},{"issue":"7","key":"17_CR18","doi-asserted-by":"publisher","first-page":"10981","DOI":"10.1007\/s11042-022-13793-0","volume":"82","author":"H Sharma","year":"2023","unstructured":"Sharma, H., Srivastava, S.: Multilevel attention and relation network based image captioning model. Multimedia Tools Appl. 82(7), 10981\u201311003 (2023)","journal-title":"Multimedia Tools Appl."},{"issue":"1","key":"17_CR19","doi-asserted-by":"publisher","first-page":"539","DOI":"10.1109\/TPAMI.2022.3148210","volume":"45","author":"M Stefanini","year":"2022","unstructured":"Stefanini, M., Cornia, M., Baraldi, L., Cascianelli, S., Fiameni, G., Cucchiara, R.: From show to tell: a survey on deep learning-based image captioning. IEEE Trans. Pattern Anal. Mach. Intell. 45(1), 539\u2013559 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"4","key":"17_CR20","first-page":"326","volume":"40","author":"N Van Thinh","year":"2024","unstructured":"Van Thinh, N., Van Lang, T., et al.: OD-VR-CAP: image captioning based on detecting and predicting relationships between objects. J. Comput. Sci. Cybernet. 40(4), 326\u2013345 (2024)","journal-title":"J. Comput. Sci. Cybernet."},{"key":"17_CR21","doi-asserted-by":"crossref","unstructured":"Van\u00a0Thinh, N., Van\u00a0Lang, T., et\u00a0al.: Integrating abstract meaning representation to enhance transformer-based image captioning. IEEE Access (2025)","DOI":"10.1109\/ACCESS.2025.3584128"},{"key":"17_CR22","doi-asserted-by":"crossref","unstructured":"Van\u00a0Thinh, N., Van\u00a0Lang, T., et\u00a0al.: RGTranCNet: effective image captioning model using cross-attention and semantic knowledge. Vietnam J. Sci. Technol. (2025)","DOI":"10.15625\/2525-2518\/22381"},{"key":"17_CR23","unstructured":"Vaswani, A., et al.: Attention is all you need. Adv. Neural Inf. Process. Syst. 30 (2017)"},{"key":"17_CR24","doi-asserted-by":"crossref","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3156\u20133164 (2015)","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"17_CR25","unstructured":"Xu, K., et al.: Show, attend and tell: neural image caption generation with visual attention. In: International Conference on Machine Learning, pp. 2048\u20132057. PMLR (2015)"}],"container-title":["Lecture Notes in Computer Science","Multi-disciplinary Trends in Artificial Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-4960-3_17","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,26]],"date-time":"2025-11-26T23:02:44Z","timestamp":1764198164000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-4960-3_17"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,27]]},"ISBN":["9789819549597","9789819549603"],"references-count":25,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-4960-3_17","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,11,27]]},"assertion":[{"value":"27 November 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"MIWAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multi-disciplinary Trends in Artificial Intelligence","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Ho Chi Minh City","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Vietnam","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"3 December 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"5 December 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"miwai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/miwai25.miwai.org","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}