{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:54:17Z","timestamp":1775004857768,"version":"3.50.1"},"publisher-location":"Cham","reference-count":31,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032184733","type":"print"},{"value":"9783032184740","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-18474-0_8","type":"book-chapter","created":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T23:52:24Z","timestamp":1775001144000},"page":"101-114","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Vision-Language Integration for\u00a0Image Captioning Using Vision Transformers and\u00a0GPT-J"],"prefix":"10.1007","author":[{"given":"Ali","family":"Alfatemi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mohamed","family":"Rahouti","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mohammed","family":"Aledhari","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nasir","family":"Ghani","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Abdellah","family":"Chehri","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gwanggil","family":"Jeon","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,4,1]]},"reference":[{"key":"8_CR1","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"417","DOI":"10.1007\/978-3-030-58520-4_25","volume-title":"Computer Vision \u2013 ECCV 2020","author":"D Gurari","year":"2020","unstructured":"Gurari, D., Zhao, Y., Zhang, M., Bhattacharya, N.: Captioning images taken by people who are blind. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12362, pp. 417\u2013434. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58520-4_25"},{"key":"8_CR2","doi-asserted-by":"crossref","unstructured":"Safiya, K., Pandian, R.: A real-time image captioning framework using computer vision to help the visually impaired, Multimedia Tools and Applications, pp.\u00a01\u201326 (2023)","DOI":"10.1109\/GCAT59970.2023.10353449"},{"key":"8_CR3","doi-asserted-by":"publisher","first-page":"437","DOI":"10.1613\/jair.1.13113","volume":"73","author":"P Dognin","year":"2022","unstructured":"Dognin, P., et al.: Image captioning as an assistive technology: lessons learned from VIZWIZ 2020 challenge. J. Artif. Intell. Res. 73, 437\u2013459 (2022)","journal-title":"J. Artif. Intell. Res."},{"key":"8_CR4","doi-asserted-by":"publisher","first-page":"558","DOI":"10.1016\/j.procs.2024.09.461","volume":"246","author":"A Alfatemi","year":"2024","unstructured":"Alfatemi, A., Jamal, S.A., Paykari, N., Rahouti, M., Chehri, A.: Multi-label classification with deep learning and manual data collection for identifying similar bird species. Proc. Comput. Sci. 246, 558\u2013565 (2024)","journal-title":"Proc. Comput. Sci."},{"key":"8_CR5","doi-asserted-by":"publisher","first-page":"548","DOI":"10.1016\/j.procs.2024.09.460","volume":"246","author":"A Alfatemi","year":"2024","unstructured":"Alfatemi, A., Jamal, S.A., Paykari, N., Rahouti, M., Amin, R., Chehri, A.: Refining bird species identification through GAN-enhanced data augmentation and deep learning models. Proc. Comput. Sci. 246, 548\u2013557 (2024)","journal-title":"Proc. Comput. Sci."},{"key":"8_CR6","doi-asserted-by":"publisher","first-page":"1420","DOI":"10.1109\/ACCESS.2020.3047091","volume":"9","author":"W Li","year":"2020","unstructured":"Li, W., et al.: The traffic scene understanding and prediction based on image captioning. IEEE Access 9, 1420\u20131427 (2020)","journal-title":"IEEE Access"},{"key":"8_CR7","doi-asserted-by":"crossref","unstructured":"Yuan, J., et\u00a0al.: Rethinking multimodal content moderation from an asymmetric angle with mixed-modality, In: IEEE\/CVF Winter Conference on Applications of Computer Vision, pp.\u00a08532\u20138542 (2024)","DOI":"10.1109\/WACV57701.2024.00834"},{"key":"8_CR8","unstructured":"Yang, J.: The investigation of bionic-companionship framework for Humanoid Service Robotics (HSR) with deep learning image captioning. PhD thesis, Cardiff Metropolitan University (2024)"},{"key":"8_CR9","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth 16x16 words: transformers for image recognition at scale, arXiv preprint arXiv:2010.11929 (2020)"},{"key":"8_CR10","unstructured":"Wang, B.: Mesh-Transformer-JAX: Model-parallel implementation of transformer language model with JAX (2021). https:\/\/github.com\/kingoflolz\/mesh-transformer-jax"},{"key":"8_CR11","unstructured":"Wang, B., Komatsuzaki, A.: GPT-J-6B: A 6 Billion parameter autoregressive language model (2021). https:\/\/github.com\/kingoflolz\/mesh-transformer-jax"},{"issue":"8","key":"8_CR12","first-page":"9","volume":"1","author":"A Radford","year":"2019","unstructured":"Radford, A., et al.: Language models are unsupervised multitask learners. OpenAI blog 1(8), 9 (2019)","journal-title":"OpenAI blog"},{"key":"8_CR13","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"T-Y Lin","year":"2014","unstructured":"Lin, T.-Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"8_CR14","unstructured":"Lin, C.-Y.: Rouge: a package for automatic evaluation of summaries, text summarization branches out, pp.\u00a074\u201381 (2004)"},{"key":"8_CR15","doi-asserted-by":"crossref","unstructured":"Anderson, P., et\u00a0al.: Bottom-up and top-down attention for image captioning and visual question answering, In: IEEE CVPR, pp.\u00a06077\u20136086 (2018)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"8_CR16","doi-asserted-by":"crossref","unstructured":"Pan, Y., Yao, T., Li, Y., Mei, T.: X-linear attention networks for image captioning, In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp.\u00a010971\u201310980 (2020)","DOI":"10.1109\/CVPR42600.2020.01098"},{"key":"8_CR17","doi-asserted-by":"crossref","unstructured":"Zhang, X., et\u00a0al.: Rstnet: captioning with adaptive attention on visual and non-visual words, In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp.\u00a015465\u201315474 (2021)","DOI":"10.1109\/CVPR46437.2021.01521"},{"key":"8_CR18","doi-asserted-by":"crossref","unstructured":"Vinyals, O.,et\u00a0al.: Show and tell: A neural image caption generator, In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.\u00a03156\u20133164 (2015)","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"8_CR19","doi-asserted-by":"crossref","unstructured":"Lu, J., et\u00a0al.: Knowing when to look: adaptive attention via a visual sentinel for image captioning, In: IEEE CVPR, pp.\u00a0375\u2013383 (2017)","DOI":"10.1109\/CVPR.2017.345"},{"key":"8_CR20","doi-asserted-by":"publisher","first-page":"4321","DOI":"10.1109\/TIP.2022.3183434","volume":"31","author":"J Ji","year":"2022","unstructured":"Ji, J., et al.: Knowing what to learn: a metric-oriented focal mechanism for image captioning. IEEE Trans. Image Process. 31, 4321\u20134335 (2022)","journal-title":"IEEE Trans. Image Process."},{"issue":"1","key":"8_CR21","doi-asserted-by":"publisher","first-page":"190","DOI":"10.1186\/s12911-022-01938-y","volume":"22","author":"A Alfatemi","year":"2022","unstructured":"Alfatemi, A., et al.: Patient subgrouping with distinct survival rates via integration of multiomics data on a grassmann manifold. BMC Med. Inform. Decis. Mak. 22(1), 190 (2022)","journal-title":"BMC Med. Inform. Decis. Mak."},{"key":"8_CR22","doi-asserted-by":"crossref","unstructured":"Ma, Y.,et\u00a0al.: Knowing what it is: semantic-enhanced dual attention transformer, IEEE Trans. Multimedia (2022)","DOI":"10.1109\/TMM.2022.3164787"},{"key":"8_CR23","unstructured":"Zhang, J., et\u00a0al.: Adaptive semantic-enhanced transformer for image captioning, IEEE Trans. Neural Netw. Learn. Syst. (2022)"},{"key":"8_CR24","first-page":"1","volume":"60","author":"Y Li","year":"2021","unstructured":"Li, Y., et al.: Recurrent attention and semantic gate for remote sensing image captioning. IEEE Trans. Geosci. Remote Sens. 60, 1\u201316 (2021)","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"8_CR25","unstructured":"Vaswani, A., et\u00a0al.: Attention is all you need, Adv. Neural Inf. Process. Syst. 30 (2017)"},{"issue":"8","key":"8_CR26","doi-asserted-by":"publisher","first-page":"2939","DOI":"10.1007\/s00371-021-02166-7","volume":"38","author":"K Bayoudh","year":"2022","unstructured":"Bayoudh, K., et al.: A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets. Vis. Comput. 38(8), 2939\u20132970 (2022)","journal-title":"Vis. Comput."},{"key":"8_CR27","first-page":"24261","volume":"34","author":"IO Tolstikhin","year":"2021","unstructured":"Tolstikhin, I.O., et al.: MLP-mixer: An all-MLP architecture for vision. Adv. Neural. Inf. Process. Syst. 34, 24261\u201324272 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"1","key":"8_CR28","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1007\/s11633-022-1369-5","volume":"20","author":"F-L Chen","year":"2023","unstructured":"Chen, F.-L., et al.: Vlp: a survey on vision-language pre-training. Mach. Intell. Res. 20(1), 38\u201356 (2023)","journal-title":"Mach. Intell. Res."},{"key":"8_CR29","first-page":"13041","volume":"34","author":"L Zhou","year":"2020","unstructured":"Zhou, L., et al.: Unified vision-language pre-training for image captioning and VQA. Proc. AAAI Conf. Artif. Intell. 34, 13041\u201313049 (2020)","journal-title":"Proc. AAAI Conf. Artif. Intell."},{"key":"8_CR30","doi-asserted-by":"crossref","unstructured":"Yang, X., et\u00a0al.: Causal attention for vision-language tasks, In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp.\u00a09847\u20139857 (2021)","DOI":"10.1109\/CVPR46437.2021.00972"},{"key":"8_CR31","first-page":"4514","volume":"34","author":"H Xue","year":"2021","unstructured":"Xue, H., et al.: Probing inter-modality: visual parsing with self-attention for vision-and-language pre-training. Adv. Neural. Inf. Process. Syst. 34, 4514\u20134528 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."}],"container-title":["Lecture Notes in Computer Science","Applied Imagery Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-18474-0_8","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T23:52:26Z","timestamp":1775001146000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-18474-0_8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9783032184733","9783032184740"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-18474-0_8","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"1 April 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"AIPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Applied Imagery Pattern Recognition Workshop","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Washington DC, WA","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"USA","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 October 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 October 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"53","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"aipr2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/sites.google.com\/aipr-workshop.org\/aipr","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}