{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T20:56:40Z","timestamp":1768942600764,"version":"3.49.0"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T00:00:00Z","timestamp":1760227200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T00:00:00Z","timestamp":1760227200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,12]]},"DOI":"10.1109\/cvmi66673.2025.11337243","type":"proceedings-article","created":{"date-parts":[[2026,1,19]],"date-time":"2026-01-19T20:52:59Z","timestamp":1768855979000},"page":"1-6","source":"Crossref","is-referenced-by-count":0,"title":["GLoHi-Cap: Gated Multimodal Fusion with Spatial Object Localization for Hindi Image Captioning"],"prefix":"10.1109","author":[{"given":"Himanshu","family":"Sharma","sequence":"first","affiliation":[{"name":"School of CSET, Bennett University,Greater Noida,India"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Devanand","family":"Padha","sequence":"additional","affiliation":[{"name":"Model Institute of Engineering &#x0026; Technology,Department of CSE,Kot Bhalwal,Jammu,India"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yashwant","family":"Singh","sequence":"additional","affiliation":[{"name":"Central University of Jammu,Department of CSIT,Rahya-Suchani,Jammu,India"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-023-10488-2"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3295748"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/s13735-024-00328-6"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.23919\/JSEE.2023.000035"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1613\/jair.3994"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-1005"},{"key":"ref7","article-title":"Collective generation of natural image de-scriptions","volume-title":"In Annual Meeting of the Association for Computational Linguistics","author":"Kuznetsova","year":"2012"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref9","first-page":"595","article-title":"Multimodal neural language models","volume-title":"In International conference on machine learning","author":"Kiros","year":"2014"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.5555\/3045118.3045336"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-024-19259-9"},{"key":"ref12","first-page":"9","author":"Yang","year":"2015","journal-title":"Review Networks for Caption Generation"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2642953"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2855406"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3475633"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3332098"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00425"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-021-11106-5"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/3422668"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2025.3564873"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ic2e362166.2024.10827396"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-15561-1_2"},{"key":"ref23","article-title":"Image captioning: Transforming objects into words","volume":"32","author":"Herdade","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2947482"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01034"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3282444"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2024.3423790"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-025-01801-w"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICAISC64594.2025.10959639"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCECE48148.2020.9223087"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/SMC52423.2021.9658586"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.procs.2023.01.049"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095091"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2025.101781"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3432246"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.compeleceng.2021.107114"}],"event":{"name":"2025 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI)","location":"Rourkela, India","start":{"date-parts":[[2025,10,12]]},"end":{"date-parts":[[2025,10,13]]}},"container-title":["2025 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11335417\/11337242\/11337243.pdf?arnumber=11337243","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T07:51:04Z","timestamp":1768895464000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11337243\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,12]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/cvmi66673.2025.11337243","relation":{},"subject":[],"published":{"date-parts":[[2025,10,12]]}}}