{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T09:08:23Z","timestamp":1765357703696,"version":"3.40.4"},"reference-count":52,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62171323"],"award-info":[{"award-number":["62171323"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Key Research and Development Program of China","award":["2020YFA0711400"],"award-info":[{"award-number":["2020YFA0711400"]}]},{"name":"Shanghai Municipal Science and Technology Major Project","award":["2021SHZDZX0100"],"award-info":[{"award-number":["2021SHZDZX0100"]}]},{"name":"Shanghai Municipal Commission of Science and Technology Project","award":["19511132101"],"award-info":[{"award-number":["19511132101"]}]},{"name":"Changjiang Scholars Program of China"},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2025,5]]},"DOI":"10.1109\/tnnls.2024.3440872","type":"journal-article","created":{"date-parts":[[2024,10,7]],"date-time":"2024-10-07T17:45:40Z","timestamp":1728323140000},"page":"9500-9511","source":"Crossref","is-referenced-by-count":5,"title":["Variational Transformer: A Framework Beyond the Tradeoff Between Accuracy and Diversity for Image Captioning"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5791-145X","authenticated-orcid":false,"given":"Longzhen","family":"Yang","sequence":"first","affiliation":[{"name":"Department of Electronic and Information Engineering, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5250-170X","authenticated-orcid":false,"given":"Lianghua","family":"He","sequence":"additional","affiliation":[{"name":"Department of Electronic and Information Engineering, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8081-8512","authenticated-orcid":false,"given":"Die","family":"Hu","sequence":"additional","affiliation":[{"name":"Department of Communication Science and Engineering, Fudan University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4257-2528","authenticated-orcid":false,"given":"Yihang","family":"Liu","sequence":"additional","affiliation":[{"name":"Department of Electronic and Information Engineering, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2680-5822","authenticated-orcid":false,"given":"Yitao","family":"Peng","sequence":"additional","affiliation":[{"name":"Department of Electronic and Information Engineering, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-5671-1322","authenticated-orcid":false,"given":"Hongzhou","family":"Chen","sequence":"additional","affiliation":[{"name":"Department of Electronic and Information Engineering, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5408-8752","authenticated-orcid":false,"given":"MengChu","family":"Zhou","sequence":"additional","affiliation":[{"name":"School of Information and Electronic Engineering, Zhejiang Gongshang University, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00219"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00432"},{"key":"ref3","article-title":"Analysis of diversity-accuracy tradeoff in image captioning","author":"Luo","year":"2020","journal-title":"arXiv:2002.11848"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i16.17672"},{"key":"ref5","first-page":"1","article-title":"DeViSE: A deep visual-semantic embedding model","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"26","author":"Frome"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00177"},{"key":"ref7","article-title":"Deep captioning with multimodal recurrent neural networks (m-RNN)","author":"Mao","year":"2014","journal-title":"arXiv:1412.6632"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58586-0_2"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref10","first-page":"1","article-title":"Variational structured semantic inference for diverse image captioning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Chen"},{"key":"ref11","first-page":"1","article-title":"beta-VAE: Learning basic visual concepts with a constrained variational framework","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Higgins"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2017.131"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"volume-title":"Reinforcement Learning: An Introduction","year":"2018","author":"Sutton","key":"ref15"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00473"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01059"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i2.16258"},{"key":"ref20","article-title":"Sequence level training with recurrent neural networks","author":"Ranzato","year":"2015","journal-title":"arXiv:1511.06732"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00728"},{"key":"ref22","article-title":"B-SCST: Bayesian self-critical sequence training for image captioning","author":"Bujimalla","year":"2020","journal-title":"arXiv:2004.02435"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475604"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00998"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01094"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00220"},{"key":"ref27","article-title":"A better variant of self-critical sequence training","author":"Luo","year":"2020","journal-title":"arXiv:2003.09971"},{"key":"ref28","first-page":"1","article-title":"Auto-encoding variational Bayes","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Kingma"},{"key":"ref29","first-page":"1","article-title":"Semisupervised learning with deep generative models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"27","author":"Kingma"},{"key":"ref30","first-page":"1","article-title":"Learning structured output representation using deep conditional generative models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Sohn"},{"key":"ref31","first-page":"19667","article-title":"NVAE: A deep hierarchical variational autoencoder","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Vahdat"},{"key":"ref32","first-page":"1","article-title":"Diverse and accurate image description using a variational auto-encoder with an additive Gaussian encoding space","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Wang"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1437"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.366913"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1002\/0471200611"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-3348"},{"key":"ref39","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","volume-title":"Proc. Text Summarization Branches Out","author":"Lin"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_24"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.eacl-main.156"},{"key":"ref43","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"ref45","first-page":"23318","article-title":"OFA: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref46","first-page":"12888","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref47","first-page":"19730","article-title":"Blip-2: Bootstrapping languageimage pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01745"},{"key":"ref49","first-page":"1","article-title":"SimVLM: Simple visual language model pretraining with weak supervision","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Wang"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.445"},{"key":"ref51","article-title":"Diverse beam search: Decoding diverse solutions from neural sequence models","author":"Vijayakumar","year":"2016","journal-title":"arXiv:1610.02424"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/JAS.2024.124806"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/5962385\/10982361\/10706656.pdf?arnumber=10706656","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,5]],"date-time":"2025-05-05T17:57:52Z","timestamp":1746467872000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10706656\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5]]},"references-count":52,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2024.3440872","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"type":"print","value":"2162-237X"},{"type":"electronic","value":"2162-2388"}],"subject":[],"published":{"date-parts":[[2025,5]]}}}