{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T18:40:45Z","timestamp":1772822445218,"version":"3.50.1"},"publisher-location":"Singapore","reference-count":46,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819786190","type":"print"},{"value":"9789819786206","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,10,20]],"date-time":"2024-10-20T00:00:00Z","timestamp":1729382400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,20]],"date-time":"2024-10-20T00:00:00Z","timestamp":1729382400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-97-8620-6_33","type":"book-chapter","created":{"date-parts":[[2024,10,19]],"date-time":"2024-10-19T21:02:10Z","timestamp":1729371730000},"page":"482-496","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["Mitigating Hallucination in Visual-Language Models via Re-balancing Contrastive Decoding"],"prefix":"10.1007","author":[{"given":"Xiaoyu","family":"Liang","sequence":"first","affiliation":[]},{"given":"Jiayuan","family":"Yu","sequence":"additional","affiliation":[]},{"given":"Lianrui","family":"Mu","sequence":"additional","affiliation":[]},{"given":"Jiedong","family":"Zhuang","sequence":"additional","affiliation":[]},{"given":"Jiaqi","family":"Hu","sequence":"additional","affiliation":[]},{"given":"Yuchen","family":"Yang","sequence":"additional","affiliation":[]},{"given":"Jiangnan","family":"Ye","sequence":"additional","affiliation":[]},{"given":"Lu","family":"Lu","sequence":"additional","affiliation":[]},{"given":"Jian","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Haoji","family":"Hu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,10,20]]},"reference":[{"key":"33_CR1","unstructured":"Young, A., Chen, B., Li, C., Huang, C., Zhang, G., Zhang, G., Li, H., Zhu, J., Chen, J., Chang, J., Yu, K., Liu, P., Liu, Q., Yue, S., Yang, S., Yang, S., Yu, T., Xie, W., Huang, W., Hu, X., Ren, X., Niu, X., Nie, P., Xu, Y., Liu, Y., Wang, Y., Cai, Y., Gu, Z., Liu, Z., Dai, Z.: Yi: Open foundation models by 01.ai (2024)"},{"key":"33_CR2","unstructured":"Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., Zhou, J.: Qwen-vl: a frontier large vision-language model with versatile abilities (2023). arXiv:2308.12966"},{"key":"33_CR3","unstructured":"Bolya, D., Fu, C.Y., Dai, X., Zhang, P., Feichtenhofer, C., Hoffman, J.: Token merging: your vit but faster (2022). arXiv:2210.09461"},{"key":"33_CR4","unstructured":"Chuang, Y.S., Xie, Y., Luo, H., Kim, Y., Glass, J., He, P.: Dola: decoding by contrasting layers improves factuality in large language models (2024)"},{"key":"33_CR5","unstructured":"Dai, W., Li, J., Li, D., Tiong, A.M.H., Zhao, J., Wang, W., Li, B., Fung, P.N., Hoi, S.: Instructblip: towards general-purpose vision-language models with instruction tuning. Adv. Neural Inform. Process. Syst. 36 (2024)"},{"key":"33_CR6","unstructured":"Deng, A., Chen, Z., Hooi, B.: Seeing is believing: mitigating hallucination in large vision-language models via clip-guided decoding (2024)"},{"key":"33_CR7","unstructured":"Fu, C., Chen, P., Shen, Y., Qin, Y., Zhang, M., Lin, X., Yang, J., Zheng, X., Li, K., Sun, X., Wu, Y., Ji, R.: Mme: A comprehensive evaluation benchmark for multimodal large language models (2023). arXiv:2306.13394"},{"key":"33_CR8","doi-asserted-by":"crossref","unstructured":"Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D.: Making the v in vqa matter: elevating the role of image understanding in visual question answering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6904\u20136913 (2017)","DOI":"10.1109\/CVPR.2017.670"},{"key":"33_CR9","doi-asserted-by":"crossref","unstructured":"Guan, T., Liu, F., Wu, X., Xian, R., Li, Z., Liu, X., Wang, X., Chen, L., Huang, F., Yacoob, Y., Manocha, D., Zhou, T.: Hallusionbench: an advanced diagnostic suite for entangled language hallucination and visual illusion in large vision-language models (2024)","DOI":"10.1109\/CVPR52733.2024.01363"},{"key":"33_CR10","doi-asserted-by":"crossref","unstructured":"Gunjal, A., Yin, J., Bas, E.: Detecting and preventing hallucinations in large vision language models (2024)","DOI":"10.1609\/aaai.v38i16.29771"},{"key":"33_CR11","doi-asserted-by":"crossref","unstructured":"Gurari, D., Li, Q., Stangl, A.J., Guo, A., Lin, C., Grauman, K., Luo, J., Bigham, J.P.: Vizwiz grand challenge: answering visual questions from blind people. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3608\u20133617 (2018)","DOI":"10.1109\/CVPR.2018.00380"},{"key":"33_CR12","doi-asserted-by":"crossref","unstructured":"Huang, Q., Dong, X., Zhang, P., Wang, B., He, C., Wang, J., Lin, D., Zhang, W., Yu, N.: Opera: alleviating hallucination in multi-modal large language models via over-trust penalty and retrospection-allocation (2024)","DOI":"10.1109\/CVPR52733.2024.01274"},{"key":"33_CR13","doi-asserted-by":"crossref","unstructured":"Hudson, D.A., Manning, C.D.: Gqa: a new dataset for real-world visual reasoning and compositional question answering. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6700\u20136709 (2019)","DOI":"10.1109\/CVPR.2019.00686"},{"key":"33_CR14","doi-asserted-by":"crossref","unstructured":"Jian, Y., Liu, T., Tao, Y., Zhang, C., Vosoughi, S., Yang, H.: Expedited training of visual conditioned language generation via redundancy reduction (2024)","DOI":"10.18653\/v1\/2024.acl-long.19"},{"key":"33_CR15","unstructured":"Kim, W., Son, B., Kim, I.: Vilt: vision-and-language transformer without convolution or region supervision (2021)"},{"key":"33_CR16","doi-asserted-by":"crossref","unstructured":"Leng, S., Zhang, H., Chen, G., Li, X., Lu, S., Miao, C., Bing, L.: Mitigating object hallucinations in large vision-language models through visual contrastive decoding (2023)","DOI":"10.1109\/CVPR52733.2024.01316"},{"key":"33_CR17","unstructured":"Li, B., Zhang, P., Yang, J., Zhang, Y., Pu, F., Liu, Z.: Otterhd: a high-resolution multi-modality model (2023)"},{"key":"33_CR18","doi-asserted-by":"crossref","unstructured":"Li, C., Wong, C., Zhang, S., Usuyama, N., Liu, H., Yang, J., Naumann, T., Poon, H., Gao, J.: Llava-med: Training a large language-and-vision assistant for biomedicine in one day. Adv. Neural Inform. Process. Syst. 36 (2024)","DOI":"10.32388\/VLXB6M"},{"key":"33_CR19","unstructured":"Li, K., Patel, O., Vi\u00e9gas, F., Pfister, H., Wattenberg, M.: Inference-time intervention: eliciting truthful answers from a language model (2023)"},{"key":"33_CR20","doi-asserted-by":"crossref","unstructured":"Li, X.L., Holtzman, A., Fried, D., Liang, P., Eisner, J., Hashimoto, T.B., Zettlemoyer, L., Lewis, M.: Contrastive decoding: open-ended text generation as optimization. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 12286\u201312312 (2023)","DOI":"10.18653\/v1\/2023.acl-long.687"},{"key":"33_CR21","unstructured":"Li, Y., Liang, F., Zhao, L., Cui, Y., Ouyang, W., Shao, J., Yu, F., Yan, J.: Supervision exists everywhere: a data efficient contrastive language-image pre-training paradigm (2022)"},{"key":"33_CR22","doi-asserted-by":"crossref","unstructured":"Li, Y., Du, Y., Zhou, K., Wang, J., Zhao, W.X., Wen, J.R.: Evaluating object hallucination in large vision-language models (2023)","DOI":"10.18653\/v1\/2023.emnlp-main.20"},{"key":"33_CR23","doi-asserted-by":"crossref","unstructured":"Li, Z., Yang, B., Liu, Q., Ma, Z., Zhang, S., Yang, J., Sun, Y., Liu, Y., Bai, X.: Monkey: image resolution and text label are important things for large multi-modal models (2024)","DOI":"10.1109\/CVPR52733.2024.02527"},{"key":"33_CR24","doi-asserted-by":"crossref","unstructured":"Liu, H., Li, C., Li, Y., Lee, Y.J.: Improved baselines with visual instruction tuning (2023). arXiv:2310.03744","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"33_CR25","unstructured":"Liu, J., Fu, Y., Xie, R., Xie, R., Sun, X., Lian, F., Kang, Z., Li, X.: Phd: a prompted visual hallucination evaluation dataset (2024)"},{"key":"33_CR26","doi-asserted-by":"crossref","unstructured":"Liu, S., Cheng, H., Liu, H., Zhang, H., Li, F., Ren, T., Zou, X., Yang, J., Su, H., Zhu, J., Zhang, L., Gao, J., Li, C.: Llava-plus: learning to use tools for creating multimodal agents (2023)","DOI":"10.1007\/978-3-031-72970-6_8"},{"key":"33_CR27","doi-asserted-by":"crossref","unstructured":"Liu, S., Cheng, H., Liu, H., Zhang, H., Li, F., Ren, T., Zou, X., Yang, J., Su, H., Zhu, J., et\u00a0al.: Llava-plus: learning to use tools for creating multimodal agents (2023). arXiv:2311.05437","DOI":"10.1007\/978-3-031-72970-6_8"},{"key":"33_CR28","doi-asserted-by":"crossref","unstructured":"Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Li, C., Yang, J., Su, H., Zhu, J., Zhang, L.: Grounding dino: Marrying dino with grounded pre-training for open-set object detection (2023)","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"33_CR29","doi-asserted-by":"crossref","unstructured":"Liu, Y., Duan, H., Zhang, Y., Li, B., Zhang, S., Zhao, W., Yuan, Y., Wang, J., He, C., Liu, Z., et\u00a0al.: Mmbench: Is your multi-modal model an all-around player? (2023). arXiv:2307.06281","DOI":"10.1007\/978-3-031-72658-3_13"},{"key":"33_CR30","first-page":"2507","volume":"35","author":"P Lu","year":"2022","unstructured":"Lu, P., Mishra, S., Xia, T., Qiu, L., Chang, K.W., Zhu, S.C., Tafjord, O., Clark, P., Kalyan, A.: Learn to explain: Multimodal reasoning via thought chains for science question answering. Adv. Neural. Inf. Process. Syst. 35, 2507\u20132521 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"33_CR31","doi-asserted-by":"crossref","unstructured":"Mckenna, N., Li, T., Cheng, L., Hosseini, M., Johnson, M., Steedman, M.: Sources of hallucination by large language models on inference tasks. In: Findings of the Association for Computational Linguistics: EMNLP 2023, pp. 2758\u20132774 (2023)","DOI":"10.18653\/v1\/2023.findings-emnlp.182"},{"key":"33_CR32","doi-asserted-by":"crossref","unstructured":"Pi, R., Han, T., Xiong, W., Zhang, J., Liu, R., Pan, R., Zhang, T.: Strengthening multimodal large language model with bootstrapped preference optimization (2024)","DOI":"10.1007\/978-3-031-73414-4_22"},{"key":"33_CR33","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision (2021)"},{"key":"33_CR34","first-page":"13937","volume":"34","author":"Y Rao","year":"2021","unstructured":"Rao, Y., Zhao, W., Liu, B., Lu, J., Zhou, J., Hsieh, C.J.: Dynamicvit: efficient vision transformers with dynamic token sparsification. Adv. Neural. Inf. Process. Syst. 34, 13937\u201313949 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"33_CR35","doi-asserted-by":"crossref","unstructured":"Rohrbach, A., Hendricks, L.A., Burns, K., Darrell, T., Saenko, K.: Object hallucination in image captioning. In: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 4035\u20134045 (2018)","DOI":"10.18653\/v1\/D18-1437"},{"key":"33_CR36","doi-asserted-by":"crossref","unstructured":"Singh, A., Natarjan, V., Shah, M., Jiang, Y., Chen, X., Parikh, D., Rohrbach, M.: Towards vqa models that can read. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8317\u20138326 (2019)","DOI":"10.1109\/CVPR.2019.00851"},{"key":"33_CR37","unstructured":"Wang, J., Wang, Y., Xu, G., Zhang, J., Gu, Y., Jia, H., Wang, J., Xu, H., Yan, M., Zhang, J., Sang, J.: Amber: an llm-free multi-dimensional benchmark for mllms hallucination evaluation (2024)"},{"key":"33_CR38","unstructured":"Wang, W., Lv, Q., Yu, W., Hong, W., Qi, J., Wang, Y., Ji, J., Yang, Z., Zhao, L., Song, X., Xu, J., Xu, B., Li, J., Dong, Y., Ding, M., Tang, J.: Cogvlm: visual expert for pretrained language models (2024)"},{"key":"33_CR39","doi-asserted-by":"crossref","unstructured":"Yin, S., Fu, C., Zhao, S., Xu, T., Wang, H., Sui, D., Shen, Y., Li, K., Sun, X., Chen, E.: Woodpecker: Hallucination correction for multimodal large language models (2023)","DOI":"10.1007\/s11432-024-4251-x"},{"key":"33_CR40","doi-asserted-by":"crossref","unstructured":"Yu, T., Yao, Y., Zhang, H., He, T., Han, Y., Cui, G., Hu, J., Liu, Z., Zheng, H.T., Sun, M., Chua, T.S.: Rlhf-v: towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback (2024)","DOI":"10.1109\/CVPR52733.2024.01310"},{"key":"33_CR41","unstructured":"Zhang, Y., Cui, L., Bi, W., Shi, S.: Alleviating hallucinations of large language models through induced hallucinations (2024)"},{"key":"33_CR42","unstructured":"Zhang, Y., Li, Y., Cui, L., Cai, D., Liu, L., Fu, T., Huang, X., Zhao, E., Zhang, Y., Chen, Y., Wang, L., Luu, A.T., Bi, W., Shi, F., Shi, S.: Siren\u2019s song in the ai ocean: a survey on hallucination in large language models (2023)"},{"key":"33_CR43","unstructured":"Zhao, Z., Wang, B., Ouyang, L., Dong, X., Wang, J., He, C.: Beyond hallucinations: enhancing lvlms through hallucination-aware direct preference optimization (2024)"},{"key":"33_CR44","unstructured":"Zhou, Y., Cui, C., Yoon, J., Zhang, L., Deng, Z., Finn, C., Bansal, M., Yao, H.: Analyzing and mitigating object hallucination in large vision-language models (2024)"},{"key":"33_CR45","unstructured":"Zhu, D., Chen, J., Shen, X., Li, X., Elhoseiny, M.: Minigpt-4: enhancing vision-language understanding with advanced large language models (2023). arXiv:2304.10592"},{"key":"33_CR46","unstructured":"Zhu, L., Ji, D., Chen, T., Xu, P., Ye, J., Liu, J.: Ibd: alleviating hallucinations in large vision-language models via image-biased decoding (2024)"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition and Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-97-8620-6_33","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,14]],"date-time":"2025-01-14T20:17:45Z","timestamp":1736885865000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-97-8620-6_33"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,20]]},"ISBN":["9789819786190","9789819786206"],"references-count":46,"URL":"https:\/\/doi.org\/10.1007\/978-981-97-8620-6_33","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,10,20]]},"assertion":[{"value":"20 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"PRCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Chinese Conference on Pattern Recognition and Computer Vision  (PRCV)","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Urumqi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18 October 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"20 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ccprcv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/2024.prcv.cn\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}