{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T21:11:23Z","timestamp":1743109883902,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":31,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819794423"},{"type":"electronic","value":"9789819794430"}],"license":[{"start":{"date-parts":[[2024,11,1]],"date-time":"2024-11-01T00:00:00Z","timestamp":1730419200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,1]],"date-time":"2024-11-01T00:00:00Z","timestamp":1730419200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-97-9443-0_24","type":"book-chapter","created":{"date-parts":[[2024,10,31]],"date-time":"2024-10-31T16:30:54Z","timestamp":1730392254000},"page":"274-286","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["METER: Multimodal Hallucination Detection with\u00a0Mixture of\u00a0Experts via\u00a0Tools Ensembling and\u00a0Reasoning"],"prefix":"10.1007","author":[{"given":"Ruwen","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jinglu","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mingjie","family":"Dai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinyi","family":"Jiang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuxin","family":"Hu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bo","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiuxin","family":"Cao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,11,1]]},"reference":[{"key":"24_CR1","unstructured":"Cherian, A., Peng, K.-C., Lohit, S., Matthiesen, J., Smith, K., et\u00a0al.: Evaluating large vision-and-language models on children\u2019s mathematical olympiads. arXiv:2406.15736 (20240"},{"key":"24_CR2","doi-asserted-by":"crossref","unstructured":"Hu, Y., Li, T., Lu, Shao, Q.W., He, J., et\u00a0al.: Omnimedvqa: a new large-scale comprehensive evaluation benchmark for medical lvlm. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 22170\u201322183 (2024)","DOI":"10.1109\/CVPR52733.2024.02093"},{"key":"24_CR3","unstructured":"Li, Y., Zhang, W., Chen, K., Liu, Y., Li, P., et\u00a0al.: Automated evaluation of large vision-language models on self-driving corner cases. arXiv:2404.10595 (2024)"},{"key":"24_CR4","doi-asserted-by":"crossref","unstructured":"Li, Y., Du, Y., Zhou, K., Wang, J., Zhao, W.X., et\u00a0al.: Evaluating object hallucination in large vision-language models. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 292\u2013305 (2023)","DOI":"10.18653\/v1\/2023.emnlp-main.20"},{"key":"24_CR5","unstructured":"Zhai, B., Yang, S., Zhao, X., Xu, C., Shen, S., et\u00a0al.: Halle-switch: Rethinking and controlling object existence hallucinations in large vision language models for detailed caption. arXiv:2310.01779 (2023)"},{"key":"24_CR6","doi-asserted-by":"crossref","unstructured":"Wu, J., Liu, Q., Wang, D., Zhang, J., Wu, S., et\u00a0al.: Logical closed loop: Uncovering object hallucinations in large vision-language models. arXiv:2402.11622 (2024)","DOI":"10.18653\/v1\/2024.findings-acl.414"},{"key":"24_CR7","doi-asserted-by":"crossref","unstructured":"Jing, L. Li, R., Chen, Y., Jia, M., Du, X.: Faithscore: Evaluating hallucinations in large vision-language models. arXiv:2311.01477 (2023)","DOI":"10.18653\/v1\/2024.findings-emnlp.290"},{"key":"24_CR8","unstructured":"Wang, S., Lin, H., Luo, Z., Ye, Z., Chen, G., et\u00a0al.: Mfc-bench: Benchmarking multimodal fact-checking with large vision-language models. arXiv:2406.11288 (2024)"},{"key":"24_CR9","doi-asserted-by":"crossref","unstructured":"Chen, X., Wang, C., Xue, Y., Zhang, N., Yang, X., et\u00a0al.: Unified hallucination detection for multimodal large language models. arXiv:2402.03190 (2024)","DOI":"10.18653\/v1\/2024.acl-long.178"},{"key":"24_CR10","doi-asserted-by":"crossref","unstructured":"Wang, Y., Li, P., Sun, M., Liu, Y.: Self-knowledge guided retrieval augmentation for large language models. arXiv:2310.05002 (2023)","DOI":"10.18653\/v1\/2023.findings-emnlp.691"},{"key":"24_CR11","unstructured":"Mialon, G., Dess\u00ec, R., Lomeli, M., Nalmpantis, C., Pasunuru, R., et\u00a0al.: Augmented language models: a survey. arXiv:2302.07842 (2023)"},{"key":"24_CR12","doi-asserted-by":"crossref","unstructured":"Xia, H., Dong, Q., Li, L., Xu, J., Liu, T., et\u00a0al.: Imagenetvc: Zero-and few-shot visual commonsense evaluation on 1000 imagenet categories. arXiv:2305.15028 (2023)","DOI":"10.18653\/v1\/2023.findings-emnlp.133"},{"key":"24_CR13","unstructured":"Huang, Z., Zhang, Z., Zha, Z.-J., Lu, Y., Guo, B.: Relationvlm: Making large vision-language models understand visual relations. arXiv:2403.12801 (2024)"},{"key":"24_CR14","doi-asserted-by":"crossref","unstructured":"Guan, X., Liu, Y., Lin, H., Yaojie, L., He, B., et al.: Mitigating large language model hallucinations via autonomous knowledge graph-based retrofitting. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 18126\u201318134 (2024)","DOI":"10.1609\/aaai.v38i16.29770"},{"key":"24_CR15","first-page":"24824","volume":"35","author":"J Wei","year":"2022","unstructured":"Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., et al.: Chain-of-thought prompting elicits reasoning in large language models. Adv. Neural. Inf. Process. Syst. 35, 24824\u201324837 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"24_CR16","unstructured":"Wang, K., Duan, F., Wang, S., Li, P., Xian, Y., et\u00a0al.: Knowledge-driven cot: Exploring faithful reasoning in llms for knowledge-intensive question answering. arXiv:2308.13259 (2023)"},{"key":"24_CR17","unstructured":"Wang, J., Zhou, Y., Xu, G., Shi, P., Zhao, C., et\u00a0al.: Evaluation and analysis of hallucination in large vision-language models. arXiv:2308.15126 (2023)"},{"key":"24_CR18","doi-asserted-by":"publisher","unstructured":"Wang, L., He, J., Li, S., Liu, N., Lim, EP.: Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites. In: Rudinac, S., et al. (ed.) MultiMedia Modeling. MMM 2024. LNCS, vol. 14557. Springer, Cham (2024). https:\/\/doi.org\/10.1007\/978-3-031-53302-0_3","DOI":"10.1007\/978-3-031-53302-0_3"},{"key":"24_CR19","doi-asserted-by":"crossref","unstructured":"Gunjal, A., Yin, J., Bas, E.: Detecting and preventing hallucinations in large vision language models. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 18135\u201318143 (2024)","DOI":"10.1609\/aaai.v38i16.29771"},{"key":"24_CR20","unstructured":"Liu, H., Xue, W., Chen, Y., Chen, D., Zhao, X., et\u00a0al.: A survey on hallucination in large vision-language models. arXiv:2402.00253 (2024)"},{"key":"24_CR21","unstructured":"Liu, F., Lin, K., Li, L., Wang, J., Yacoob, Y., et\u00a0al.: Aligning large multi-modal model with robust instruction tuning. arXiv:2306.14565 (2023)"},{"key":"24_CR22","unstructured":"Hu, H., Zhang, J., Zhao, M., Sun, Z.: Ciem: Contrastive instruction evaluation method for better instruction tuning. arXiv:2309.02301 (2023)"},{"key":"24_CR23","doi-asserted-by":"crossref","unstructured":"Yu, O., Li, J., Wei, L., Pang, L., Ye, W., et\u00a0al.: Hallucidoctor: mitigating hallucinatory toxicity in visual instruction data. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12944\u201312953 (2024)","DOI":"10.1109\/CVPR52733.2024.01230"},{"key":"24_CR24","unstructured":"Xiao, W., Huang, Z., Gan, L., He, W., Li, H., et\u00a0al.: Detecting and mitigating hallucination in large vision language models via fine-grained ai feedback. arXiv:2404.14233 (2024)"},{"key":"24_CR25","doi-asserted-by":"crossref","unstructured":"Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., et\u00a0al.: Grounding dino: Marrying dino with grounded pre-training for open-set object detection. arXiv:2303.05499 (2023)","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"24_CR26","doi-asserted-by":"crossref","unstructured":"Cheng, T., Song, L., Ge, Y., Liu, W., Wang, X., et\u00a0al.: Yolo-world: real-time open-vocabulary object detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16901\u201316911 (2024)","DOI":"10.1109\/CVPR52733.2024.01599"},{"key":"24_CR27","doi-asserted-by":"crossref","unstructured":"Jiang, Q., Wang, J., Peng, D., Liu, C., Jin, L.: Revisiting scene text recognition: a data perspective. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 20543\u201320554 (2023)","DOI":"10.1109\/ICCV51070.2023.01878"},{"key":"24_CR28","unstructured":"Du, Y., Li, C., Guo, R., Cui, C., Liu, W., et\u00a0al.: Pp-ocrv2: Bag of tricks for ultra lightweight ocr system. arXiv:2109.03144 (2021)"},{"key":"24_CR29","doi-asserted-by":"crossref","unstructured":"Cai, L., Zhou, G., Liu, K., Zhao, J.: Large-scale question classification in cqa by leveraging wikipedia semantic knowledge. In: Proceedings of the 20th ACM International Conference on Information and Knowledge Management, pp.1321\u20131330 (2011)","DOI":"10.1145\/2063576.2063768"},{"key":"24_CR30","unstructured":"Team, G., Anil, R., Borgeaud, S., Wu, Y., Alayrac, J.-P., et\u00a0al.: Gemini: a family of highly capable multimodal models. arXiv:2312.11805 (2023)"},{"key":"24_CR31","unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. Adv. Neural Inform. Process. Syst. 36 (2024)"}],"container-title":["Lecture Notes in Computer Science","Natural Language Processing and Chinese Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-97-9443-0_24","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,30]],"date-time":"2024-11-30T16:07:08Z","timestamp":1732982828000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-97-9443-0_24"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,1]]},"ISBN":["9789819794423","9789819794430"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-981-97-9443-0_24","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,11,1]]},"assertion":[{"value":"1 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors\u00a0have no competing interests to declare that are relevant to the content of this article.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"NLPCC","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"CCF International Conference on Natural Language Processing and Chinese Computing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Hangzhou","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2 November 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 November 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"13","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"nlpcc2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/tcci.ccf.org.cn\/conference\/2024\/index.php","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}