{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,19]],"date-time":"2025-09-19T07:42:49Z","timestamp":1758267769364,"version":"3.44.0"},"publisher-location":"Cham","reference-count":28,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032049773","type":"print"},{"value":"9783032049780","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,9,19]],"date-time":"2025-09-19T00:00:00Z","timestamp":1758240000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,19]],"date-time":"2025-09-19T00:00:00Z","timestamp":1758240000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04978-0_9","type":"book-chapter","created":{"date-parts":[[2025,9,18]],"date-time":"2025-09-18T16:17:25Z","timestamp":1758212245000},"page":"89-99","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Confidence Calibration for\u00a0Multimodal LLMs: An Empirical Study Through Medical VQA"],"prefix":"10.1007","author":[{"given":"Yuetian","family":"Du","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yucheng","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ming","family":"Kong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tian","family":"Liang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qiang","family":"Long","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bingdi","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qiang","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,9,19]]},"reference":[{"key":"9_CR1","doi-asserted-by":"crossref","unstructured":"Ahuja, K., Sitaram, S., Dandapat, S., et\u00a0al.: On the calibration of massively multilingual language models. arXiv preprint (2022). arXiv:2210.12265","DOI":"10.18653\/v1\/2022.emnlp-main.290"},{"key":"9_CR2","unstructured":"Andrey, M., Mark, G.: Uncertainty estimation in autoregressive structured prediction. arXiv preprint (2020). arXiv:2002.07650"},{"issue":"7","key":"9_CR3","doi-asserted-by":"publisher","first-page":"1145","DOI":"10.1016\/S0031-3203(96)00142-2","volume":"30","author":"AP Bradley","year":"1997","unstructured":"Bradley, A.P.: The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recogn. 30(7), 1145\u20131159 (1997)","journal-title":"Pattern Recogn."},{"key":"9_CR4","unstructured":"Deitke, M., Clark, C., Lee, S., et\u00a0al.: MOLMO and PIXMO: open weights and open data for state-of-the-art multimodal models. arXiv preprint (2024). arXiv:2409.17146"},{"key":"9_CR5","unstructured":"Geng, J., Cai, F., Wang, Y., et\u00a0al.: A survey of confidence estimation and calibration in large language models. arXiv preprint (2023). arXiv:2311.08298"},{"key":"9_CR6","unstructured":"Guo, C., Pleiss, G., Sun, Y., et\u00a0al.: On calibration of modern neural networks. In: International Conference on Machine Learning, pp. 1321\u20131330. PMLR (2017)"},{"key":"9_CR7","unstructured":"Hasan, S.A., Ling, Y., Farri, O., et\u00a0al.: Overview of ImageCLEF 2018 medical domain visual question answering task. In: Proceedings of CLEF Working Notes (2018)"},{"key":"9_CR8","unstructured":"Kadavath, S., Conerly, T., Askell, A., et\u00a0al.: Language models (mostly) know what they know. arXiv preprint (2022). arXiv:2207.05221"},{"key":"9_CR9","doi-asserted-by":"crossref","unstructured":"Lau, J., Gayen, S., Ben\u00a0Abacha, A., et\u00a0al.: A dataset of clinically generated visual questions and answers about radiology images. Sci. Data 5, 180251 (2018)","DOI":"10.1038\/sdata.2018.251"},{"key":"9_CR10","doi-asserted-by":"crossref","unstructured":"Li, C., Wong, C., Zhang, S., et\u00a0al.: LLaVA-Med: training a large language-and-vision assistant for biomedicine in one day. In: Advances in Neural Information Processing Systems, vol.\u00a036 (2024)","DOI":"10.32388\/VLXB6M"},{"key":"9_CR11","doi-asserted-by":"crossref","unstructured":"Liu, B., Zhan, L.M., Xu, L., et\u00a0al.: SLAKE: a semantically-labeled knowledge-enhanced dataset for medical visual question answering. In: IEEE 18th International Symposium on Biomedical Imaging, pp. 1650\u20131654 (2021)","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"9_CR12","unstructured":"Liu, G., Wang, X., Yuan, L., et\u00a0al.: Examining LLMs\u2019 uncertainty expression towards questions outside parametric knowledge. arXiv preprint (2023). arXiv:2311.09731"},{"key":"9_CR13","doi-asserted-by":"crossref","unstructured":"Liu, H., Li, C., Li, Y., et\u00a0al.: Improved baselines with visual instruction tuning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 26296\u201326306 (2024)","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"9_CR14","unstructured":"Liu, H., Li, C., Li, Y., et\u00a0al.: LLaVA-Next (2024). https:\/\/llava-vl.github.io\/blog\/2024-01-30-llava-next\/"},{"key":"9_CR15","unstructured":"Liu, Y., Yao, Y., Ton, J.F., et\u00a0al.: Trustworthy LLMs: a survey and guideline for evaluating large language models\u2019 alignment. arXiv preprint (2023). arXiv:2308.05374"},{"key":"9_CR16","doi-asserted-by":"publisher","first-page":"41","DOI":"10.46763\/BSSR21170041m","volume":"17","author":"T Manea","year":"2021","unstructured":"Manea, T.: Lie detection during the interview and interrogation process: a psychosocial criminal approach. Balkan Soc. Sci. Rev. 17, 41\u201355 (2021)","journal-title":"Balkan Soc. Sci. Rev."},{"key":"9_CR17","doi-asserted-by":"crossref","unstructured":"Ni, S., Bi, K., Guo, J., et\u00a0al.: When do LLMs need retrieval augmentation? Mitigating LLMs\u2019 overconfidence helps retrieval augmentation. arXiv preprint (2024). arXiv:2402.11457","DOI":"10.18653\/v1\/2024.findings-acl.675"},{"key":"9_CR18","unstructured":"Pan, J., et al.: MedVLM-R1: incentivizing medical reasoning capability of vision-language models (VLMs) via reinforcement learning. arXiv preprint (2025). arXiv:2502.19634"},{"key":"9_CR19","unstructured":"Ren, Y., Sutherland, D.J.: Learning dynamics of LLM finetuning. In: International Conference on Learning Representations, iCLR (2025)"},{"key":"9_CR20","doi-asserted-by":"crossref","unstructured":"Savage, T., Wang, J., Gallo, R., et\u00a0al.: Large language model uncertainty measurement and calibration for medical diagnosis and treatment. medRxiv (2024)","DOI":"10.1101\/2024.06.06.24308399"},{"key":"9_CR21","doi-asserted-by":"crossref","unstructured":"Si, C., Zhao, C., Min, S., et\u00a0al.: Re-examining calibration: the case of question answering. arXiv preprint (2022). arXiv:2205.12507","DOI":"10.18653\/v1\/2022.findings-emnlp.204"},{"key":"9_CR22","doi-asserted-by":"crossref","unstructured":"Steyvers, M., Tejeda, H., Kumar, A., et\u00a0al.: What large language models know and what people think they know. Nat. Mach. Intell. 1\u201311 (2025)","DOI":"10.1038\/s42256-024-00976-7"},{"key":"9_CR23","doi-asserted-by":"crossref","unstructured":"Tao, S., Yao, L., Ding, H., et\u00a0al.: When to trust LLMs: aligning confidence with response quality. arXiv preprint (2024). arXiv:2404.17287","DOI":"10.18653\/v1\/2024.findings-acl.357"},{"key":"9_CR24","doi-asserted-by":"crossref","unstructured":"Tian, K., Mitchell, E., Zhou, A., et\u00a0al.: Just ask for calibration: strategies for eliciting calibrated confidence scores from language models fine-tuned with human feedback. arXiv preprint (2023). arXiv:2305.14975","DOI":"10.18653\/v1\/2023.emnlp-main.330"},{"key":"9_CR25","doi-asserted-by":"publisher","first-page":"1541","DOI":"10.3390\/diagnostics14141541","volume":"14","author":"A Wada","year":"2024","unstructured":"Wada, A., Akashi, T., Shih, G., et al.: Optimizing GPT-4 turbo diagnostic accuracy in neuroradiology through prompt engineering and confidence thresholds. Diagnostics 14, 1541 (2024)","journal-title":"Diagnostics"},{"key":"9_CR26","unstructured":"Wang, C., Szarvas, G., Balazs, G., et\u00a0al.: Calibrating verbalized probabilities for large language models. arXiv preprint (2024). arXiv:2410.06707"},{"key":"9_CR27","doi-asserted-by":"crossref","unstructured":"Wen, B., Yao, J., Feng, S., et\u00a0al.: Know your limits: a survey of abstention in large language models. arXiv preprint (2024). arXiv:2407.18418","DOI":"10.1162\/tacl_a_00754"},{"key":"9_CR28","unstructured":"Xiong, M., Hu, Z., Lu, X., et\u00a0al.: Can LLMs express their uncertainty? An empirical evaluation of confidence elicitation in LLMs. arXiv preprint (2023). arXiv:2306.13063"}],"container-title":["Lecture Notes in Computer Science","Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04978-0_9","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,18]],"date-time":"2025-09-18T22:04:44Z","timestamp":1758233084000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04978-0_9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,19]]},"ISBN":["9783032049773","9783032049780"],"references-count":28,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04978-0_9","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,19]]},"assertion":[{"value":"19 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors have no competing interests to declare.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"MICCAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Medical Image Computing and Computer-Assisted Intervention","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Daejeon","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Korea (Republic of)","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"miccai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/conferences.miccai.org\/2025\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}