{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T19:36:03Z","timestamp":1776886563006,"version":"3.51.2"},"publisher-location":"Cham","reference-count":23,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032049704","type":"print"},{"value":"9783032049711","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T00:00:00Z","timestamp":1758326400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T00:00:00Z","timestamp":1758326400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04971-1_37","type":"book-chapter","created":{"date-parts":[[2025,9,19]],"date-time":"2025-09-19T17:11:28Z","timestamp":1758301888000},"page":"391-401","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["MedGround-R1: Advancing Medical Image Grounding via\u00a0Spatial-Semantic Rewarded Group Relative Policy Optimization"],"prefix":"10.1007","author":[{"given":"Huihui","family":"Xu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuanpeng","family":"Nie","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hualiang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ying","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Junzhi","family":"Ning","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lihao","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongqiu","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lei","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiyao","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaomeng","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Junjun","family":"He","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,9,20]]},"reference":[{"key":"37_CR1","unstructured":"Bai, F., Du, Y., Huang, T., Meng, M.Q.H., Zhao, B.: M3D: advancing 3D medical image analysis with multi-modal large language models. arXiv preprint arXiv:2404.00578 (2024)"},{"key":"37_CR2","unstructured":"Bai, S., et\u00a0al.: Qwen2. 5-VL technical report. arXiv preprint arXiv:2502.13923 (2025)"},{"key":"37_CR3","doi-asserted-by":"crossref","unstructured":"Boecking, B., et\u00a0al.: Making the most of text semantics to improve biomedical vision\u2013language processing. In: European Conference on Computer Vision, pp. 1\u201321. Springer, Cham (2022)","DOI":"10.1007\/978-3-031-20059-5_1"},{"key":"37_CR4","unstructured":"Chen, J., et al.: Huatuogpt-o1, towards medical complex reasoning with LLMs. arXiv preprint arXiv:2412.18925 (2024)"},{"key":"37_CR5","doi-asserted-by":"crossref","unstructured":"Chen, Y., et al.: Causalclipseg: unlocking clip\u2019s potential in referring medical image segmentation with causal intervention. In: International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 77\u201387. Springer, Cham (2024)","DOI":"10.1007\/978-3-031-72384-1_8"},{"key":"37_CR6","doi-asserted-by":"crossref","unstructured":"Chen, Z., et\u00a0al.: Medical phrase grounding with region-phrase context contrastive alignment. In: International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 371\u2013381. Springer, Cham (2023)","DOI":"10.1007\/978-3-031-43990-2_35"},{"key":"37_CR7","unstructured":"Guo, D., et\u00a0al.: Deepseek-r1: incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025)"},{"key":"37_CR8","doi-asserted-by":"crossref","unstructured":"Huang, X., et al.: A refer-and-ground multimodal large language model for biomedicine. In: International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 399\u2013409. Springer, Cham (2024)","DOI":"10.1007\/978-3-031-72390-2_38"},{"key":"37_CR9","doi-asserted-by":"crossref","unstructured":"Huang, X., Li, H., Cao, M., Chen, L., You, C., An, D.: Cross-modal conditioned reconstruction for language-guided medical image segmentation. IEEE Trans. Med. Imaging (2024)","DOI":"10.1109\/TMI.2024.3523333"},{"key":"37_CR10","doi-asserted-by":"crossref","unstructured":"Johnson, A.E., et al.: MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci. Data 6(1), 317 (2019)","DOI":"10.1038\/s41597-019-0322-0"},{"issue":"1","key":"37_CR11","doi-asserted-by":"publisher","first-page":"96","DOI":"10.1109\/TMI.2023.3291719","volume":"43","author":"Z Li","year":"2023","unstructured":"Li, Z., et al.: LVIT: language meets vision transformer in medical image segmentation. IEEE Trans. Med. Imaging 43(1), 96\u2013107 (2023)","journal-title":"IEEE Trans. Med. Imaging"},{"key":"37_CR12","doi-asserted-by":"crossref","unstructured":"M\u00fcller, P., Kaissis, G., Rueckert, D.: Chex: interactive localization and region description in chest x-rays. In: European Conference on Computer Vision, pp. 92\u2013111. Springer, Cham (2024)","DOI":"10.1007\/978-3-031-72664-4_6"},{"key":"37_CR13","unstructured":"Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O.: Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347 (2017)"},{"key":"37_CR14","unstructured":"Shao, Z., et\u00a0al.: Deepseekmath: pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300 (2024)"},{"key":"37_CR15","unstructured":"Wang, L., et al.: Interpretable bilingual multimodal large language model for diverse biomedical tasks. arXiv preprint arXiv:2410.18387 (2024)"},{"key":"37_CR16","unstructured":"Wang, P., et\u00a0al.: Qwen2-VL: enhancing vision-language model\u2019s perception of the world at any resolution. arXiv preprint arXiv:2409.12191 (2024)"},{"key":"37_CR17","doi-asserted-by":"crossref","unstructured":"Wang, X., Peng, Y., Lu, L., Lu, Z., Bagheri, M., Summers, R.M.: Chestx-ray8: hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2097\u20132106 (2017)","DOI":"10.1109\/CVPR.2017.369"},{"key":"37_CR18","unstructured":"Wang, X., et al.: Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171 (2022)"},{"key":"37_CR19","doi-asserted-by":"crossref","unstructured":"Wang, Z., Wu, Z., Agarwal, D., Sun, J.: Medclip: contrastive learning from unpaired medical images and text. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Conference on Empirical Methods in Natural Language Processing, vol.\u00a02022, p.\u00a03876 (2022)","DOI":"10.18653\/v1\/2022.emnlp-main.256"},{"key":"37_CR20","doi-asserted-by":"crossref","unstructured":"Wasserthal, J., et\u00a0al.: Totalsegmentator: robust segmentation of 104 anatomic structures in CT images. Radiol.: Artif. Intell. 5(5), e230024 (2023)","DOI":"10.1148\/ryai.230024"},{"key":"37_CR21","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"69","DOI":"10.1007\/978-3-319-46475-6_5","volume-title":"Computer Vision \u2013 ECCV 2016","author":"L Yu","year":"2016","unstructured":"Yu, L., Poirson, P., Yang, S., Berg, A.C., Berg, T.L.: Modeling context in referring expressions. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9906, pp. 69\u201385. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46475-6_5"},{"key":"37_CR22","doi-asserted-by":"crossref","unstructured":"Zhong, Y., Xu, M., Liang, K., Chen, K., Wu, M.: Ariadne\u2019s thread: using text prompts to improve segmentation of infected areas from chest x-ray images. In: International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 724\u2013733. Springer, Cham (2023)","DOI":"10.1007\/978-3-031-43901-8_69"},{"key":"37_CR23","unstructured":"Zou, K., et al.: MedRG: medical report grounding with multi-modal large language model. arXiv preprint arXiv:2404.06798 (2024)"}],"container-title":["Lecture Notes in Computer Science","Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04971-1_37","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,22]],"date-time":"2026-02-22T06:45:23Z","timestamp":1771742723000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04971-1_37"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,20]]},"ISBN":["9783032049704","9783032049711"],"references-count":23,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04971-1_37","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,20]]},"assertion":[{"value":"20 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors have no competing interests to declare that are relevant to the content of this article.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"MICCAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Medical Image Computing and Computer-Assisted Intervention","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Daejeon","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Korea (Republic of)","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"miccai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/conferences.miccai.org\/2025\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}