{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T10:01:05Z","timestamp":1777888865045,"version":"3.51.4"},"reference-count":47,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"NSFC Project","doi-asserted-by":"publisher","award":["62406252,62176061"],"award-info":[{"award-number":["62406252,62176061"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.02247","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"24245-24254","source":"Crossref","is-referenced-by-count":1,"title":["ChatReID: Open-Ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models"],"prefix":"10.1109","author":[{"given":"Ke","family":"Niu","sequence":"first","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Haiyang","family":"Yu","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Mengyang","family":"Zhao","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Teng","family":"Fu","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Siyang","family":"Yi","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Wei","family":"Lu","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Bin","family":"Li","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Xuelin","family":"Qian","sequence":"additional","affiliation":[{"name":"Northwestern Polytechnical University,Xi&#x0027;an,China"}]},{"given":"Xiangyang","family":"Xue","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Qwen-vl: A frontier large vision-language model with versatile abilities","author":"Bai","year":"2023","journal-title":"arXiv preprint"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2023\/62"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/s44267-025-00078-x"},{"key":"ref4","article-title":"Mars: Paying more attention to visual attributes for text-based person search","author":"Ergasti","year":"2024","journal-title":"arXiv preprint"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00113"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612416"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3344354"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/iccv48922.2021.01474"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01659"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2025.3538766"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1703.07737"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00954"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2022.10.024"},{"key":"ref14","article-title":"Gpt-4o system card","author":"Hurst","year":"2024","journal-title":"arXiv preprint"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00273"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6775"},{"key":"ref17","first-page":"12888","article-title":"Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"International Conference on Machine Learning","author":"Li","year":"2022"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i1.25225"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00243"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1516"},{"key":"ref21","article-title":"Visual instruction tuning","volume":"36","author":"Liu","year":"2024","journal-title":"Advances in neural information processing systems"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01876"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-69535-4_5"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02568"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-48881-3_2"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01026"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547970"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3696410.3714788"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01225-0_30"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3061412"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01621"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02104"},{"key":"ref33","article-title":"Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49660.2025.10890451"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00071"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr46437.2021.00431"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01391"},{"key":"ref38","article-title":"Mllmreid: Multimodal large language model-based person re-identification","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611709"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01642"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58520-4_14"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00214"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475250"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr42600.2020.00325"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28585"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/s44267-023-00032-9"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19781-9_12"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11445376.pdf?arnumber=11445376","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:00:34Z","timestamp":1777611634000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11445376\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":47,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.02247","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}