{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,25]],"date-time":"2025-03-25T14:42:28Z","timestamp":1742913748334,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":40,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819772315"},{"type":"electronic","value":"9789819772322"}],"license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024]]},"DOI":"10.1007\/978-981-97-7232-2_18","type":"book-chapter","created":{"date-parts":[[2024,8,27]],"date-time":"2024-08-27T16:02:47Z","timestamp":1724774567000},"page":"264-279","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Modal Complementarity Based on\u00a0Multimodal Large Language Model for\u00a0Text-Based Person Retrieval"],"prefix":"10.1007","author":[{"given":"Tong","family":"Bao","sequence":"first","affiliation":[]},{"given":"Tong","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Derong","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Zhi","family":"Zheng","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,8,28]]},"reference":[{"unstructured":"Brown, T.B., et al.: Language models are few-shot learners. ArXiv abs\/2005.14165 (2020)","key":"18_CR1"},{"key":"18_CR2","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"104","DOI":"10.1007\/978-3-030-58577-8_7","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Y-C Chen","year":"2020","unstructured":"Chen, Y.-C.: UNITER: UNiversal image-TExt representation learning. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12375, pp. 104\u2013120. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58577-8_7"},{"unstructured":"Chen, Y., Zheng, Z., Ji, W., Qu, L., Chua, T.S.: Composed image retrieval with text feedback via multi-grained uncertainty regularization. ArXiv abs\/2211.07394 (2022)","key":"18_CR3"},{"key":"18_CR4","doi-asserted-by":"publisher","first-page":"171","DOI":"10.1016\/j.neucom.2022.04.081","volume":"494","author":"Y Chen","year":"2021","unstructured":"Chen, Y., Zhang, G., Lu, Y., Wang, Z., Zheng, Y., Wang, R.: TIPCB: a simple but effective part-based convolutional baseline for text-based person search. Neurocomputing 494, 171\u2013181 (2021)","journal-title":"Neurocomputing"},{"unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: North American Chapter of the Association for Computational Linguistics (2019)","key":"18_CR5"},{"unstructured":"Ding, Z., Ding, C., Shao, Z., Tao, D.: Semantically self-aligned network for text-to-image part-aware person re-identification. arXiv preprint arXiv:2107.12666 (2021)","key":"18_CR6"},{"unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. ArXiv abs\/2010.11929 (2020)","key":"18_CR7"},{"doi-asserted-by":"crossref","unstructured":"Farooq, A., Awais, M., Kittler, J., Khalid, S.S.: AXM-Net: implicit cross-modal feature alignment for person re-identification. In: AAAI Conference on Artificial Intelligence (2021)","key":"18_CR8","DOI":"10.1609\/aaai.v36i4.20370"},{"unstructured":"Gao, C., et al.: Contextual non-local alignment over full-scale representation for text-based person search. ArXiv abs\/2101.03036 (2021)","key":"18_CR9"},{"unstructured":"Ge, J., Gao, G., Liu, Z.: Visual-textual association with hardest and semi-hard negative pairs mining for person search. ArXiv abs\/1912.03083 (2019)","key":"18_CR10"},{"unstructured":"Han, X., He, S., Zhang, L., Xiang, T.: Text-based person search with limited data. In: British Machine Vision Conference (2021)","key":"18_CR11"},{"doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385 (2015)","key":"18_CR12","DOI":"10.1109\/CVPR.2016.90"},{"unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. CoRR abs\/1412.6980 (2014)","key":"18_CR13"},{"unstructured":"Koh, J.Y., Fried, D., Salakhutdinov, R.: Generating images with multimodal language models. In: NeurIPS (2023)","key":"18_CR14"},{"unstructured":"Kojima, T., Gu, S.S., Reid, M., Matsuo, Y., Iwasawa, Y.: Large language models are zero-shot reasoners. ArXiv abs\/2205.11916 (2022)","key":"18_CR15"},{"doi-asserted-by":"crossref","unstructured":"Lee, K.H., Chen, X., Hua, G., Hu, H., He, X.: Stacked cross attention for image-text matching. ArXiv abs\/1803.08024 (2018)","key":"18_CR16","DOI":"10.1007\/978-3-030-01225-0_13"},{"unstructured":"Li, J., Li, D., Savarese, S., Hoi, S.C.H.: BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: International Conference on Machine Learning (2023)","key":"18_CR17"},{"doi-asserted-by":"crossref","unstructured":"Li, S., Xiao, T., Li, H., Zhou, B., Yue, D., Wang, X.: Person search with natural language description. arXiv preprint arXiv:1702.05729 (2017)","key":"18_CR18","DOI":"10.1109\/CVPR.2017.551"},{"doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Doll\u00e1r, P., Girshick, R.B., He, K., Hariharan, B., Belongie, S.J.: Feature pyramid networks for object detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 936\u2013944 (2016)","key":"18_CR19","DOI":"10.1109\/CVPR.2017.106"},{"unstructured":"Liu, H., Li, C., Wu, Q., Lee, Y.J.: Visual instruction tuning. ArXiv abs\/2304.08485 (2023)","key":"18_CR20"},{"doi-asserted-by":"crossref","unstructured":"Liu, Z., Shen, Y., Lakshminarasimhan, V.B., Liang, P.P., Zadeh, A., Morency, L.P.: Efficient low-rank multimodal fusion with modality-specific factors. In: Annual Meeting of the Association for Computational Linguistics (2018)","key":"18_CR21","DOI":"10.18653\/v1\/P18-1209"},{"key":"18_CR22","doi-asserted-by":"publisher","first-page":"5542","DOI":"10.1109\/TIP.2020.2984883","volume":"29","author":"K Niu","year":"2019","unstructured":"Niu, K., Huang, Y., Ouyang, W., Wang, L.: Improving description-based person re-identification by multi-granularity image-text alignments. IEEE Trans. Image Process. 29, 5542\u20135556 (2019)","journal-title":"IEEE Trans. Image Process."},{"doi-asserted-by":"crossref","unstructured":"Niu, K., Huang, Y., Wang, L.: Textual dependency embedding for person search by language. In: Proceedings of the 28th ACM International Conference on Multimedia (2020)","key":"18_CR23","DOI":"10.1145\/3394171.3413895"},{"unstructured":"Peng, Z., et al.: Kosmos-2: Grounding multimodal large language models to the world. ArXiv abs\/2306 (2023)","key":"18_CR24"},{"unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision. In: Proceedings of the 38th International Conference on Machine Learning, pp. 8748\u20138763 (2021)","key":"18_CR25"},{"doi-asserted-by":"crossref","unstructured":"Shao, Z., Zhang, X., Fang, M., hao Lin, Z., Wang, J., Ding, C.: Learning granularity-unified representations for text-to-image person re-identification. In: Proceedings of the 30th ACM International Conference on Multimedia (2022)","key":"18_CR26","DOI":"10.1145\/3503161.3548028"},{"key":"18_CR27","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"624","DOI":"10.1007\/978-3-031-25072-9_42","volume-title":"ECCV 2022","author":"X Shu","year":"2022","unstructured":"Shu, X., et al.: See finer, see more: implicit modality alignment for text-based person retrieval. In: Karlinsky, L., Michaeli, T., Nishino, K. (eds.) ECCV 2022. LNCS, vol. 13805, pp. 624\u2013641. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-25072-9_42"},{"unstructured":"Vaswani, A., et al.: Attention is all you need. In: Neural Information Processing Systems (2017)","key":"18_CR28"},{"doi-asserted-by":"crossref","unstructured":"Wang, C., Luo, Z., Lin, Y., Li, S.: Text-based person search via multi-granularity embedding learning. In: International Joint Conference on Artificial Intelligence (2021)","key":"18_CR29","DOI":"10.24963\/ijcai.2021\/148"},{"doi-asserted-by":"crossref","unstructured":"Wang, Z., Fang, Z., Wang, J., Yang, Y.: ViTAA: visual-textual attributes alignment in person search by natural language. ArXiv abs\/2005.07327 (2020)","key":"18_CR30","DOI":"10.1007\/978-3-030-58610-2_24"},{"doi-asserted-by":"crossref","unstructured":"Wang, Z., et al.: CAIBC: capturing all-round information beyond color for text-based person retrieval. In: Proceedings of the 30th ACM International Conference on Multimedia (2022)","key":"18_CR31","DOI":"10.1145\/3503161.3548057"},{"unstructured":"Wu, L., et al.: A survey on large language models for recommendation. ArXiv abs\/2305.19860 (2023)","key":"18_CR32"},{"doi-asserted-by":"crossref","unstructured":"Wu, Y., Yan, Z., Han, X., Li, G., Zou, C., Cui, S.: LapsCore: language-guided person search via color reasoning. In: 2021 IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 1604\u20131613 (2021)","key":"18_CR33","DOI":"10.1109\/ICCV48922.2021.00165"},{"doi-asserted-by":"crossref","unstructured":"Yin, S., at al.: A survey on multimodal large language models. ArXiv abs\/2306.13549 (2023)","key":"18_CR34","DOI":"10.1093\/nsr\/nwae403"},{"unstructured":"Zhang, S., Zheng, D., Hu, X., Yang, M.: Bidirectional long short-term memory networks for relation classification. In: Pacific Asia Conference on Language, Information and Computation (2015)","key":"18_CR35"},{"key":"18_CR36","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"707","DOI":"10.1007\/978-3-030-01246-5_42","volume-title":"Computer Vision \u2013 ECCV 2018","author":"Y Zhang","year":"2018","unstructured":"Zhang, Y., Lu, H.: Deep cross-modal projection learning for image-text matching. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11205, pp. 707\u2013723. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01246-5_42"},{"unstructured":"Zhao, W.X., et al.: A survey of large language models. ArXiv abs\/2303.18223 (2023)","key":"18_CR37"},{"doi-asserted-by":"crossref","unstructured":"Zheng, K., Liu, W., Liu, J., Zha, Z., Mei, T.: Hierarchical gumbel attention network for text-based person search. In: Proceedings of the 28th ACM International Conference on Multimedia (2020)","key":"18_CR38","DOI":"10.1145\/3394171.3413864"},{"doi-asserted-by":"crossref","unstructured":"Zheng, Z., Zheng, L., Garrett, M., Yang, Y., Xu, M., Shen, Y.D.: Dual-path convolutional image-text embeddings with instance loss. ACM Trans. Multimedia Comput. Commun. Appl. (TOMM) 16, 1 \u2013 23 (2017)","key":"18_CR39","DOI":"10.1145\/3383184"},{"doi-asserted-by":"crossref","unstructured":"Zhu, A., et al.: DSSL: deep surroundings-person separation learning for text-based person retrieval. In: Proceedings of the 29th ACM International Conference on Multimedia (2021)","key":"18_CR40","DOI":"10.1145\/3474085.3475369"}],"container-title":["Lecture Notes in Computer Science","Web and Big Data"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-97-7232-2_18","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,27]],"date-time":"2024-11-27T09:39:52Z","timestamp":1732700392000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-97-7232-2_18"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"ISBN":["9789819772315","9789819772322"],"references-count":40,"URL":"https:\/\/doi.org\/10.1007\/978-981-97-7232-2_18","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"28 August 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"APWeb-WAIM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Jinhua","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"31 August 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2 September 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"apwebwaim2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/apweb2024.zjnu.edu.cn\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}