{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,4,11]],"date-time":"2025-04-11T04:05:02Z","timestamp":1744344302287,"version":"3.40.4"},"publisher-location":"Singapore","reference-count":25,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819646050"},{"type":"electronic","value":"9789819646067"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-4606-7_19","type":"book-chapter","created":{"date-parts":[[2025,4,8]],"date-time":"2025-04-08T20:59:03Z","timestamp":1744145943000},"page":"221-234","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Integration Vision-Language Models for Feature Extraction in Multi-camera Multi-object Tracking"],"prefix":"10.1007","author":[{"given":"Nguyen Hoang","family":"Trung","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Trieu Thien","family":"Son","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tran","family":"Van Su","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6033-6484","authenticated-orcid":false,"given":"Phan Duy","family":"Hung","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,3,24]]},"reference":[{"key":"19_CR1","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2023.126558","volume":"552","author":"TI Amosa","year":"2023","unstructured":"Amosa, T.I., et al.: Multi-camera multi-object tracking: a review of current trends and future advances. Neurocomputing 552, 126558 (2023)","journal-title":"Neurocomputing"},{"key":"19_CR2","doi-asserted-by":"crossref","unstructured":"Teepe, T., Wolters, P., Gilg, J., Herzog, F., Rigoll, G.: Lifting multi-view detection and tracking to the bird's eye view. In:\u00a0Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 667\u2013676 (2024)","DOI":"10.1109\/CVPRW63382.2024.00071"},{"key":"19_CR3","doi-asserted-by":"crossref","unstructured":"Teepe, T., Wolters, P., Gilg, J., Herzog, F., Rigoll, G.: EarlyBird: early-fusion for multi-view tracking in the bird's eye View. In:\u00a0Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 102\u2013111 (2024)","DOI":"10.1109\/WACVW60836.2024.00018"},{"key":"19_CR4","doi-asserted-by":"crossref","unstructured":"Kohl, P., Specker, A., Schumann, A., Beyerer, J.: The mta dataset for multi-target multi-camera pedestrian tracking by weighted distance aggregation. In:\u00a0Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 1042\u20131043 (2020)","DOI":"10.1109\/CVPRW50498.2020.00529"},{"key":"19_CR5","doi-asserted-by":"crossref","unstructured":"Cheng, C.C., et al.: Rest: A reconfigurable spatial-temporal graph model for multi-camera multi-object tracking. In:\u00a0Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10051\u201310060 (2023)","DOI":"10.1109\/ICCV51070.2023.00922"},{"key":"19_CR6","unstructured":"Radford, A. et al.: Learning transferable visual models from natural language supervision. In: Proceedings of the\u00a0International conference on machine learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"19_CR7","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: Vilbert: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks.\u00a0Adv. Neural Inform. Process. Syst.\u00a032 (2019)"},{"key":"19_CR8","doi-asserted-by":"crossref","unstructured":"Chen, Y.C., et al.: Uniter: universal image-text representation learning. In:\u00a0European Conference on Computer Vision, pp. 104\u2013120. Springer, Cham (2020)","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"19_CR9","doi-asserted-by":"crossref","unstructured":"Chen, W., et al.: Beyond appearance: a semantic controllable self-supervised learning framework for human-centric visual tasks. In:\u00a0Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 15050\u201315061 (2023)","DOI":"10.1109\/CVPR52729.2023.01445"},{"key":"19_CR10","unstructured":"Li, J., Gong, X.: Prototypical contrastive learning-based CLIP fine-tuning for object re-identification. arXiv:2310.17218 (2023)"},{"key":"19_CR11","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2021.104330","volume":"116","author":"X Zang","year":"2021","unstructured":"Zang, X., Li, G., Gao, W., Shu, X.: Learning to disentangle scenes for person re-identification. Image Vis. Comput. 116, 104330 (2021)","journal-title":"Image Vis. Comput."},{"key":"19_CR12","doi-asserted-by":"crossref","unstructured":"Li, S., Sun, L., Li, Q.: CLIP-ReID: exploiting vision-language model for image re-identification without concrete text labels. In:\u00a0Proceedings of the AAAI Conference on Artificial Intelligence, pp. 1405\u20131413 (2023)","DOI":"10.1609\/aaai.v37i1.25225"},{"key":"19_CR13","unstructured":"Ge, Z. (2021). Yolox: exceeding yolo series in 2021. arXiv:2107.08430"},{"key":"19_CR14","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In\u00a0Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"19_CR15","doi-asserted-by":"crossref","unstructured":"Zhou, K., Yang, Y., Cavallaro, A., Xiang, T.: Omni-scale feature learning for person re-identification. In:\u00a0Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 3702\u20133712 (2019)","DOI":"10.1109\/ICCV.2019.00380"},{"key":"19_CR16","doi-asserted-by":"crossref","unstructured":"Ristani, E., Solera, F., Zou, R., Cucchiara, R., Tomasi, C.: Performance measures and a data set for multi-target, multi-camera tracking. In:\u00a0European Conference on Computer Vision, pp. 17\u201335, Springer, Cham (2016)","DOI":"10.1007\/978-3-319-48881-3_2"},{"key":"19_CR17","unstructured":"EPFL datasset: https:\/\/www.epfl.ch\/labs\/cvlab\/data\/data-pom-index-php\/"},{"key":"19_CR18","doi-asserted-by":"crossref","unstructured":"Zhang, Y., et al.: Bytetrack: Multi-object tracking by associating every detection box (2022)","DOI":"10.1007\/978-3-031-20047-2_1"},{"key":"19_CR19","unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision. In:\u00a0International Conference on Machine Learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"19_CR20","unstructured":"Dosovitskiy, A.: An image is worth 16x16 words: transformers for image recognition at scale.\u00a0arXiv:2010.11929 (2020)"},{"issue":"4","key":"19_CR21","doi-asserted-by":"crossref","first-page":"585","DOI":"10.1145\/263867.263872","volume":"44","author":"M Stoer","year":"1997","unstructured":"Stoer, M., Wagner, F.: A simple min-cut algorithm. J. ACM 44(4), 585\u2013591 (1997)","journal-title":"J. ACM"},{"key":"19_CR22","unstructured":"Shao, S., et al.: Crowdhuman: A benchmark for detecting human in a crowd.\u00a0arXiv:1805.00123 (2018)"},{"key":"19_CR23","unstructured":"Dendorfer, P.: Mot20: a benchmark for multi object tracking in crowded scenes.\u00a0arXiv:2003.09003 (2020)"},{"key":"19_CR24","doi-asserted-by":"crossref","unstructured":"Wei, L., Zhang, S., Gao, W., Tian, Q.: Person transfer gan to bridge domain gap for person re-identification. In:\u00a0Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 79\u201388 (2018)","DOI":"10.1109\/CVPR.2018.00016"},{"key":"19_CR25","doi-asserted-by":"crossref","unstructured":"Li, W., Zhao, R., Xiao, T., Wang, X.: DeepReID: deep filter pairing neural network for person re-identification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 152\u2013159. Columbus, OH, USA (2014)","DOI":"10.1109\/CVPR.2014.27"}],"container-title":["Lecture Notes in Computer Science","Integrated Uncertainty in Knowledge Modelling and Decision Making"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-4606-7_19","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,4,10]],"date-time":"2025-04-10T09:26:50Z","timestamp":1744277210000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-4606-7_19"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9789819646050","9789819646067"],"references-count":25,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-4606-7_19","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"24 March 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"IUKM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Symposium on Integrated Uncertainty in Knowledge Modelling and Decision Making","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Ho Chi Minh City","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Vietnam","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17 March 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"19 March 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"iukm2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/www.jaist.ac.jp\/IUKM\/IUKM2025\/index.php","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}