{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,23]],"date-time":"2026-01-23T16:39:06Z","timestamp":1769186346980,"version":"3.49.0"},"publisher-location":"Singapore","reference-count":38,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819555666","type":"print"},{"value":"9789819555673","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-5567-3_30","type":"book-chapter","created":{"date-parts":[[2026,1,22]],"date-time":"2026-01-22T21:14:17Z","timestamp":1769116457000},"page":"434-448","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Leveraging Vision Foundation Models for\u00a0RGB-Thermal Semantic Segmentation"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-6952-5478","authenticated-orcid":false,"given":"Chenxu","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9955-3569","authenticated-orcid":false,"given":"Xiaojin","family":"Gong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,1,23]]},"reference":[{"key":"30_CR1","unstructured":"Chen, L.C., Papandreou, G., Schroff, F., Adam, H.: Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 (2017)"},{"key":"30_CR2","doi-asserted-by":"crossref","unstructured":"Cheng, B., Misra, I., Schwing, A.G., Kirillov, A., Girdhar, R.: Masked-attention mask transformer for universal image segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1290\u20131299 (2022)","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"30_CR3","doi-asserted-by":"crossref","unstructured":"Cordts, M., et al.: The cityscapes dataset for semantic urban scene understanding. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3213\u20133223 (2016)","DOI":"10.1109\/CVPR.2016.350"},{"key":"30_CR4","doi-asserted-by":"crossref","unstructured":"Deng, F., et al.: FEANet: Feature-enhanced attention network for RGB-thermal real-time semantic segmentation. In: 2021 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 4467\u20134473. IEEE (2021)","DOI":"10.1109\/IROS51168.2021.9636084"},{"key":"30_CR5","unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"30_CR6","unstructured":"Fan, S., Wang, Z., Wang, Y., Liu, J.: Spidermesh: spatial-aware demand-guided recursive meshing for RGB-t semantic segmentation. arXiv preprint arXiv:2303.08692 (2023)"},{"key":"30_CR7","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2024.105171","volume":"149","author":"Y Fang","year":"2024","unstructured":"Fang, Y., et al.: Eva-02: a visual representation for neon genesis. Image Vis. Comput. 149, 105171 (2024)","journal-title":"Image Vis. Comput."},{"issue":"9","key":"30_CR8","doi-asserted-by":"publisher","first-page":"3243","DOI":"10.1007\/s00371-022-02559-2","volume":"38","author":"Y Fu","year":"2022","unstructured":"Fu, Y., Chen, Q., Zhao, H.: CGFNet: cross-guided fusion network for RGB-thermal semantic segmentation. Vis. Comput. 38(9), 3243\u20133252 (2022)","journal-title":"Vis. Comput."},{"key":"30_CR9","doi-asserted-by":"crossref","unstructured":"Ha, Q., Watanabe, K., Karasawa, T., Ushiku, Y., Harada, T.: MFNet: towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes. In: 2017 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 5108\u20135115. IEEE (2017)","DOI":"10.1109\/IROS.2017.8206396"},{"key":"30_CR10","doi-asserted-by":"crossref","unstructured":"He, K., et al.: Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16000\u201316009 (2022)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"30_CR11","unstructured":"Houlsby, N., et al.: Parameter-efficient transfer learning for NLP. In: International Conference on Machine Learning, pp. 2790\u20132799. PMLR (2019)"},{"issue":"2","key":"30_CR12","first-page":"3","volume":"1","author":"EJ Hu","year":"2022","unstructured":"Hu, E.J.: Lora: Low-rank adaptation of large language models. ICLR 1(2), 3 (2022)","journal-title":"ICLR"},{"key":"30_CR13","unstructured":"Kirillov, A., et al.: Segment anything. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4015\u20134026 (2023)"},{"key":"30_CR14","doi-asserted-by":"crossref","unstructured":"Li, H., Sun, Y.: IGFnet: Illumination-guided fusion network for semantic scene understanding using RGB-thermal images. In: 2023 IEEE International Conference on Robotics and Biomimetics (ROBIO), pp.\u00a01\u20136. IEEE (2023)","DOI":"10.1109\/ROBIO58561.2023.10354613"},{"key":"30_CR15","unstructured":"Li, J., Yun, P., Chen, Q., Fan, R.: HAPNet: toward superior RGB-thermal scene parsing via hybrid, asymmetric, and progressive heterogeneous feature fusion. arXiv preprint arXiv:2404.03527 (2024)"},{"key":"30_CR16","doi-asserted-by":"crossref","unstructured":"Li, X.L., Liang, P.: Prefix-tuning: optimizing continuous prompts for generation. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pp. 4582\u20134597. Association for Computational Linguistics, Online (2021)","DOI":"10.18653\/v1\/2021.acl-long.353"},{"issue":"7","key":"30_CR17","doi-asserted-by":"publisher","first-page":"4060","DOI":"10.1109\/LRA.2023.3272269","volume":"8","author":"M Liang","year":"2023","unstructured":"Liang, M., et al.: Explicit attention-enhanced fusion for RGB-thermal perception tasks. IEEE Robot. Autom. Lett. 8(7), 4060\u20134067 (2023)","journal-title":"IEEE Robot. Autom. Lett."},{"key":"30_CR18","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"30_CR19","doi-asserted-by":"publisher","first-page":"6348","DOI":"10.1109\/TMM.2023.3349072","volume":"26","author":"Y Lv","year":"2024","unstructured":"Lv, Y., Liu, Z., Li, G.: Context-aware interaction network for RGB-t semantic segmentation. IEEE Trans. Multimedia 26, 6348\u20136360 (2024)","journal-title":"IEEE Trans. Multimedia"},{"key":"30_CR20","unstructured":"Oquab, M., et al.: Dinov2: learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)"},{"key":"30_CR21","unstructured":"Radford, A., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PmLR (2021)"},{"key":"30_CR22","doi-asserted-by":"crossref","unstructured":"Shin, U., Lee, K., Kweon, I.S., Oh, J.: Complementary random masking for RGB-thermal semantic segmentation. In: 2024 IEEE International Conference on Robotics and Automation (ICRA), pp. 11110\u201311117. IEEE (2024)","DOI":"10.1109\/ICRA57147.2024.10611200"},{"key":"30_CR23","doi-asserted-by":"crossref","unstructured":"Shivakumar, S.S., et al.: Pst900: RGB-thermal calibration, dataset and segmentation network. In: 2020 IEEE International Conference on Robotics and Automation (ICRA), pp. 9441\u20139447. IEEE (2020)","DOI":"10.1109\/ICRA40945.2020.9196831"},{"issue":"3","key":"30_CR24","doi-asserted-by":"publisher","first-page":"2576","DOI":"10.1109\/LRA.2019.2904733","volume":"4","author":"Y Sun","year":"2019","unstructured":"Sun, Y., Zuo, W., Liu, M.: RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes. IEEE Robot. Autom. Lett. 4(3), 2576\u20132583 (2019)","journal-title":"IEEE Robot. Autom. Lett."},{"issue":"3","key":"30_CR25","doi-asserted-by":"publisher","first-page":"1000","DOI":"10.1109\/TASE.2020.2993143","volume":"18","author":"Y Sun","year":"2021","unstructured":"Sun, Y., Zuo, W., Yun, P., Wang, H., Liu, M.: FuseSeg: semantic segmentation of urban scenes based on RGB and thermal data fusion. IEEE Trans. Autom. Sci. Eng. 18(3), 1000\u20131011 (2021)","journal-title":"IEEE Trans. Autom. Sci. Eng."},{"key":"30_CR26","unstructured":"Vaswani, A., et al.: Attention is all you need. Adv. Neural Inf. Process. Syst. 30 (2017)"},{"key":"30_CR27","doi-asserted-by":"crossref","unstructured":"Wan, Z., et al.: Sigma: Siamese mamba network for multi-modal semantic segmentation. In: 2025 IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 1734\u20131744. IEEE (2025)","DOI":"10.1109\/WACV61041.2025.00176"},{"key":"30_CR28","first-page":"12077","volume":"34","author":"E Xie","year":"2021","unstructured":"Xie, E.: SegFormer: simple and efficient design for semantic segmentation with transformers. Adv. Neural. Inf. Process. Syst. 34, 12077\u201312090 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"30_CR29","doi-asserted-by":"publisher","first-page":"179","DOI":"10.1016\/j.patrec.2021.03.015","volume":"146","author":"J Xu","year":"2021","unstructured":"Xu, J., Lu, K., Wang, H.: Attention fusion network for multi-spectral semantic segmentation. Pattern Recogn. Lett. 146, 179\u2013184 (2021)","journal-title":"Pattern Recogn. Lett."},{"key":"30_CR30","unstructured":"Yu, F., Koltun, V.: Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122 (2015)"},{"key":"30_CR31","doi-asserted-by":"crossref","unstructured":"Yuan, M., et al.: UniRGB-IR: a unified framework for RGB-infrared semantic tasks via adapter tuning. arXiv preprint arXiv:2404.17360 (2024)","DOI":"10.1145\/3746027.3754806"},{"issue":"12","key":"30_CR32","doi-asserted-by":"publisher","first-page":"14679","DOI":"10.1109\/TITS.2023.3300537","volume":"24","author":"J Zhang","year":"2023","unstructured":"Zhang, J., et al.: CMX: cross-modal fusion for RGB-X semantic segmentation with transformers. IEEE Trans. Intell. Transp. Syst. 24(12), 14679\u201314694 (2023)","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"30_CR33","doi-asserted-by":"crossref","unstructured":"Zhang, Q., et al.: ABMDRNet: adaptive-weighted bi-directional modality difference reduction network for RGB-T semantic segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2633\u20132642 (2021)","DOI":"10.1109\/CVPR46437.2021.00266"},{"key":"30_CR34","doi-asserted-by":"crossref","unstructured":"Zhou, B., et al.: Scene parsing through ade20k dataset. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 633\u2013641 (2017)","DOI":"10.1109\/CVPR.2017.544"},{"key":"30_CR35","first-page":"1","volume":"19","author":"H Zhou","year":"2022","unstructured":"Zhou, H.: Multispectral fusion transformer network for RGB-thermal urban scene semantic segmentation. IEEE Geosci. Remote Sens. Lett. 19, 1\u20135 (2022)","journal-title":"IEEE Geosci. Remote Sens. Lett."},{"key":"30_CR36","doi-asserted-by":"crossref","unstructured":"Zhou, W., Dong, S., Xu, C., Qian, Y.: Edge-aware guidance fusion network for RGB\u2013thermal scene parsing. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a036, pp. 3571\u20133579 (2022)","DOI":"10.1609\/aaai.v36i3.20269"},{"issue":"12","key":"30_CR37","doi-asserted-by":"publisher","first-page":"7631","DOI":"10.1109\/TSMC.2023.3298921","volume":"53","author":"W Zhou","year":"2023","unstructured":"Zhou, W., Gong, T., Lei, J., Yu, L.: DBCNet: dynamic bilateral cross-fusion network for RGB-T urban scene understanding in intelligent vehicles. IEEE Trans. Syst. Man Cybern. Syst. 53(12), 7631\u20137641 (2023)","journal-title":"IEEE Trans. Syst. Man Cybern. Syst."},{"key":"30_CR38","doi-asserted-by":"publisher","first-page":"7790","DOI":"10.1109\/TIP.2021.3109518","volume":"30","author":"W Zhou","year":"2021","unstructured":"Zhou, W., Liu, J., Lei, J., Yu, L., Hwang, J.N.: GMNet: Graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation. IEEE Trans. Image Process. 30, 7790\u20137802 (2021)","journal-title":"IEEE Trans. Image Process."}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition and Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-5567-3_30","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,22]],"date-time":"2026-01-22T21:14:23Z","timestamp":1769116463000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-5567-3_30"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9789819555666","9789819555673"],"references-count":38,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-5567-3_30","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"23 January 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"PRCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Chinese Conference on Pattern Recognition and Computer Vision  (PRCV)","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Shanghai","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15 October 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18 October 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ccprcv2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/2025.prcv.cn\/index.asp","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}