{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:56:14Z","timestamp":1781538974221,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":41,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/legalcode"}],"funder":[{"name":"Basic Research Project of Liaoning Provincial Department of Education","award":["LJ212410147090"],"award-info":[{"award-number":["LJ212410147090"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810707","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1385-1393","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["HD\u00b2FI-Net: Hierarchical Dual-Domain Fusion\u2013Interaction Network for RGB-T Semantic Segmentation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-3488-2787","authenticated-orcid":false,"given":"Zhenrong","family":"Guo","sequence":"first","affiliation":[{"name":"Liaoning Technical University, Huludao, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6635-0538","authenticated-orcid":false,"given":"Bowen","family":"Fei","sequence":"additional","affiliation":[{"name":"Liaoning Technical University, Huludao, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7583-9578","authenticated-orcid":false,"given":"Daqian","family":"Liu","sequence":"additional","affiliation":[{"name":"Liaoning Technical University, Huludao, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-0831-8737","authenticated-orcid":false,"given":"Jiahao","family":"Zhang","sequence":"additional","affiliation":[{"name":"Liaoning Technical University, Huludao, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"crossref","unstructured":"Guanhua An Yuhe Geng Shengyu Fang and Jichang Guo. 2025. SFDFNet: Leveraging spatial-frequency deep fusion for RGB-T semantic segmentation. Image and Vision Computing (2025) 105605.","DOI":"10.1016\/j.imavis.2025.105605"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"crossref","unstructured":"Shaohua Dong Wujie Zhou Caie Xu and Weiqing Yan. 2023. EGFNet: Edge-aware guidance fusion network for RGB\u2013thermal urban scene parsing. IEEE Transactions on Intelligent Transportation Systems 25 1 (2023) 657\u2013669.","DOI":"10.1109\/TITS.2023.3306368"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN54540.2023.10191977"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"crossref","unstructured":"Xiaodong Guo Wujie Zhou and Tong Liu. 2024. Contrastive learning-based knowledge distillation for RGB-thermal urban scene semantic segmentation. Knowledge-Based Systems 292 (2024) 111588.","DOI":"10.1016\/j.knosys.2024.111588"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8206396"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2019.8803025"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19797-0_31"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","unstructured":"Xiao Jin Chunle Guo Zhen He Jing Xu Yongwei Wang and Yuting Su. 2022. FCMNet: Frequency-aware cross-modality attention networks for RGB-D salient object detection. Neurocomputing 491 (2022) 414\u2013425. 10.1016\/j.neucom.2022.04.015","DOI":"10.1016\/j.neucom.2022.04.015"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW56347.2022.00043"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"crossref","unstructured":"Wenjie Lai Fanyu Zeng Xiao Hu Wei Li Shaowei He Ziji Liu and Yadong Jiang. 2023. MEFNET: Multi-expert fusion network for RGB-Thermal semantic segmentation. Engineering Applications of Artificial Intelligence 125 (2023) 106638.","DOI":"10.1016\/j.engappai.2023.106638"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","unstructured":"Gongyang Li Yike Wang Zhi Liu Xinpeng Zhang and Dan Zeng. 2023. RGB-T semantic segmentation with location activation and sharpening. IEEE Transactions on Circuits and Systems for Video Technology 33 3 (2023) 1223\u20131235. 10.1109\/TCSVT.2022.3208833","DOI":"10.1109\/TCSVT.2022.3208833"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"crossref","unstructured":"Wenli Liang Yuanjian Yang Fangyu Li Xi Long and Caifeng Shan. 2023. Mask-guided modality difference reduction network for RGB-T semantic segmentation. Neurocomputing 523 (2023) 9\u201317.","DOI":"10.1016\/j.neucom.2022.12.036"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00571"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"crossref","unstructured":"Jinfu Liu Hong Liu Xia Li Jiale Ren and Xinhua Xu. 2025. MiLNet: Multiplex interactive learning network for RGB-T semantic segmentation. IEEE Transactions on Image Processing (2025).","DOI":"10.1109\/TIP.2025.3544484"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00745"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"crossref","unstructured":"Jinfu Liu Wujie Zhou Yueli Cui Lu Yu and Ting Luo. 2022. GCNet: Grid-like context-aware network for RGB-thermal semantic segmentation. Neurocomputing 506 (2022) 60\u201367.","DOI":"10.1016\/j.neucom.2022.07.041"},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"crossref","unstructured":"Yuxiang Lu Shalayiding Sirejiding Yue Ding Chunlin Wang and Hongtao Lu. 2024. Prompt guided transformer for multi-task dense prediction. IEEE Transactions on Multimedia 26 (2024) 6375\u20136385.","DOI":"10.1109\/TMM.2024.3349865"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"crossref","unstructured":"Ying Lv Zhi Liu and Gongyang Li. 2024. Context-aware interaction network for rgb-t semantic segmentation. IEEE Transactions on Multimedia 26 (2024) 6348\u20136360.","DOI":"10.1109\/TMM.2023.3349072"},{"key":"e_1_3_3_1_20_2","unstructured":"Adam Paszke Abhishek Chaurasia Sangpil Kim and Eugenio Culurciello. 2016. Enet: A deep neural network architecture for real-time semantic segmentation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1606.02147 (2016)."},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196831"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-33715-4_54"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"crossref","unstructured":"Yuxiang Sun Weixun Zuo and Ming Liu. 2019. RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes. IEEE Robotics and Automation Letters 4 3 (2019) 2576\u20132583.","DOI":"10.1109\/LRA.2019.2904733"},{"key":"e_1_3_3_1_24_2","first-page":"3435","volume-title":"International Conference on Autonomous Unmanned Systems","author":"Wang Chao","year":"2021","unstructured":"Chao Wang and Tao Wu. 2021. MMNet: RGB-T semantic segmentation network based on multi-scale and adaptively mutual enhancement mechanism. In International Conference on Autonomous Unmanned Systems. Springer, 3435\u20133444."},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"crossref","unstructured":"Yike Wang Gongyang Li and Zhi Liu. 2023. SGFNet: Semantic-guided fusion network for RGB-thermal semantic segmentation. IEEE Transactions on Circuits and Systems for Video Technology 33 12 (2023) 7737\u20137748.","DOI":"10.1109\/TCSVT.2023.3281419"},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","unstructured":"Yikai Wang Fuchun Sun Wenbing Huang Fengxiang He and Dacheng Tao. 2023. Channel exchanging networks for multimodal and multitask dense image prediction. IEEE Transactions on Pattern Analysis and Machine Intelligence 45 5 (2023) 5481\u20135496. 10.1109\/TPAMI.2022.3211086","DOI":"10.1109\/TPAMI.2022.3211086"},{"key":"e_1_3_3_1_27_2","unstructured":"Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar Jose\u00a0M Alvarez and Ping Luo. 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. Advances in neural information processing systems 34 (2021) 12077\u201312090."},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"crossref","unstructured":"Han Xu Jiayi Ma Junjun Jiang Xiaojie Guo and Haibin Ling. 2020. U2Fusion: A unified unsupervised image fusion network. IEEE transactions on pattern analysis and machine intelligence 44 1 (2020) 502\u2013518.","DOI":"10.1109\/TPAMI.2020.3012548"},{"key":"e_1_3_3_1_29_2","first-page":"11863","volume-title":"International conference on machine learning","author":"Yang Lingxiao","year":"2021","unstructured":"Lingxiao Yang, Ru-Yuan Zhang, Lida Li, and Xiaohua Xie. 2021. Simam: A simple, parameter-free attention module for convolutional neural networks. In International conference on machine learning. PMLR, 11863\u201311874."},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02547"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"crossref","unstructured":"Jiaming Zhang Huayao Liu Kailun Yang Xinxin Hu Ruiping Liu and Rainer Stiefelhagen. 2023. CMX: Cross-modal fusion for RGB-X semantic segmentation with transformers. IEEE Transactions on intelligent transportation systems 24 12 (2023) 14679\u201314694.","DOI":"10.1109\/TITS.2023.3300537"},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00266"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"crossref","unstructured":"Yifei Zhang D\u00e9sir\u00e9 Sidib\u00e9 Olivier Morel and Fabrice M\u00e9riaudeau. 2021. Deep multimodal fusion for semantic image segmentation: A survey. Image and Vision Computing 105 (2021) 104042.","DOI":"10.1016\/j.imavis.2020.104042"},{"key":"e_1_3_3_1_34_2","first-page":"304","volume-title":"European Conference on Computer Vision","author":"Zhao Guoqiang","year":"2024","unstructured":"Guoqiang Zhao, Junjie Huang, Xiaoyun Yan, Zhaojing Wang, Junwei Tang, Yangjun Ou, Xinrong Hu, and Tao Peng. 2024. Open-vocabulary RGB-thermal semantic segmentation. In European Conference on Computer Vision. Springer, 304\u2013320."},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","unstructured":"Shenlu Zhao Jingyi Li and Qiang Zhang. 2025. C4Net: Excavating cross-modal context- and content-complementarity for RGB-T semantic segmentation. IEEE Transactions on Circuits and Systems for Video Technology 35 2 (2025) 1347\u20131361. 10.1109\/TCSVT.2024.3485655","DOI":"10.1109\/TCSVT.2024.3485655"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"crossref","unstructured":"Shenlu Zhao Yichen Liu Qiang Jiao Qiang Zhang and Jungong Han. 2023. Mitigating modality discrepancies for RGB-T semantic segmentation. IEEE Transactions on Neural Networks and Learning Systems 35 7 (2023) 9380\u20139394.","DOI":"10.1109\/TNNLS.2022.3233089"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"crossref","unstructured":"Shenlu Zhao and Qiang Zhang. 2022. A feature divide-and-conquer network for RGB-T semantic segmentation. IEEE Transactions on Circuits and Systems for Video Technology 33 6 (2022) 2892\u20132905.","DOI":"10.1109\/TCSVT.2022.3229359"},{"key":"e_1_3_3_1_38_2","series-title":"(IJCAI\u201920)","volume-title":"Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence","author":"Zhao Zixiang","year":"2021","unstructured":"Zixiang Zhao, Shuang Xu, Chunxia Zhang, Junmin Liu, Jiangshe Zhang, and Pengfei Li. 2021. DIDFuse: deep image decomposition for infrared and visible image fusion. In Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence (Yokohama, Yokohama, Japan) (IJCAI\u201920). Article 135, 1\u00a0pages."},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"crossref","unstructured":"Yuanjie Zhi Yuhang Wang Fan Zhang Mingyang Ma and Shaohui Mei. 2025. MSFFNet: Multimodal spatial\u2013frequency fusion network for RGB-DSM remote sensing image segmentation. Remote Sensing 17 22 (2025) 3745.","DOI":"10.3390\/rs17223745"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"crossref","unstructured":"Wujie Zhou Jinfu Liu Jingsheng Lei Lu Yu and Jenq-Neng Hwang. 2021. GMNet: Graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation. IEEE Transactions on Image Processing 30 (2021) 7790\u20137802.","DOI":"10.1109\/TIP.2021.3109518"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"crossref","unstructured":"Wujie Zhou Ying Lv Jingsheng Lei and Lu Yu. 2023. Embedded control gate fusion and attention residual learning for RGB\u2013thermal urban scene parsing. IEEE Transactions on Intelligent Transportation Systems 24 5 (2023) 4794\u20134803.","DOI":"10.1109\/TITS.2023.3242651"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"crossref","unstructured":"Wujie Zhou Han Zhang Weiqing Yan and Weisi Lin. 2023. MMSMCNet: Modal memory sharing and morphological complementary networks for RGB-T urban scene semantic segmentation. IEEE Transactions on Circuits and Systems for Video Technology 33 12 (2023) 7096\u20137108.","DOI":"10.1109\/TCSVT.2023.3275314"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:24:40Z","timestamp":1781537080000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810707"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":41,"alternative-id":["10.1145\/3805622.3810707","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810707","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}