{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,24]],"date-time":"2026-04-24T07:38:04Z","timestamp":1777016284760,"version":"3.51.4"},"reference-count":96,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62541601"],"award-info":[{"award-number":["62541601"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62306010"],"award-info":[{"award-number":["62306010"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Signal Processing: Image Communication"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.image.2026.117551","type":"journal-article","created":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T15:16:00Z","timestamp":1775315760000},"page":"117551","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Du-CIPT: Dual Cross-Modal Interactive Pyramid Transformer for RGB-Thermal salient object detection and segmentation"],"prefix":"10.1016","volume":"145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6941-3300","authenticated-orcid":false,"given":"Jiesheng","family":"Wu","sequence":"first","affiliation":[]},{"given":"Ji","family":"Du","sequence":"additional","affiliation":[]},{"given":"Fangwei","family":"Hao","sequence":"additional","affiliation":[]},{"given":"Jiankang","family":"Hong","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"issue":"10","key":"10.1016\/j.image.2026.117551_b1","doi-asserted-by":"crossref","first-page":"2941","DOI":"10.1109\/TCSVT.2018.2870832","article-title":"Review of visual saliency detection with comprehensive information","volume":"29","author":"Cong","year":"2019","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"6","key":"10.1016\/j.image.2026.117551_b2","doi-asserted-by":"crossref","first-page":"2892","DOI":"10.1109\/TCSVT.2022.3229359","article-title":"A feature divide-and-conquer network for RGB-T semantic segmentation","volume":"33","author":"Zhao","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"4","key":"10.1016\/j.image.2026.117551_b3","doi-asserted-by":"crossref","first-page":"862","DOI":"10.1109\/TPAMI.2014.2353617","article-title":"Unsupervised object class discovery via saliency-guided multiple class learning","volume":"37","author":"Zhu","year":"2015","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.image.2026.117551_b4","doi-asserted-by":"crossref","unstructured":"M. Donoser, M. Urschler, M. Hirzer, H. Bischof, Saliency driven total variation segmentation, in: 2009 IEEE 12th International Conference on Computer Vision, 2009, pp. 817\u2013824.","DOI":"10.1109\/ICCV.2009.5459296"},{"issue":"3","key":"10.1016\/j.image.2026.117551_b5","first-page":"2271","article-title":"Unsupervised saliency detection of rail surface defects using stereoscopic images","volume":"17","author":"Niu","year":"2021","journal-title":"IEEE Trans. Ind. Informatics"},{"key":"10.1016\/j.image.2026.117551_b6","first-page":"1","article-title":"Triplet-graph reasoning network for few-shot metal generic surface defect segmentation","volume":"70","author":"Bao","year":"2021","journal-title":"IEEE Trans. Instrum. Meas."},{"key":"10.1016\/j.image.2026.117551_b7","first-page":"1","article-title":"Automatic and accurate measurement of microhardness profile based on image processing","volume":"70","author":"Zhao","year":"2021","journal-title":"IEEE Trans. Instrum. Meas."},{"issue":"7","key":"10.1016\/j.image.2026.117551_b8","doi-asserted-by":"crossref","first-page":"4599","DOI":"10.1109\/TCSVT.2021.3132047","article-title":"Learning hybrid semantic affinity for point cloud segmentation","volume":"32","author":"Song","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b9","doi-asserted-by":"crossref","unstructured":"M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, B. Schiele, The Cityscapes Dataset for Semantic Urban Scene Understanding, in: 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2016, pp. 3213\u20133223.","DOI":"10.1109\/CVPR.2016.350"},{"issue":"6","key":"10.1016\/j.image.2026.117551_b10","doi-asserted-by":"crossref","first-page":"3798","DOI":"10.1109\/TCSVT.2021.3116210","article-title":"Partial domain adaptation on semantic segmentation","volume":"32","author":"Tian","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"11","key":"10.1016\/j.image.2026.117551_b11","first-page":"8167","article-title":"CyCoSeg: A cyclic collaborative framework for automated medical image segmentation","volume":"44","author":"Medley","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"8","key":"10.1016\/j.image.2026.117551_b12","doi-asserted-by":"crossref","first-page":"3128","DOI":"10.1109\/TCSVT.2020.3037234","article-title":"Video semantic segmentation with distortion-aware feature correction","volume":"31","author":"Zhuang","year":"2021","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b13","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2023.105919","article-title":"RGB-T image analysis technology and application: A survey","volume":"120","author":"Song","year":"2023","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.image.2026.117551_b14","doi-asserted-by":"crossref","unstructured":"S.S. Shivakumar, N. Rodrigues, A. Zhou, I.D. Miller, V. Kumar, C.J. Taylor, PST900: RGB-Thermal Calibration, Dataset and Segmentation Network, in: 2020 IEEE International Conference on Robotics and Automation, ICRA, 2020, pp. 9441\u20139447.","DOI":"10.1109\/ICRA40945.2020.9196831"},{"key":"10.1016\/j.image.2026.117551_b15","doi-asserted-by":"crossref","unstructured":"F. Deng, H. Feng, M. Liang, H. Wang, Y. Yang, Y. Gao, J. Chen, J. Hu, X. Guo, T.L. Lam, FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation, in: 2021 IEEE\/RSJ International Conference on Intelligent Robots and Systems, IROS, 2021, pp. 4467\u20134473.","DOI":"10.1109\/IROS51168.2021.9636084"},{"key":"10.1016\/j.image.2026.117551_b16","first-page":"3571","article-title":"Edge-aware guidance fusion network for RGB\u2013thermal scene parsing","volume":"vol. 36","author":"Zhou","year":"2022"},{"key":"10.1016\/j.image.2026.117551_b17","doi-asserted-by":"crossref","unstructured":"Q. Ha, K. Watanabe, T. Karasawa, Y. Ushiku, T. Harada, MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes, in: 2017 IEEE\/RSJ International Conference on Intelligent Robots and Systems, IROS, 2017, pp. 5108\u20135115.","DOI":"10.1109\/IROS.2017.8206396"},{"issue":"3","key":"10.1016\/j.image.2026.117551_b18","doi-asserted-by":"crossref","first-page":"2576","DOI":"10.1109\/LRA.2019.2904733","article-title":"RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes","volume":"4","author":"Sun","year":"2019","journal-title":"IEEE Robot. Autom. Lett."},{"issue":"3","key":"10.1016\/j.image.2026.117551_b19","doi-asserted-by":"crossref","first-page":"1000","DOI":"10.1109\/TASE.2020.2993143","article-title":"FuseSeg: Semantic segmentation of urban scenes based on RGB and thermal data fusion","volume":"18","author":"Sun","year":"2021","journal-title":"IEEE Trans. Autom. Sci. Eng."},{"key":"10.1016\/j.image.2026.117551_b20","doi-asserted-by":"crossref","first-page":"179","DOI":"10.1016\/j.patrec.2021.03.015","article-title":"Attention fusion network for multi-spectral semantic segmentation","volume":"146","author":"Xu","year":"2021","journal-title":"Pattern Recognit. Lett."},{"issue":"5","key":"10.1016\/j.image.2026.117551_b21","doi-asserted-by":"crossref","first-page":"5817","DOI":"10.1007\/s10489-021-02687-7","article-title":"MMNet: Multi-modal multi-stage network for RGB-T image semantic segmentation","volume":"52","author":"Lan","year":"2022","journal-title":"Appl. Intell."},{"key":"10.1016\/j.image.2026.117551_b22","doi-asserted-by":"crossref","first-page":"7790","DOI":"10.1109\/TIP.2021.3109518","article-title":"GMNet: Graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation","volume":"30","author":"Zhou","year":"2021","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.image.2026.117551_b23","doi-asserted-by":"crossref","unstructured":"Q. Zhang, S. Zhao, Y. Luo, D. Zhang, N. Huang, J. Han, ABMDRNet: Adaptive-weighted Bi-directional Modality Difference Reduction Network for RGB-T Semantic Segmentation, in: 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2021, pp. 2633\u20132642.","DOI":"10.1109\/CVPR46437.2021.00266"},{"issue":"4","key":"10.1016\/j.image.2026.117551_b24","doi-asserted-by":"crossref","first-page":"957","DOI":"10.1109\/TETCI.2021.3118043","article-title":"APNet: Adversarial learning assistance and perceived importance fusion network for all-day RGB-T salient object detection","volume":"6","author":"Zhou","year":"2022","journal-title":"IEEE Trans. Emerg. Top. Comput. Intell."},{"key":"10.1016\/j.image.2026.117551_b25","doi-asserted-by":"crossref","first-page":"5678","DOI":"10.1109\/TIP.2021.3087412","article-title":"Multi-interactive dual-decoder for RGB-thermal salient object detection","volume":"30","author":"Tu","year":"2021","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.image.2026.117551_b26","doi-asserted-by":"crossref","first-page":"132","DOI":"10.1016\/j.neucom.2022.03.029","article-title":"Multi-modal interactive attention and dual progressive decoding network for RGB-D\/T salient object detection","volume":"490","author":"Liang","year":"2022","journal-title":"Neurocomputing"},{"key":"10.1016\/j.image.2026.117551_b27","doi-asserted-by":"crossref","first-page":"4163","DOI":"10.1109\/TMM.2022.3171688","article-title":"RGBT salient object detection: A large-scale dataset and benchmark","volume":"25","author":"Tu","year":"2023","journal-title":"IEEE Trans. Multimed."},{"issue":"3","key":"10.1016\/j.image.2026.117551_b28","doi-asserted-by":"crossref","first-page":"1224","DOI":"10.1109\/TCSVT.2021.3077058","article-title":"ECFFNet: Effective and consistent feature fusion network for RGB-T salient object detection","volume":"32","author":"Zhou","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b29","doi-asserted-by":"crossref","first-page":"1329","DOI":"10.1109\/TIP.2023.3242775","article-title":"LSNet: Lightweight spatial boosting network for detecting salient objects in RGB-thermal images","volume":"32","author":"Zhou","year":"2023","journal-title":"IEEE Trans. Image Process."},{"issue":"1","key":"10.1016\/j.image.2026.117551_b30","doi-asserted-by":"crossref","first-page":"1919","DOI":"10.1109\/TIV.2023.3314527","article-title":"CACFNet: Cross-modal attention cascaded fusion network for RGB-T urban scene parsing","volume":"9","author":"Zhou","year":"2024","journal-title":"IEEE Trans. Intell. Veh."},{"issue":"1","key":"10.1016\/j.image.2026.117551_b31","doi-asserted-by":"crossref","first-page":"657","DOI":"10.1109\/TITS.2023.3306368","article-title":"EGFNet: Edge-aware guidance fusion network for RGB\u2013thermal urban scene parsing","volume":"25","author":"Dong","year":"2024","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.image.2026.117551_b32","doi-asserted-by":"crossref","first-page":"2273","DOI":"10.1109\/LSP.2022.3219350","article-title":"GEBNet: Graph-enhancement branch network for RGB-T scene parsing","volume":"29","author":"Dong","year":"2022","journal-title":"IEEE Signal Process. Lett."},{"key":"10.1016\/j.image.2026.117551_b33","series-title":"Efficient multimodal semantic segmentation via dual-prompt learning","author":"Dong","year":"2023"},{"issue":"12","key":"10.1016\/j.image.2026.117551_b34","doi-asserted-by":"crossref","first-page":"7631","DOI":"10.1109\/TSMC.2023.3298921","article-title":"DBCNet: Dynamic bilateral cross-fusion network for RGB-T urban scene understanding in intelligent vehicles","volume":"53","author":"Zhou","year":"2023","journal-title":"IEEE Trans. Syst. Man, Cybern.: Syst."},{"key":"10.1016\/j.image.2026.117551_b35","series-title":"Image and Graphics Technologies and Applications: 13th Conference on Image and Graphics Technologies and Applications, IGTA 2018, Beijing, China, April 8\u201310, 2018, Revised Selected Papers 13","first-page":"359","article-title":"RGB-t saliency detection benchmark: Dataset, baselines, analysis and a novel approach","author":"Wang","year":"2018"},{"issue":"1","key":"10.1016\/j.image.2026.117551_b36","doi-asserted-by":"crossref","first-page":"160","DOI":"10.1109\/TMM.2019.2924578","article-title":"RGB-t image saliency detection via collaborative graph learning","volume":"22","author":"Tu","year":"2019","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.image.2026.117551_b37","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2022.110047","article-title":"Asymmetric cross-modal activation network for RGB-T salient object detection","volume":"258","author":"Xu","year":"2022","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.image.2026.117551_b38","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2023.110322","article-title":"Cross-modality salient object detection network with universality and anti-interference","volume":"264","author":"Wen","year":"2023","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.image.2026.117551_b39","doi-asserted-by":"crossref","first-page":"5678","DOI":"10.1109\/TIP.2021.3087412","article-title":"Multi-interactive dual-decoder for RGB-thermal salient object detection","volume":"30","author":"Tu","year":"2021","journal-title":"IEEE Trans. Image Process."},{"issue":"5","key":"10.1016\/j.image.2026.117551_b40","doi-asserted-by":"crossref","first-page":"2949","DOI":"10.1109\/TCSVT.2021.3099120","article-title":"CGFNet: Cross-guided fusion network for RGB-T salient object detection","volume":"32","author":"Wang","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b41","doi-asserted-by":"crossref","first-page":"6971","DOI":"10.1109\/TMM.2022.3216476","article-title":"Does thermal really always matter for RGB-T salient object detection?","volume":"25","author":"Cong","year":"2023","journal-title":"IEEE Trans. Multimed."},{"issue":"9","key":"10.1016\/j.image.2026.117551_b42","doi-asserted-by":"crossref","first-page":"2020","DOI":"10.3390\/rs14092020","article-title":"Improving RGB-infrared object detection by reducing cross-modality redundancy","volume":"14","author":"Wang","year":"2022","journal-title":"Remote. Sens."},{"key":"10.1016\/j.image.2026.117551_b43","doi-asserted-by":"crossref","first-page":"892","DOI":"10.1109\/TIP.2023.3234702","article-title":"Caver: Cross-modal view-mixed transformer for bi-modal salient object detection","volume":"32","author":"Pang","year":"2023","journal-title":"IEEE Trans. Image Process."},{"issue":"1","key":"10.1016\/j.image.2026.117551_b44","doi-asserted-by":"crossref","first-page":"15","DOI":"10.1049\/cvi2.12221","article-title":"Mirror complementary transformer network for RGB-thermal salient object detection","volume":"18","author":"Jiang","year":"2024","journal-title":"IET Comput. Vis."},{"key":"10.1016\/j.image.2026.117551_b45","doi-asserted-by":"crossref","DOI":"10.1016\/j.measurement.2021.110176","article-title":"Robust semantic segmentation based on RGB-thermal in variable lighting scenes","volume":"186","author":"Guo","year":"2021","journal-title":"Measurement"},{"key":"10.1016\/j.image.2026.117551_b46","series-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020"},{"key":"10.1016\/j.image.2026.117551_b47","series-title":"CMX: Cross-modal fusion for RGB-x semantic segmentation with transformers","author":"Liu","year":"2022"},{"key":"10.1016\/j.image.2026.117551_b48","doi-asserted-by":"crossref","unstructured":"K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770\u2013778.","DOI":"10.1109\/CVPR.2016.90"},{"key":"10.1016\/j.image.2026.117551_b49","doi-asserted-by":"crossref","first-page":"3321","DOI":"10.1109\/TIP.2019.2959253","article-title":"RGB-T salient object detection via fusing multi-level CNN features","volume":"29","author":"Zhang","year":"2020","journal-title":"IEEE Trans. Image Process."},{"issue":"5","key":"10.1016\/j.image.2026.117551_b50","doi-asserted-by":"crossref","first-page":"3111","DOI":"10.1109\/TCSVT.2021.3102268","article-title":"Efficient context-guided stacked refinement network for RGB-T salient object detection","volume":"32","author":"Huo","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"3","key":"10.1016\/j.image.2026.117551_b51","doi-asserted-by":"crossref","first-page":"1223","DOI":"10.1109\/TCSVT.2022.3208833","article-title":"RGB-T semantic segmentation with location, activation, and sharpening","volume":"33","author":"Li","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b52","first-page":"1","article-title":"Context-aware interaction network for RGB-T semantic segmentation","author":"Lv","year":"2023","journal-title":"IEEE Trans. Multimed."},{"issue":"11","key":"10.1016\/j.image.2026.117551_b53","doi-asserted-by":"crossref","first-page":"12760","DOI":"10.1109\/TPAMI.2022.3202765","article-title":"P2T: Pyramid pooling transformer for scene understanding","volume":"45","author":"Wu","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.image.2026.117551_b54","series-title":"Advances in Neural Information Processing Systems","first-page":"5998","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"key":"10.1016\/j.image.2026.117551_b55","doi-asserted-by":"crossref","unstructured":"S.W. Zamir, A. Arora, S. Khan, M. Hayat, F.S. Khan, M.-H. Yang, Restormer: Efficient transformer for high-resolution image restoration, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 5728\u20135739.","DOI":"10.1109\/CVPR52688.2022.00564"},{"key":"10.1016\/j.image.2026.117551_b56","doi-asserted-by":"crossref","unstructured":"Q. Hou, M.-M. Cheng, X. Hu, A. Borji, Z. Tu, P.H. Torr, Deeply supervised salient object detection with short connections, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 3203\u20133212.","DOI":"10.1109\/CVPR.2017.563"},{"key":"10.1016\/j.image.2026.117551_b57","doi-asserted-by":"crossref","unstructured":"C. Godard, O. Mac Aodha, G.J. Brostow, Unsupervised monocular depth estimation with left-right consistency, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 270\u2013279.","DOI":"10.1109\/CVPR.2017.699"},{"key":"10.1016\/j.image.2026.117551_b58","doi-asserted-by":"crossref","unstructured":"G. M\u00e1ttyus, W. Luo, R. Urtasun, Deeproadmapper: Extracting road topology from aerial images, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 3438\u20133446.","DOI":"10.1109\/ICCV.2017.372"},{"issue":"12","key":"10.1016\/j.image.2026.117551_b59","doi-asserted-by":"crossref","first-page":"7737","DOI":"10.1109\/TCSVT.2023.3281419","article-title":"SGFNet: Semantic-guided fusion network for RGB-thermal semantic segmentation","volume":"33","author":"Wang","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b60","doi-asserted-by":"crossref","unstructured":"M. Berman, A.R. Triki, M.B. Blaschko, The lov\u00e1sz-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4413\u20134421.","DOI":"10.1109\/CVPR.2018.00464"},{"issue":"1","key":"10.1016\/j.image.2026.117551_b61","doi-asserted-by":"crossref","first-page":"160","DOI":"10.1109\/TMM.2019.2924578","article-title":"RGB-T image saliency detection via collaborative graph learning","volume":"22","author":"Tu","year":"2020","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.image.2026.117551_b62","doi-asserted-by":"crossref","unstructured":"J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei, ImageNet: A large-scale hierarchical image database, in: 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009, pp. 248\u2013255.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"10.1016\/j.image.2026.117551_b63","series-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014"},{"key":"10.1016\/j.image.2026.117551_b64","doi-asserted-by":"crossref","unstructured":"J.-J. Liu, Q. Hou, M.-M. Cheng, J. Feng, J. Jiang, A Simple Pooling-Based Design for Real-Time Salient Object Detection, in: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2019, pp. 3912\u20133921.","DOI":"10.1109\/CVPR.2019.00404"},{"key":"10.1016\/j.image.2026.117551_b65","series-title":"Proceedings of the 27th International Joint Conference on Artificial Intelligence","first-page":"684","article-title":"R3net: Recurrent residual refinement network for saliency detection","author":"Deng","year":"2018"},{"key":"10.1016\/j.image.2026.117551_b66","doi-asserted-by":"crossref","unstructured":"Z. Wu, L. Su, Q. Huang, Cascaded Partial Decoder for Fast and Accurate Salient Object Detection, in: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2019, pp. 3902\u20133911.","DOI":"10.1109\/CVPR.2019.00403"},{"key":"10.1016\/j.image.2026.117551_b67","doi-asserted-by":"crossref","first-page":"376","DOI":"10.1016\/j.patcog.2018.08.007","article-title":"Multi-modal fusion network with multi-scale multi-path and cross-modal interactions for RGB-D salient object detection","volume":"86","author":"Chen","year":"2019","journal-title":"Pattern Recognit."},{"issue":"6","key":"10.1016\/j.image.2026.117551_b68","doi-asserted-by":"crossref","first-page":"2825","DOI":"10.1109\/TIP.2019.2891104","article-title":"Three-stream attention-aware network for RGB-d salient object detection","volume":"28","author":"Chen","year":"2019","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.image.2026.117551_b69","doi-asserted-by":"crossref","unstructured":"N. Liu, N. Zhang, J. Han, Learning Selective Self-Mutual Attention for RGB-D Saliency Detection, in: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2020, pp. 13753\u201313762.","DOI":"10.1109\/CVPR42600.2020.01377"},{"key":"10.1016\/j.image.2026.117551_b70","doi-asserted-by":"crossref","unstructured":"K. Fu, D.-P. Fan, G.-P. Ji, Q. Zhao, JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection, in: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2020, pp. 3049\u20133059.","DOI":"10.1109\/CVPR42600.2020.00312"},{"key":"10.1016\/j.image.2026.117551_b71","doi-asserted-by":"crossref","unstructured":"Z. Tu, T. Xia, C. Li, Y. Lu, J. Tang, M3S-NIR: Multi-modal Multi-scale Noise-Insensitive Ranking for RGB-T Saliency Detection, in: 2019 IEEE Conference on Multimedia Information Processing and Retrieval, MIPR, 2019, pp. 141\u2013146.","DOI":"10.1109\/MIPR.2019.00032"},{"issue":"4","key":"10.1016\/j.image.2026.117551_b72","doi-asserted-by":"crossref","first-page":"2091","DOI":"10.1109\/TCSVT.2021.3082939","article-title":"Unified information fusion network for multi-modal RGB-D and RGB-T salient object detection","volume":"32","author":"Gao","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b73","doi-asserted-by":"crossref","first-page":"410","DOI":"10.1016\/j.neunet.2023.12.031","article-title":"MSEDNet: Multi-scale fusion and edge-supervised network for RGB-T salient object detection","volume":"171","author":"Peng","year":"2024","journal-title":"Neural Netw."},{"key":"10.1016\/j.image.2026.117551_b74","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2024.106406","article-title":"Salient object detection in low-light RGB-T scene via spatial-frequency cues mining","volume":"178","author":"Yue","year":"2024","journal-title":"Neural Netw."},{"key":"10.1016\/j.image.2026.117551_b75","doi-asserted-by":"crossref","unstructured":"D.-P. Fan, M.-M. Cheng, Y. Liu, T. Li, A. Borji, Structure-measure: A new way to evaluate foreground maps, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 4548\u20134557.","DOI":"10.1109\/ICCV.2017.487"},{"key":"10.1016\/j.image.2026.117551_b76","series-title":"2009 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1597","article-title":"Frequency-tuned salient region detection","author":"Achanta","year":"2009"},{"key":"10.1016\/j.image.2026.117551_b77","series-title":"Enhanced-alignment measure for binary foreground map evaluation","author":"Fan","year":"2018"},{"issue":"12","key":"10.1016\/j.image.2026.117551_b78","doi-asserted-by":"crossref","first-page":"5706","DOI":"10.1109\/TIP.2015.2487833","article-title":"Salient object detection: A benchmark","volume":"24","author":"Borji","year":"2015","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.image.2026.117551_b79","doi-asserted-by":"crossref","unstructured":"J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, H. Lu, Dual Attention Network for Scene Segmentation, in: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2019, pp. 3141\u20133149.","DOI":"10.1109\/CVPR.2019.00326"},{"key":"10.1016\/j.image.2026.117551_b80","doi-asserted-by":"crossref","unstructured":"K. Sun, B. Xiao, D. Liu, J. Wang, Deep High-Resolution Representation Learning for Human Pose Estimation, in: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2019, pp. 5686\u20135696.","DOI":"10.1109\/CVPR.2019.00584"},{"key":"10.1016\/j.image.2026.117551_b81","series-title":"Computer Vision\u2013ACCV 2016: 13th Asian Conference on Computer Vision, Taipei, Taiwan, November 20-24, 2016, Revised Selected Papers, Part I 13","first-page":"213","article-title":"Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture","author":"Hazirbas","year":"2017"},{"key":"10.1016\/j.image.2026.117551_b82","doi-asserted-by":"crossref","unstructured":"W. Wang, U. Neumann, Depth-aware cnn for rgb-d segmentation, in: Proceedings of the European Conference on Computer Vision, ECCV, 2018, pp. 135\u2013150.","DOI":"10.1007\/978-3-030-01252-6_9"},{"key":"10.1016\/j.image.2026.117551_b83","doi-asserted-by":"crossref","unstructured":"X. Hu, K. Yang, L. Fei, K. Wang, ACNET: Attention Based Network to Exploit Complementary Features for RGBD Semantic Segmentation, in: 2019 IEEE International Conference on Image Processing, ICIP, 2019, pp. 1440\u20131444.","DOI":"10.1109\/ICIP.2019.8803025"},{"key":"10.1016\/j.image.2026.117551_b84","series-title":"European Conference on Computer Vision","first-page":"561","article-title":"Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-d semantic segmentation","author":"Chen","year":"2020"},{"key":"10.1016\/j.image.2026.117551_b85","first-page":"1","article-title":"SFAF-MA: Spatial feature aggregation and fusion with modality adaptation for RGB-thermal semantic segmentation","volume":"72","author":"He","year":"2023","journal-title":"IEEE Trans. Instrum. Meas."},{"key":"10.1016\/j.image.2026.117551_b86","doi-asserted-by":"crossref","DOI":"10.1016\/j.optlaseng.2024.108260","article-title":"Misalignment fusion network for parsing infrared and visible urban scenes","volume":"179","author":"Liu","year":"2024","journal-title":"Opt. Lasers Eng."},{"issue":"1","key":"10.1016\/j.image.2026.117551_b87","doi-asserted-by":"crossref","first-page":"263","DOI":"10.1109\/TITS.2017.2750080","article-title":"Erfnet: Efficient residual factorized ConvNet for real-time semantic segmentation","volume":"19","author":"Romera","year":"2018","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.image.2026.117551_b88","doi-asserted-by":"crossref","unstructured":"Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, W. Liu, CCNet: Criss-Cross Attention for Semantic Segmentation, in: 2019 IEEE\/CVF International Conference on Computer Vision, ICCV, 2019, pp. 603\u2013612.","DOI":"10.1109\/ICCV.2019.00069"},{"key":"10.1016\/j.image.2026.117551_b89","series-title":"Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXVI 16","first-page":"1","article-title":"Efficientfcn: Holistically-guided decoding for semantic segmentation","author":"Liu","year":"2020"},{"key":"10.1016\/j.image.2026.117551_b90","doi-asserted-by":"crossref","first-page":"2526","DOI":"10.1109\/TMM.2021.3086618","article-title":"MFFENet: Multiscale feature fusion and enhancement network for RGB\u2013thermal urban road scene parsing","volume":"24","author":"Zhou","year":"2022","journal-title":"IEEE Trans. Multimed."},{"issue":"1","key":"10.1016\/j.image.2026.117551_b91","doi-asserted-by":"crossref","first-page":"48","DOI":"10.1109\/TIV.2022.3164899","article-title":"MTANet: Multitask-aware network with hierarchical multimodal fusion for RGB-T urban scene understanding","volume":"8","author":"Zhou","year":"2023","journal-title":"IEEE Trans. Intell. Veh."},{"issue":"4","key":"10.1016\/j.image.2026.117551_b92","doi-asserted-by":"crossref","first-page":"1577","DOI":"10.1109\/TCSVT.2022.3216313","article-title":"Dual-space graph-based interaction network for RGB-thermal semantic segmentation in electric power scene","volume":"33","author":"Xu","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117551_b93","doi-asserted-by":"crossref","unstructured":"J. Zhang, R. Liu, H. Shi, K. Yang, S. Rei\u00df, K. Peng, H. Fu, K. Wang, R. Stiefelhagen, Delivering arbitrary-modal semantic segmentation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 1136\u20131147.","DOI":"10.1109\/CVPR52729.2023.00116"},{"key":"10.1016\/j.image.2026.117551_b94","first-page":"12077","article-title":"SegFormer: Simple and efficient design for semantic segmentation with transformers","volume":"34","author":"Xie","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.image.2026.117551_b95","doi-asserted-by":"crossref","unstructured":"Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, S. Xie, A convnet for the 2020s, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 11976\u201311986.","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"10.1016\/j.image.2026.117551_b96","series-title":"Rethinking atrous convolution for semantic image segmentation","author":"Chen","year":"2017"}],"container-title":["Signal Processing: Image Communication"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0923596526000743?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0923596526000743?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,24]],"date-time":"2026-04-24T06:46:27Z","timestamp":1777013187000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0923596526000743"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":96,"alternative-id":["S0923596526000743"],"URL":"https:\/\/doi.org\/10.1016\/j.image.2026.117551","relation":{},"ISSN":["0923-5965"],"issn-type":[{"value":"0923-5965","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Du-CIPT: Dual Cross-Modal Interactive Pyramid Transformer for RGB-Thermal salient object detection and segmentation","name":"articletitle","label":"Article Title"},{"value":"Signal Processing: Image Communication","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.image.2026.117551","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"117551"}}