{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T05:01:01Z","timestamp":1777870861762,"version":"3.51.4"},"reference-count":39,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U22B2041"],"award-info":[{"award-number":["U22B2041"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62473070"],"award-info":[{"award-number":["62473070"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.patcog.2026.113334","type":"journal-article","created":{"date-parts":[[2026,2,19]],"date-time":"2026-02-19T00:11:52Z","timestamp":1771459912000},"page":"113334","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["A novel RGB-X semantic segmentation network with cross-modal feature reweighting and local-global feature aggregation"],"prefix":"10.1016","volume":"177","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-0325-2112","authenticated-orcid":false,"given":"Zhiwei","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7640-4330","authenticated-orcid":false,"given":"Yan","family":"Zhuang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2083-8612","authenticated-orcid":false,"given":"Yisha","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8485-8818","authenticated-orcid":false,"given":"Xuetao","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.113334_bib0001","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110092","article-title":"Region-adaptive and context-complementary cross modulation for RGB-T semantic segmentation","volume":"147","author":"Peng","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113334_bib0002","series-title":"2020\u202fIEEE International Conference on Robotics and Automation (ICRA)","first-page":"9441","article-title":"PST900: RGB-thermal calibration, dataset and segmentation network","author":"Shivakumar","year":"2020"},{"key":"10.1016\/j.patcog.2026.113334_bib0003","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111218","article-title":"Cross-level interaction fusion network-based RGB-T semantic segmentation for distant targets","volume":"161","author":"Chen","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113334_bib0004","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111398","article-title":"Resolving semantic conflicts in RGB-T semantic segmentation","volume":"162","author":"Zhao","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113334_bib0005","series-title":"2017\u202fIEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS)","first-page":"5108","article-title":"MFNet: towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes","author":"Ha","year":"2017"},{"issue":"5","key":"10.1016\/j.patcog.2026.113334_bib0006","doi-asserted-by":"crossref","first-page":"6477","DOI":"10.1109\/TITS.2025.3528064","article-title":"AGFNet: adaptive gated fusion network for RGB-T semantic segmentation","volume":"26","author":"Zhou","year":"2025","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.patcog.2026.113334_bib0007","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111379","article-title":"DCANet: differential convolution attention network for RGB-D semantic segmentation","volume":"162","author":"Bai","year":"2025","journal-title":"Pattern Recognit."},{"issue":"4","key":"10.1016\/j.patcog.2026.113334_bib0008","doi-asserted-by":"crossref","first-page":"4802","DOI":"10.1364\/OE.416130","article-title":"Polarization-driven semantic segmentation via efficient attention-bridged fusion","volume":"29","author":"Xiang","year":"2021","journal-title":"Opt. Express"},{"key":"10.1016\/j.patcog.2026.113334_bib0009","doi-asserted-by":"crossref","first-page":"1347","DOI":"10.1109\/TCSVT.2024.3485655","article-title":"C 4 net: excavating cross-modal context-and content-Complementarity for RGB-T semantic segmentation","volume":"35","author":"Zhao","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113334_bib0010","doi-asserted-by":"crossref","first-page":"6348","DOI":"10.1109\/TMM.2023.3349072","article-title":"Context-aware interaction network for RGB-T semantic segmentation","volume":"26","author":"Lv","year":"2024","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.patcog.2026.113334_bib0011","first-page":"12077","article-title":"SegFormer: simple and efficient design for semantic segmentation with transformers","volume":"34","author":"Xie","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2026.113334_bib0012","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"8115","article-title":"Multi-interactive feature learning and a full-time multi-modality benchmark for image fusion and segmentation","author":"Liu","year":"2023"},{"key":"10.1016\/j.patcog.2026.113334_bib0013","doi-asserted-by":"crossref","first-page":"7790","DOI":"10.1109\/TIP.2021.3109518","article-title":"GMNet: graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation","volume":"30","author":"Zhou","year":"2021","journal-title":"IEEE Trans. Image Process."},{"issue":"1","key":"10.1016\/j.patcog.2026.113334_bib0014","doi-asserted-by":"crossref","first-page":"657","DOI":"10.1109\/TITS.2023.3306368","article-title":"EGFNet: edge-aware guidance fusion network for RGB\u2013thermal urban scene parsing","volume":"25","author":"Dong","year":"2024","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.patcog.2026.113334_bib0015","doi-asserted-by":"crossref","first-page":"599","DOI":"10.1109\/OJSP.2024.3389812","article-title":"MMSFormer: multimodal transformer for material and semantic segmentation","volume":"5","author":"Reza","year":"2024","journal-title":"IEEE Open J. Signal Process."},{"key":"10.1016\/j.patcog.2026.113334_bib0016","series-title":"2021\u202fIEEE International Conference on Robotics and Biomimetics (ROBIO)","first-page":"1129","article-title":"NLFNet: Non-local fusion towards generalized multimodal semantic segmentation across RGB-depth, polarization, and thermal images","author":"Yan","year":"2021"},{"issue":"5","key":"10.1016\/j.patcog.2026.113334_bib0017","doi-asserted-by":"crossref","first-page":"3156","DOI":"10.1109\/TIV.2024.3448251","article-title":"RoadFormer+: delivering RGB-X scene parsing through scale-aware information decoupling and advanced heterogeneous feature fusion","volume":"10","author":"Huang","year":"2024","journal-title":"IEEE Trans. Intell. Veh."},{"key":"10.1016\/j.patcog.2026.113334_bib0018","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"16133","article-title":"Convnext v2: Co-designing and scaling convnets with masked autoencoders","author":"Woo","year":"2023"},{"key":"10.1016\/j.patcog.2026.113334_bib0019","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2026.113334_bib0020","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"3531","article-title":"Efficient attention: attention with linear complexities","author":"Shen","year":"2021"},{"key":"10.1016\/j.patcog.2026.113334_bib0021","unstructured":"D. Han, Z. Wang, Z. Xia, Y. Han, Y. Pu, C. Ge, J. Song, S. Song, B. Zheng, G. Huang, Demystify Mamba in vision: a linear attention perspective,(2024). arXiv preprint arXiv: 2405.16605."},{"key":"10.1016\/j.patcog.2026.113334_bib0022","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3213","article-title":"The cityscapes dataset for semantic urban scene understanding","author":"Cordts","year":"2016"},{"key":"10.1016\/j.patcog.2026.113334_bib0023","series-title":"Computer Vision\u2013ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7\u201313, 2012, Proceedings, Part V 12","first-page":"746","article-title":"Indoor segmentation and support inference from RGBD images","author":"Silberman","year":"2012"},{"key":"10.1016\/j.patcog.2026.113334_bib0024","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"418","article-title":"Unified perceptual parsing for scene understanding","author":"Xiao","year":"2018"},{"issue":"5","key":"10.1016\/j.patcog.2026.113334_bib0025","doi-asserted-by":"crossref","first-page":"4794","DOI":"10.1109\/TITS.2023.3242651","article-title":"Embedded control gate fusion and attention residual learning for RGB\u2013thermal urban scene parsing","volume":"24","author":"Zhou","year":"2023","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"issue":"12","key":"10.1016\/j.patcog.2026.113334_bib0026","doi-asserted-by":"crossref","first-page":"14679","DOI":"10.1109\/TITS.2023.3300537","article-title":"CMX: cross-modal fusion for RGB-X semantic segmentation with transformers","volume":"24","author":"Zhang","year":"2023","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"issue":"4","key":"10.1016\/j.patcog.2026.113334_bib0027","doi-asserted-by":"crossref","first-page":"2362","DOI":"10.1109\/TIV.2024.3374793","article-title":"Multi-branch differential bidirectional fusion network for RGB-T semantic segmentation","volume":"10","author":"Liang","year":"2024","journal-title":"IEEE Trans. Intell. Veh."},{"key":"10.1016\/j.patcog.2026.113334_bib0028","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.111588","article-title":"Contrastive learning-based knowledge distillation for RGB-thermal urban scene semantic segmentation","volume":"292","author":"Guo","year":"2024","journal-title":"Knowl.Based Syst."},{"key":"10.1016\/j.patcog.2026.113334_bib0029","doi-asserted-by":"crossref","first-page":"1686","DOI":"10.1109\/TIP.2025.3544484","article-title":"MiLNet: multiplex interactive learning network for RGB-T semantic segmentation","volume":"34","author":"Liu","year":"2025","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.113334_bib0030","series-title":"European Conference on Computer Vision","first-page":"539","article-title":"ReCoNet: recurrent correction network for fast and efficient multi-modality image fusion","author":"Huang","year":"2022"},{"key":"10.1016\/j.patcog.2026.113334_bib0031","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"5802","article-title":"Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection","author":"Liu","year":"2022"},{"issue":"4","key":"10.1016\/j.patcog.2026.113334_bib0032","doi-asserted-by":"crossref","first-page":"5558","DOI":"10.1109\/LRA.2020.3007457","article-title":"Real-time fusion network for RGB-D semantic segmentation incorporating unexpected obstacle detection for road-driving images","volume":"5","author":"Sun","year":"2020","journal-title":"IEEE Rob. Autom. Lett."},{"key":"10.1016\/j.patcog.2026.113334_bib0033","series-title":"2021\u202fIEEE International Conference on Robotics and Automation (ICRA)","first-page":"13525","article-title":"Efficient RGB-D semantic segmentation for indoor scene analysis","author":"Seichter","year":"2021"},{"key":"10.1016\/j.patcog.2026.113334_bib0034","doi-asserted-by":"crossref","first-page":"23512","DOI":"10.1109\/JSEN.2023.3304637","article-title":"Spatial-information guided adaptive context-aware network for efficient RGB-D semantic segmentation","volume":"23","author":"Zhang","year":"2023","journal-title":"IEEE Sens. J."},{"key":"10.1016\/j.patcog.2026.113334_bib0035","doi-asserted-by":"crossref","first-page":"5163","DOI":"10.1109\/TIV.2024.3388726","article-title":"RoadFormer: duplex transformer for RGB-normal semantic road scene parsing","volume":"9","author":"Li","year":"2024","journal-title":"IEEE Trans. Intell. Veh."},{"key":"10.1016\/j.patcog.2026.113334_bib0036","doi-asserted-by":"crossref","first-page":"3483","DOI":"10.1109\/TMM.2022.3161852","article-title":"PGDENet: progressive guided fusion and depth enhancement network for RGB-D indoor scene parsing","volume":"25","author":"Zhou","year":"2023","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.patcog.2026.113334_bib0037","series-title":"European Conference on Computer Vision","first-page":"146","article-title":"Learning modality-agnostic representation for semantic segmentation from any modalities","author":"Zheng","year":"2024"},{"issue":"12","key":"10.1016\/j.patcog.2026.113334_bib0038","doi-asserted-by":"crossref","first-page":"7096","DOI":"10.1109\/TCSVT.2023.3275314","article-title":"MMSMCNet: Modal memory sharing and morphological complementary networks for RGB-T urban scene semantic segmentation","volume":"33","author":"Zhou","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"7","key":"10.1016\/j.patcog.2026.113334_bib0039","doi-asserted-by":"crossref","first-page":"9380","DOI":"10.1109\/TNNLS.2022.3233089","article-title":"Mitigating modality discrepancies for RGB-T semantic segmentation","volume":"35","author":"Zhao","year":"2023","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326002992?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326002992?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T16:47:19Z","timestamp":1777567639000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326002992"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":39,"alternative-id":["S0031320326002992"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113334","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"A novel RGB-X semantic segmentation network with cross-modal feature reweighting and local-global feature aggregation","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113334","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"113334"}}