{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,22]],"date-time":"2026-06-22T11:54:35Z","timestamp":1782129275488,"version":"3.54.5"},"reference-count":55,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Fusion"],"published-print":{"date-parts":[[2026,11]]},"DOI":"10.1016\/j.inffus.2026.104432","type":"journal-article","created":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T23:14:44Z","timestamp":1777590884000},"page":"104432","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["SAM-assisted multimodal collaborative enhancement for remote sensing image segmentation"],"prefix":"10.1016","volume":"135","author":[{"given":"Zhiwei","family":"Feng","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Benyi","family":"Yang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Baosong","family":"Deng","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.inffus.2026.104432_bib0001","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"692","article-title":"H-Denseformer: an efficient hybrid densely connected transformer for multimodal tumor segmentation","author":"Shi","year":"2023"},{"issue":"12","key":"10.1016\/j.inffus.2026.104432_bib0002","doi-asserted-by":"crossref","first-page":"14679","DOI":"10.1109\/TITS.2023.3300537","article-title":"Cmx: cross-modal fusion for RGB-X semantic segmentation with transformers","volume":"24","author":"Zhang","year":"2023","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.inffus.2026.104432_bib0003","first-page":"1","article-title":"MoCG: modality characteristics-Guided semantic segmentation in multimodal remote sensing images","volume":"61","author":"Xiao","year":"2023","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0004","doi-asserted-by":"crossref","first-page":"20","DOI":"10.1016\/j.isprsjprs.2017.11.011","article-title":"Beyond RGB: very high resolution urban remote sensing with multimodal deep networks","volume":"140","author":"Audebert","year":"2018","journal-title":"ISPRS J. Photogramm. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0005","first-page":"1","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104432_bib0006","unstructured":"A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby, An image is worth 16x16 words: Transformers for image recognition at scale, 2020. 10.48550\/arXiv.2010.11929."},{"key":"10.1016\/j.inffus.2026.104432_bib0007","first-page":"1","article-title":"A multilevel multimodal fusion transformer for remote sensing semantic segmentation","volume":"62","author":"Ma","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0008","unstructured":"J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F.L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat, et al., GPT-4, (2023). arXiv preprint arXiv: 2303.08774."},{"key":"10.1016\/j.inffus.2026.104432_bib0009","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"4015","article-title":"Segment anything","author":"Kirillov","year":"2023"},{"key":"10.1016\/j.inffus.2026.104432_bib0010","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"23385","article-title":"Improving the generalization of segmentation foundation model under distribution shift via weakly supervised adaptation","author":"Zhang","year":"2024"},{"key":"10.1016\/j.inffus.2026.104432_bib0011","doi-asserted-by":"crossref","unstructured":"X. Wang, X. Zhang, Y. Cao, W. Wang, C. Shen, T. Huang, SegGPT: Segmenting everything in context, 2023. 10.48550\/arXiv.2304.03284.","DOI":"10.1109\/ICCV51070.2023.00110"},{"key":"10.1016\/j.inffus.2026.104432_bib0012","doi-asserted-by":"crossref","unstructured":"X. Zou, J. Yang, H. Zhang, F. Li, L. Li, J. Wang, L. Wang, J. Gao, Y.J. Lee, Segment everything everywhere all at once, 2023. 10.48550\/arXiv.2304.06718.","DOI":"10.52202\/075280-0868"},{"issue":"23","key":"10.1016\/j.inffus.2026.104432_bib0013","first-page":"223","article-title":"Self-supervised segmentation feature alignment for infrared and visible image fusion","volume":"2","author":"Qiu","year":"2023","journal-title":"Chin. J. Inf. Fusion"},{"issue":"2","key":"10.1016\/j.inffus.2026.104432_bib0014","doi-asserted-by":"crossref","first-page":"95","DOI":"10.62762\/TIS.2025.389995","article-title":"Efficient polyp segmentation via attention-Guided lightweight network with progressive multi-Scale fusion","volume":"2","author":"Mohammed","year":"2025","journal-title":"ICCK Trans. Intell. Syst."},{"issue":"2","key":"10.1016\/j.inffus.2026.104432_bib0015","doi-asserted-by":"crossref","first-page":"50","DOI":"10.62762\/TSEL.2025.417356","article-title":"A comparative analysis of recent metaheuristic algorithms for image segmentation using the minimum cross-Entropy for multilevel thresholding","volume":"1","author":"Alvarez","year":"2025","journal-title":"ICCK Trans. Swarm Evol. Learn."},{"key":"10.1016\/j.inffus.2026.104432_bib0016","first-page":"1","article-title":"Multiscale semantic segmentation of remote sensing images based on edge optimization","volume":"63","author":"Huang","year":"2025","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0017","doi-asserted-by":"crossref","first-page":"304","DOI":"10.1016\/j.isprsjprs.2025.09.010","article-title":"AdaptVFMs-RSCD: advancing remote sensing change detection from binary to semantic with SAM and CLIP","volume":"230","author":"Jiang","year":"2025","journal-title":"ISPRS J. Photogramm. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0018","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"23385","article-title":"SAM-Adapter: adapting segment anything in underperformed scenes","author":"Chen","year":"2024"},{"key":"10.1016\/j.inffus.2026.104432_bib0019","unstructured":"Q. Zhang, M. Chen, A. Bukharin, N. Karampatziakis, P. He, Y. Cheng, W. Chen, T. Zhao, AdaLoRA: Adaptive budget allocation for parameter-efficient fine-tuning, 2023. 10.48550\/arXiv.2303.10512."},{"key":"10.1016\/j.inffus.2026.104432_bib0020","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"817","article-title":"Parameter-efficient model adaptation for vision transformers","volume":"37","author":"He","year":"2023"},{"key":"10.1016\/j.inffus.2026.104432_bib0021","first-page":"1","article-title":"MeSAM: multiscale enhanced segment anything model for optical remote sensing images","volume":"62","author":"Zhou","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0022","doi-asserted-by":"crossref","first-page":"4791","DOI":"10.1109\/JSTARS.2025.3532690","article-title":"Classwise-SAM-adapter: parameter-Efficient fine-Tuning adapts segment anything to SAR domain for semantic segmentation","volume":"18","author":"Pu","year":"2025","journal-title":"IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens."},{"issue":"4","key":"10.1016\/j.inffus.2026.104432_bib0023","doi-asserted-by":"crossref","DOI":"10.1007\/s11432-022-3588-0","article-title":"From single-to multi-modal remote sensing imagery interpretation: a survey and taxonomy","volume":"66","author":"Sun","year":"2023","journal-title":"Sci. China Inf. Sci."},{"key":"10.1016\/j.inffus.2026.104432_bib0024","series-title":"Medical Image Computing and Computer-assisted Intervention, MICCAI 2015, 18Th International Conference, Munich, Germany, October 5\u20139, 2015, Proceedings, Part III 18","first-page":"234","article-title":"U-Net: convolutional networks for biomedical image segmentation","volume":"69","author":"Ronneberger","year":"2015"},{"key":"10.1016\/j.inffus.2026.104432_bib0025","doi-asserted-by":"crossref","first-page":"3463","DOI":"10.1109\/JSTARS.2022.3165005","article-title":"A crossmodal multiscale fusion network for semantic segmentation of remote sensing data","volume":"15","author":"Ma","year":"2022","journal-title":"IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0026","first-page":"6798","article-title":"Acfnet: attentional class feature network for semantic segmentation","author":"Zhang","year":"2019","journal-title":"Proc. IEEE CVF Int. Conf. Comput. Vis."},{"key":"10.1016\/j.inffus.2026.104432_bib0027","first-page":"3146","article-title":"Dual attention network for scene segmentation","author":"Fu","year":"2019","journal-title":"Proc. IEEE CVF Conf. Comput. Vis. Pattern Recognit."},{"key":"10.1016\/j.inffus.2026.104432_bib0028","doi-asserted-by":"crossref","unstructured":"L.-C. Chen, G. Papandreou, F. Schroff, H. Adam, Rethinking atrous convolution for semantic image segmentation, 2017. 10.48550\/arXiv.1706.05587.","DOI":"10.1007\/978-3-030-01234-2_49"},{"key":"10.1016\/j.inffus.2026.104432_bib0029","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"801","article-title":"Encoder-decoder with atrous separable convolution for semantic image segmentation","author":"Chen","year":"2018"},{"issue":"5","key":"10.1016\/j.inffus.2026.104432_bib0030","doi-asserted-by":"crossref","first-page":"1294","DOI":"10.3390\/rs14051294","article-title":"Efficient depth fusion transformer for aerial image semantic segmentation","volume":"14","author":"Yan","year":"2022","journal-title":"Remote Sens."},{"issue":"3","key":"10.1016\/j.inffus.2026.104432_bib0031","doi-asserted-by":"crossref","first-page":"722","DOI":"10.3390\/math11030722","article-title":"MFTransnet: a multi-Modal fusion with CNN-Transformer network for semantic segmentation of HSR remote sensing images","volume":"11","author":"He","year":"2023","journal-title":"Mathematics"},{"key":"10.1016\/j.inffus.2026.104432_bib0032","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"16000","article-title":"Masked autoencoders are scalable vision learners","author":"He","year":"2022"},{"key":"10.1016\/j.inffus.2026.104432_bib0033","series-title":"Advances in Neural Information Processing Systems","first-page":"7537","article-title":"Fourier features let networks learn high frequency functions in low dimensional domains","volume":"33","author":"Tancik","year":"2020"},{"key":"10.1016\/j.inffus.2026.104432_bib0034","series-title":"Proceedings of the 38Th International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume":"139","author":"Radford","year":"2021"},{"key":"10.1016\/j.inffus.2026.104432_bib0035","unstructured":"D. Li, W. Xie, M. Cao, Y. Wang, J. Zhang, Y. Li, L. Fang, C. Xu, FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation, 2024. 10.48550\/arXiv.2408.13980v1."},{"key":"10.1016\/j.inffus.2026.104432_bib0036","series-title":"Computer Vision-ECCV 2024","first-page":"334","article-title":"Crowd-SAM: SAM as a smart annotator for object detection in crowded scenes","author":"Cai","year":"2025"},{"key":"10.1016\/j.inffus.2026.104432_bib0037","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2025.103547","article-title":"Medical SAM adapter: adapting segment anything model for medical image segmentation","volume":"102","author":"Wu","year":"2025","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.inffus.2026.104432_bib0038","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV) Workshops","article-title":"SAM-Adapter: Adapting segment anything in underperformed scenes","author":"Chen","year":"2023"},{"issue":"2","key":"10.1016\/j.inffus.2026.104432_bib0039","first-page":"3","article-title":"Lora: low-rank adaptation of large language models","volume":"1","author":"Hu","year":"2022","journal-title":"Iclr"},{"key":"10.1016\/j.inffus.2026.104432_bib0040","first-page":"1","article-title":"SAM-assisted remote sensing imagery semantic segmentation with object and boundary constraints","volume":"62","author":"Ma","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0041","series-title":"Advances in Neural Information Processing Systems","first-page":"8815","article-title":"SAMRS: Scaling-up remote sensing segmentation dataset with segment anything model","volume":"36","author":"Wang","year":"2023"},{"key":"10.1016\/j.inffus.2026.104432_bib0042","first-page":"1","article-title":"Adapting segment anything model for change detection in VHR remote sensing images","volume":"62","author":"Ding","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0043","first-page":"1","article-title":"SCD-SAM: adapting segment anything model for semantic change detection in remote sensing imagery","volume":"62","author":"Mei","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0044","first-page":"1","article-title":"Ringmo-SAM: a foundation model for segment anything in multimodal remote-Sensing images","volume":"61","author":"Yan","year":"2023","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0045","series-title":"2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"11531","article-title":"ECA-Net: Efficient channel attention for deep convolutional neural networks","author":"Wang","year":"2020"},{"key":"10.1016\/j.inffus.2026.104432_bib0046","doi-asserted-by":"crossref","first-page":"196","DOI":"10.1016\/j.isprsjprs.2022.06.008","article-title":"UNetFormer: a UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery","volume":"190","author":"Wang","year":"2022","journal-title":"ISPRS J. Photogramm. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0047","series-title":"Asian Conference on Computer Vision","first-page":"213","article-title":"Fusenet: incorporating depth into semantic segmentation via fusion-based cnn architecture","author":"Hazirbas","year":"2016"},{"key":"10.1016\/j.inffus.2026.104432_bib0048","doi-asserted-by":"crossref","first-page":"84","DOI":"10.1016\/j.isprsjprs.2021.09.005","article-title":"ABCNet: Attentive bilateral contextual network for efficient semantic segmentation of fine-Resolution remotely sensed imagery","volume":"181","author":"Li","year":"2021","journal-title":"ISPRS J. Photogramm. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0049","first-page":"1","article-title":"Multistage attention resu-net for semantic segmentation of fine-resolution remote sensing images","volume":"19","author":"Li","year":"2021","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0050","series-title":"2021 IEEE International Conference on Robotics and Automation (ICRA)","first-page":"13525","article-title":"Efficient rgb-d semantic segmentation for indoor scene analysis","author":"Seichter","year":"2021"},{"key":"10.1016\/j.inffus.2026.104432_bib0051","doi-asserted-by":"crossref","first-page":"96","DOI":"10.1016\/j.isprsjprs.2021.12.007","article-title":"CMGFNet: A deep cross-modal gated fusion network for building extraction from very high-resolution remote sensing images","volume":"184","author":"Hosseinpour","year":"2022","journal-title":"ISPRS J. Photogramm. Remote Sens."},{"key":"10.1016\/j.inffus.2026.104432_bib0052","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"2881","article-title":"Pyramid scene parsing network","author":"Seichter","year":"2017"},{"key":"10.1016\/j.inffus.2026.104432_bib0053","series-title":"European Conference on Computer Vision","first-page":"561","article-title":"Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-D semantic segmentation","author":"Chen","year":"2020"},{"key":"10.1016\/j.inffus.2026.104432_bib0054","unstructured":"J. Chen, Y. Lu, Q. Yu, X. Luo, E. Adeli, Y. Wang, L. Lu, A.L. Yuille, Y. Zhou, Transunet: Transformers make strong encoders for medical image segmentation, 2021. 10.48550\/arXiv.2102.04306."},{"key":"10.1016\/j.inffus.2026.104432_bib0055","first-page":"1","article-title":"A multilevel multimodal fusion transformer for remote sensing semantic segmentation","volume":"62","author":"Ma","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."}],"container-title":["Information Fusion"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S156625352600312X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S156625352600312X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,22]],"date-time":"2026-06-22T11:40:18Z","timestamp":1782128418000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S156625352600312X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,11]]},"references-count":55,"alternative-id":["S156625352600312X"],"URL":"https:\/\/doi.org\/10.1016\/j.inffus.2026.104432","relation":{},"ISSN":["1566-2535"],"issn-type":[{"value":"1566-2535","type":"print"}],"subject":[],"published":{"date-parts":[[2026,11]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"SAM-assisted multimodal collaborative enhancement for remote sensing image segmentation","name":"articletitle","label":"Article Title"},{"value":"Information Fusion","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.inffus.2026.104432","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Published by Elsevier B.V.","name":"copyright","label":"Copyright"}],"article-number":"104432"}}