{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,26]],"date-time":"2026-05-26T23:07:21Z","timestamp":1779836841457,"version":"3.53.1"},"reference-count":56,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,11,1]],"date-time":"2026-11-01T00:00:00Z","timestamp":1793491200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2026,11]]},"DOI":"10.1016\/j.neunet.2026.109165","type":"journal-article","created":{"date-parts":[[2026,5,24]],"date-time":"2026-05-24T00:38:33Z","timestamp":1779583113000},"page":"109165","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Hybrid Mamba-CNN network for forward-looking sonar image segmentation with acoustic background suppression mechanism"],"prefix":"10.1016","volume":"203","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8250-7013","authenticated-orcid":false,"given":"Hu","family":"Xu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ju","family":"He","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Haoran","family":"Hu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guoqing","family":"Xie","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yang","family":"Yu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"issue":"4","key":"10.1016\/j.neunet.2026.109165_bib0001","doi-asserted-by":"crossref","first-page":"1179","DOI":"10.1109\/JOE.2018.2863961","article-title":"Unsupervised local spatial mixture segmentation of underwater objects in sonar images","volume":"44","author":"Abu","year":"2018","journal-title":"IEEE Journal of Oceanic Engineering"},{"issue":"12","key":"10.1016\/j.neunet.2026.109165_bib0002","doi-asserted-by":"crossref","first-page":"2481","DOI":"10.1109\/TPAMI.2016.2644615","article-title":"Segnet: A deep convolutional encoder-decoder architecture for image segmentation","volume":"39","author":"Badrinarayanan","year":"2017","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2026.109165_bib0003","unstructured":"Bochkovskiy, A., Wang, C.-Y., & Liao, H.-Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv: 2004.10934."},{"issue":"8","key":"10.1016\/j.neunet.2026.109165_bib0004","doi-asserted-by":"crossref","first-page":"557","DOI":"10.3390\/jmse8080557","article-title":"On-line multi-class segmentation of side-scan sonar imagery using an autonomous underwater vehicle","volume":"8","author":"Burguera","year":"2020","journal-title":"Journal of Marine Science and Engineering"},{"key":"10.1016\/j.neunet.2026.109165_bib0005","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2025.130087","article-title":"From classical approach to deep-learning: A review on underwater target segmentation with sonar image","volume":"637","author":"Cai","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.neunet.2026.109165_bib0006","article-title":"Optical flow prompts distractor-aware siamese network for tracking autonomous underwater vehicle with sonar and camera videos","volume":"196","author":"Cai","year":"2025","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0007","series-title":"European conference on computer vision","first-page":"205","article-title":"Swin-Snet: Unet-like pure transformer for medical image segmentation","author":"Cao","year":"2022"},{"key":"10.1016\/j.neunet.2026.109165_bib0008","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"357","article-title":"Crossvit: Cross-attention multi-scale vision transformer for image classification","author":"Chen","year":"2021"},{"key":"10.1016\/j.neunet.2026.109165_bib0009","unstructured":"Chen, J., Lu, Y., Yu, Q., Luo, X., Adeli, E., Wang, Y., Lu, L., Yuille, A. L., & Zhou, Y. (2021b). Transunet: Transformers make strong encoders for medical image segmentation. arXiv: 2102.04306."},{"key":"10.1016\/j.neunet.2026.109165_bib0010","series-title":"Proceedings of the European conference on computer vision (ECCV)","first-page":"801","article-title":"Encoder-decoder with atrous separable convolution for semantic image segmentation","author":"Chen","year":"2018"},{"key":"10.1016\/j.neunet.2026.109165_bib0011","series-title":"Proceedings of the 33rd ACM international conference on multimedia","first-page":"343","article-title":"Uis-Mamba: Exploring mamba for underwater instance segmentation via dynamic tree scan and hidden state weaken","author":"Cong","year":"2025"},{"key":"10.1016\/j.neunet.2026.109165_bib0012","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S. et al. (2020). An Image is worth 16x16 words: Transformers for image recognition at scale. arXiv: 2010.11929."},{"key":"10.1016\/j.neunet.2026.109165_bib0013","first-page":"572","article-title":"Combining recurrent, convolutional, and continuous-time models with linear state space layers","volume":"34","author":"Gu","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.109165_bib0014","first-page":"1","article-title":"Sonarnet: Hybrid CNN-transformer-HOG framework and multifeature fusion mechanism for forward-looking sonar image segmentation","volume":"62","author":"He","year":"2024","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.109165_bib0015","first-page":"1","article-title":"Swin transformer embedding UNet for remote sensing image semantic segmentation","volume":"60","author":"He","year":"2022","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.109165_bib0016","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"11936","article-title":"Rethinking spatial dimensions of vision transformers","author":"Heo","year":"2021"},{"key":"10.1016\/j.neunet.2026.109165_bib0017","first-page":"1","article-title":"Seg2sonar: A full-class sample synthesis method applied to underwater sonar image target detection, recognition, and segmentation tasks","volume":"62","author":"Huang","year":"2024","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.109165_bib0018","series-title":"ICASSP 2020-2020 IEEE International conference on acoustics, speech and signal processing (ICASSP)","first-page":"1055","article-title":"Unet 3+: A full-scale connected unet for medical image segmentation","author":"Huang","year":"2020"},{"key":"10.1016\/j.neunet.2026.109165_bib0019","series-title":"European conference on computer vision","first-page":"12","article-title":"Localmamba: Visual state space model with windowed selective scan","author":"Huang","year":"2024"},{"key":"10.1016\/j.neunet.2026.109165_bib0020","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"603","article-title":"Ccnet: Criss-cross attention for semantic segmentation","author":"Huang","year":"2019"},{"issue":"2","key":"10.1016\/j.neunet.2026.109165_bib0021","doi-asserted-by":"crossref","first-page":"203","DOI":"10.1038\/s41592-020-01008-z","article-title":"nnu-net: A self-configuring method for deep learning-based biomedical image segmentation","volume":"18","author":"Isensee","year":"2021","journal-title":"Nature Methods"},{"key":"10.1016\/j.neunet.2026.109165_bib0022","doi-asserted-by":"crossref","first-page":"27","DOI":"10.1007\/978-1-4842-5364-9_2","article-title":"Introduction to pytorch","volume":"1","author":"Ketkar","year":"2021","journal-title":"Deep Learning With Python: Learn Best Practices of Deep Learning Models With PyTorch"},{"key":"10.1016\/j.neunet.2026.109165_bib0023","unstructured":"Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv: 1412.6980."},{"issue":"4","key":"10.1016\/j.neunet.2026.109165_bib0024","doi-asserted-by":"crossref","first-page":"707","DOI":"10.3390\/rs17040707","article-title":"Cnn\u2013transformer hybrid architecture for underwater sonar image segmentation","volume":"17","author":"Lei","year":"2025","journal-title":"Remote Sensing"},{"key":"10.1016\/j.neunet.2026.109165_bib0025","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"9522","article-title":"Dfanet: Deep feature aggregation for real-time semantic segmentation","author":"Li","year":"2019"},{"key":"10.1016\/j.neunet.2026.109165_bib0026","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2024.106653","article-title":"DiagSWin: A multi-scale vision transformer with diagonal-shaped windows for object detection and segmentation","volume":"180","author":"Li","year":"2024","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0027","series-title":"2022\u202fIEEE 2nd international conference on computer communication and artificial intelligence (CCAI)","first-page":"149","article-title":"MiTU-net: An efficient mix transformer u-like network for forward-looking sonar image segmentation","author":"Liang","year":"2022"},{"key":"10.1016\/j.neunet.2026.109165_bib0028","doi-asserted-by":"crossref","first-page":"1168","DOI":"10.1016\/j.phpro.2012.05.192","article-title":"Sonar image segmentation based on an improved level set method","volume":"33","author":"Liu","year":"2012","journal-title":"Physics Procedia"},{"key":"10.1016\/j.neunet.2026.109165_bib0029","doi-asserted-by":"crossref","first-page":"505","DOI":"10.1109\/TNNLS.2025.3610435","article-title":"Vision mamba: A comprehensive survey and taxonomy","volume":"37","author":"Liu","year":"2025","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"10.1016\/j.neunet.2026.109165_bib0030","first-page":"103031","article-title":"Vmamba: Visual state space model","volume":"37","author":"Liu","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.109165_bib0031","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"10012","article-title":"Swin transformer: Hierarchical vision transformer using shifted windows","author":"Liu","year":"2021"},{"key":"10.1016\/j.neunet.2026.109165_bib0032","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"3431","article-title":"Fully convolutional networks for semantic segmentation","author":"Long","year":"2015"},{"key":"10.1016\/j.neunet.2026.109165_bib0033","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.111279","article-title":"Mamba-360: Survey of state space models as transformer alternative for long sequence modelling: Methods, applications, and challenges","volume":"159","author":"Patro","year":"2025","journal-title":"Engineering Applications of Artificial Intelligence"},{"key":"10.1016\/j.neunet.2026.109165_bib0034","series-title":"International conference on medical image computing and computer-Assisted intervention","first-page":"234","article-title":"U-net: Convolutional networks for biomedical image segmentation","author":"Ronneberger","year":"2015"},{"key":"10.1016\/j.neunet.2026.109165_bib0035","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"3741","article-title":"The marine debris dataset for forward-looking sonar semantic segmentation","author":"Singh","year":"2021"},{"key":"10.1016\/j.neunet.2026.109165_bib0036","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.109165_bib0037","doi-asserted-by":"crossref","unstructured":"Voita, E., Talbot, D., Moiseev, F., Sennrich, R., & Titov, I. (2019). Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. arXiv: 1905.09418.","DOI":"10.18653\/v1\/P19-1580"},{"issue":"6","key":"10.1016\/j.neunet.2026.109165_bib0038","doi-asserted-by":"crossref","first-page":"4862","DOI":"10.1109\/TGRS.2020.3013968","article-title":"Semisupervised learning-based SAR ATR via self-consistent augmentation","volume":"59","author":"Wang","year":"2020","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.109165_bib0039","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"568","article-title":"Pyramid vision transformer: A versatile backbone for dense prediction without convolutions","author":"Wang","year":"2021"},{"key":"10.1016\/j.neunet.2026.109165_bib0040","article-title":"Gmsr: Gradient-integrated mamba for spectral reconstruction from rgb images","volume":"193","author":"Wang","year":"2025","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0041","doi-asserted-by":"crossref","first-page":"380","DOI":"10.1109\/JOE.2024.3467309","article-title":"Hybrid modeling based semantic segmentation of forward-looking sonar images","volume":"50","author":"Wang","year":"2024","journal-title":"IEEE Journal of Oceanic Engineering"},{"issue":"6","key":"10.1016\/j.neunet.2026.109165_bib0042","doi-asserted-by":"crossref","first-page":"5911","DOI":"10.1109\/JSEN.2022.3149841","article-title":"Side-scan sonar image segmentation based on multi-channel fusion convolution neural networks","volume":"22","author":"Wang","year":"2022","journal-title":"IEEE Sensors Journal"},{"key":"10.1016\/j.neunet.2026.109165_bib0043","first-page":"1","article-title":"Fused adaptive receptive field mechanism and dynamic multiscale dilated convolution for side-scan sonar image segmentation","volume":"60","author":"Wang","year":"2022","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.109165_bib0044","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107460","article-title":"Multi-stage network for single image deblurring based on dual-domain window mamba","volume":"188","author":"Wu","year":"2025","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0045","unstructured":"Xiao, C., Li, M., Zhang, Z., Meng, D., & Zhang, L. (2024). Spatial-Mamba: Effective visual state space models via structure-aware state fusion. arXiv: 2410.15091."},{"key":"10.1016\/j.neunet.2026.109165_bib0046","first-page":"12077","article-title":"Segformer: Simple and efficient design for semantic segmentation with transformers","volume":"34","author":"Xie","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.109165_bib0047","doi-asserted-by":"crossref","first-page":"8045","DOI":"10.1109\/TCE.2025.3593784","article-title":"Hcmnet: A hybrid cnn-mamba network for breast ultrasound segmentation for consumer assisted diagnosis","volume":"71","author":"Xiong","year":"2025","journal-title":"IEEE Transactions on Consumer Electronics"},{"key":"10.1016\/j.neunet.2026.109165_bib0048","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107943","article-title":"X-UNet: A novel global context-aware collaborative fusion u-shaped network with progressive feature fusion of codec for medical image segmentation","volume":"192","author":"Xu","year":"2025","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0049","unstructured":"Yang, C., Chen, Z., Espinosa, M., Ericsson, L., Wang, Z., Liu, J., & Crowley, E. J. (2024). Plainmamba: Improving non-hierarchical Mamba in visual recognition. arXiv: 2403.17695."},{"key":"10.1016\/j.neunet.2026.109165_bib0050","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2026.115627","article-title":"A novel knowledge distillation framework to optimize DETR for sonar image object detection","volume":"339","author":"Yang","year":"2026","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.neunet.2026.109165_bib0051","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision (ICCV)","first-page":"558","article-title":"Tokens-to-token vit: Training vision transformers from scratch on imagenet","author":"Yuan","year":"2021"},{"key":"10.1016\/j.neunet.2026.109165_bib0052","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111723","article-title":"Crack segmentation network via difference convolution-based encoder and hybrid CNN-Mamba multi-scale attention","volume":"167","author":"Zhang","year":"2025","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.neunet.2026.109165_bib0053","doi-asserted-by":"crossref","first-page":"298","DOI":"10.1016\/j.neunet.2023.11.034","article-title":"Ct-net: Asymmetric compound branch transformer for medical image segmentation","volume":"170","author":"Zhang","year":"2024","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0054","unstructured":"Zhou, D., Kang, B., Jin, X., Yang, L., Lian, X., Jiang, Z., Hou, Q., & Feng, J. (2021). Deepvit: Towards deeper vision transformer. arXiv: 2103.11886."},{"key":"10.1016\/j.neunet.2026.109165_bib0055","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107844","article-title":"A confidence-guided unsupervised domain adaptation network with pseudo-labeling and deformable CNN-transformer for medical image segmentation","volume":"191","author":"Zhou","year":"2025","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.109165_bib0056","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"593","article-title":"Asymmetric non-local neural networks for semantic segmentation","author":"Zhu","year":"2019"}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S089360802600626X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S089360802600626X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,26]],"date-time":"2026-05-26T23:00:10Z","timestamp":1779836410000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S089360802600626X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,11]]},"references-count":56,"alternative-id":["S089360802600626X"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2026.109165","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2026,11]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Hybrid Mamba-CNN network for forward-looking sonar image segmentation with acoustic background suppression mechanism","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2026.109165","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"109165"}}