{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T14:52:04Z","timestamp":1778079124738,"version":"3.51.4"},"reference-count":48,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,4,1]],"date-time":"2025-04-01T00:00:00Z","timestamp":1743465600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Vis Comput"],"published-print":{"date-parts":[[2025,9]]},"DOI":"10.1007\/s00371-025-03873-1","type":"journal-article","created":{"date-parts":[[2025,4,3]],"date-time":"2025-04-03T18:22:04Z","timestamp":1743704524000},"page":"8369-8383","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Enhancing sonar image segmentation with random fusion in a diffusion model framework"],"prefix":"10.1007","volume":"41","author":[{"given":"Zhihao","family":"Ma","sequence":"first","affiliation":[]},{"given":"Weiliang","family":"Meng","sequence":"additional","affiliation":[]},{"given":"Xixi","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"Longyu","family":"Jiang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,4,1]]},"reference":[{"issue":"12","key":"3873_CR1","doi-asserted-by":"publisher","first-page":"2481","DOI":"10.1109\/TPAMI.2016.2644615","volume":"39","author":"V Badrinarayanan","year":"2017","unstructured":"Badrinarayanan, V., Kendall, A., Cipolla, R.: Segnet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 39(12), 2481\u20132495 (2017)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"3873_CR2","unstructured":"Baranchuk, D., Voynov, A., Rubachev, I., Khrulkov, V., Babenko, A.: Label-efficient semantic segmentation with diffusion models. In: International Conference on Learning Representations (2022)"},{"key":"3873_CR3","doi-asserted-by":"crossref","unstructured":"Baussard, A.: Bayesian texture classification using steerable riesz wavelets: application to sonar images. In: OCEANS 2015\u2014MTS\/IEEE Washington, pp. 1\u20136 (2015)","DOI":"10.23919\/OCEANS.2015.7401860"},{"key":"3873_CR4","unstructured":"Bottou, L., Cortes, C., Denker, J., Drucker, H., Guyon, I., Jackel, L., LeCun, Y., Muller, U., Sackinger, E., Simard, P., Vapnik, V.: Comparison of classifier methods: a case study in handwritten digit recognition. In: Proceedings of the 12th IAPR International Conference on Pattern Recognition, Vol. 3\u2014Conference C: Signal Processing (Cat. No.94CH3440-5) (1994)"},{"key":"3873_CR5","doi-asserted-by":"crossref","unstructured":"Cao, Y., Xu, J., Lin, S., Wei, F., Hu, H.: Gcnet: non-local networks meet squeeze-excitation networks and beyond. In: 2019 IEEE\/CVF International Conference on Computer Vision Workshop (ICCVW) (2019)","DOI":"10.1109\/ICCVW.2019.00246"},{"key":"3873_CR6","doi-asserted-by":"crossref","unstructured":"Chen, C.F.R., Fan, Q., Panda, R.: Crossvit: cross-attention multi-scale vision transformer for image classification. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 357\u2013366 (2021)","DOI":"10.1109\/ICCV48922.2021.00041"},{"key":"3873_CR7","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2024.103280","volume":"97","author":"J Chen","year":"2024","unstructured":"Chen, J., Mei, J., Li, X., Lu, Y., Yu, Q., Wei, Q., Luo, X., Xie, Y., Adeli, E., Wang, Y., et al.: Transunet: rethinking the u-net architecture design for medical image segmentation through the lens of transformers. Med. Image Anal. 97, 103280 (2024)","journal-title":"Med. Image Anal."},{"issue":"4","key":"3873_CR8","doi-asserted-by":"publisher","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","volume":"40","author":"LC Chen","year":"2018","unstructured":"Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Trans. Pattern Anal. Mach. Intell. 40(4), 834\u2013848 (2018)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"3873_CR9","doi-asserted-by":"crossref","unstructured":"Codella, N.C.F., Gutman, D., Celebi, M.E., Helba, B., Marchetti, M.A., Dusza, S.W., Kalloo, A., Liopyris, K., Mishra, N., Kittler, H., Halpern, A.: Skin lesion analysis toward melanoma detection: a challenge at the 2017 international symposium on biomedical imaging (isbi), hosted by the international skin imaging collaboration (isic). In: 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018), pp. 168\u2013172 (2018)","DOI":"10.1109\/ISBI.2018.8363547"},{"issue":"9","key":"3873_CR10","doi-asserted-by":"publisher","first-page":"10850","DOI":"10.1109\/TPAMI.2023.3261988","volume":"45","author":"FA Croitoru","year":"2023","unstructured":"Croitoru, F.A., Hondru, V., Ionescu, R.T., Shah, M.: Diffusion models in vision: a survey. IEEE Trans. Pattern Anal. Mach. Intell. 45(9), 10850\u201310869 (2023)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"3873_CR11","unstructured":"Dhariwal, P., Nichol, A.: Diffusion models beat gans on image synthesis. In: Advances in Neural Information Processing Systems, pp. 8780\u20138794 (2021)"},{"key":"3873_CR12","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An image is worth 16x16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations (2021)"},{"issue":"9","key":"3873_CR13","doi-asserted-by":"publisher","first-page":"6033","DOI":"10.1007\/s00371-023-03151-y","volume":"40","author":"Y Endo","year":"2024","unstructured":"Endo, Y.: Masked-attention diffusion guidance for spatially controlling text-to-image generation. Vis. Comput. 40(9), 6033\u20136045 (2024)","journal-title":"Vis. Comput."},{"issue":"4\u20135","key":"3873_CR14","doi-asserted-by":"publisher","first-page":"e1959","DOI":"10.1002\/cav.1959","volume":"31","author":"E Ertugrul","year":"2020","unstructured":"Ertugrul, E., Zhang, H., Zhu, F., Lu, P., Li, P., Sheng, B., Wu, E.: Embedding 3d models in offline physical environments. Comput. Anim. Virtual Worlds 31(4\u20135), e1959 (2020)","journal-title":"Comput. Anim. Virtual Worlds"},{"key":"3873_CR15","doi-asserted-by":"crossref","unstructured":"Fu, J., Liu, J., Tian, H., Li, Y., Bao, Y., Fang, Z., Lu, H.: Dual attention network for scene segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2019)","DOI":"10.1109\/CVPR.2019.00326"},{"key":"3873_CR16","unstructured":"Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: Advances in Neural Information Processing Systems, pp. 2672\u20132680 (2014)"},{"key":"3873_CR17","unstructured":"Graikos, A., Malkin, N., Jojic, N., Samaras, D.: Diffusion models as plug-and-play priors. In: Thirty-Sixth Conference on Neural Information Processing Systems (2022)"},{"key":"3873_CR18","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask r-cnn. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2961\u20132969 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"3873_CR19","first-page":"6840","volume":"33","author":"J Ho","year":"2020","unstructured":"Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Adv. Neural Inf. Process. Syst. 33, 6840\u20136851 (2020)","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"3873_CR20","doi-asserted-by":"publisher","first-page":"101077","DOI":"10.1016\/j.gmod.2020.101077","volume":"111","author":"J Jiang","year":"2020","unstructured":"Jiang, J., Sheng, B., Li, P., Ma, L., Tong, X., Wu, E.: Real-time hair simulation with heptadiagonal decomposition on mass spring system. Graph. Models 111, 101077 (2020)","journal-title":"Graph. Models"},{"issue":"3","key":"3873_CR21","doi-asserted-by":"publisher","first-page":"2259","DOI":"10.1002\/cav.2259","volume":"35","author":"H Li","year":"2024","unstructured":"Li, H., Yang, M., Yang, C., Kang, J., Suo, X., Meng, W., Li, Z., Mao, L., Sheng, B., Qi, J.: Soccer match broadcast video analysis method based on detection and tracking. Comput. Anim. Virtual Worlds 35(3), 2259 (2024)","journal-title":"Comput. Anim. Virtual Worlds"},{"key":"3873_CR22","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Doll\u00e1r, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature pyramid networks for object detection. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017)","DOI":"10.1109\/CVPR.2017.106"},{"key":"3873_CR23","unstructured":"Liu, W., Rabinovich, A., Berg, A.C.: Parsenet: looking wider to see better. In: International Conference on Learning Representations (2016)"},{"key":"3873_CR24","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10,012\u201310,022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"3873_CR25","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2015)","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"3873_CR26","unstructured":"Luc, P., Couprie, C., Chintala, S., Verbeek, J.: Semantic segmentation using adversarial networks. In: NIPS Workshop on Adversarial Training (2016)"},{"key":"3873_CR27","doi-asserted-by":"crossref","unstructured":"Luyuan, L., Huigang, W.: Sonar image mrf segmentation algorithm based on texture feature vector. In: Global Oceans 2020: Singapore - U.S. Gulf Coast, pp. 1\u20136 (2020)","DOI":"10.1109\/IEEECONF38699.2020.9389155"},{"issue":"8","key":"3873_CR28","doi-asserted-by":"publisher","first-page":"3285","DOI":"10.1007\/s00371-023-02954-3","volume":"39","author":"Z Ma","year":"2023","unstructured":"Ma, Z., Li, W., Zhang, M., Meng, W., Xu, S., Zhang, X.: Htcvit: an effective network for image classification and segmentation based on natural disaster datasets. Vis. Comput. 39(8), 3285\u20133297 (2023)","journal-title":"Vis. Comput."},{"key":"3873_CR29","doi-asserted-by":"publisher","first-page":"3163","DOI":"10.1007\/s00371-022-02535-w","volume":"38","author":"Z Ma","year":"2022","unstructured":"Ma, Z., Yuan, M., Gu, J., Meng, W., Xu, S., Zhang, X.: Triple-strip attention mechanism-based natural disaster images classification and segmentation. Vis. Comput. 38, 3163\u20133173 (2022)","journal-title":"Vis. Comput."},{"key":"3873_CR30","doi-asserted-by":"publisher","DOI":"10.1016\/j.jbi.2020.103430","volume":"106","author":"A Nazir","year":"2020","unstructured":"Nazir, A., Cheema, M.N., Sheng, B., Li, P., Li, H., Yang, P., Jung, Y., Qin, J., Feng, D.D.: Spst-cnn: spatial pyramid based searching and tagging of liver\u2019s intraoperative live views via cnn for minimal invasive surgery. J. Biomed. Inform. 106, 103430 (2020)","journal-title":"J. Biomed. Inform."},{"key":"3873_CR31","doi-asserted-by":"crossref","unstructured":"Noh, H., Hong, S., Han, B.: Learning deconvolution network for semantic segmentation. In: Proceedings of the IEEE International Conference on Computer Vision (2015)","DOI":"10.1109\/ICCV.2015.178"},{"key":"3873_CR32","doi-asserted-by":"crossref","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-net: convolutional networks for biomedical image segmentation. In: Navab,N.,\u00a0Hornegger, J., Wells, W.M., Frangi, A.F. (eds.) Medical Image Computing and Computer-Assisted Intervention\u2014MICCAI 2015, pp. 234\u2013241 (2015)","DOI":"10.1007\/978-3-319-24574-4_28"},{"issue":"2","key":"3873_CR33","doi-asserted-by":"publisher","first-page":"1332","DOI":"10.1109\/TVCG.2018.2869326","volume":"26","author":"B Sheng","year":"2018","unstructured":"Sheng, B., Li, P., Jin, Y., Tan, P., Lee, T.Y.: Intrinsic image decomposition with step and drift shading separation. IEEE Trans. Vis. Comput. Graph. 26(2), 1332\u20131346 (2018)","journal-title":"IEEE Trans. Vis. Comput. Graph."},{"key":"3873_CR34","unstructured":"Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., Ganguli, S.: Deep unsupervised learning using nonequilibrium thermodynamics. In: International Conference on Machine Learning, pp. 2256\u20132265 (2015)"},{"key":"3873_CR35","unstructured":"Song, Y., Ermon, S.: Generative modeling by estimating gradients of the data distribution. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems, no 1067, pp 13. Curran Associates Inc., Red Hook, NY, USA (2019)"},{"key":"3873_CR36","unstructured":"Song, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S., Poole, B.: Score-based generative modeling through stochastic differential equations. In: International Conference on Learning Representations (2021)"},{"key":"3873_CR37","doi-asserted-by":"crossref","unstructured":"Strudel, R., Garcia, R., Laptev, I., Schmid, C.: Segmenter: transformer for semantic segmentation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 7262\u20137272 (2021)","DOI":"10.1109\/ICCV48922.2021.00717"},{"key":"3873_CR38","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2015)","DOI":"10.1109\/CVPR.2015.7298594"},{"issue":"4","key":"3873_CR39","doi-asserted-by":"publisher","first-page":"172988142093609","DOI":"10.1177\/1729881420936091","volume":"17","author":"Y Tian","year":"2020","unstructured":"Tian, Y., Lan, L., Guo, H.: A review on the wavelet methods for sonar image segmentation. Int. J. Adv. Robot. Syst. 17(4), 1729881420936091 (2020)","journal-title":"Int. J. Adv. Robot. Syst."},{"key":"3873_CR40","unstructured":"Vaswani, A.: Attention is all you need. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems, Long Beach, California, USA, pp 6000\u20136010. Curran Associates Inc., Red Hook, NY, USA (2017)"},{"issue":"10","key":"3873_CR41","doi-asserted-by":"publisher","first-page":"3349","DOI":"10.1109\/TPAMI.2020.2983686","volume":"43","author":"J Wang","year":"2021","unstructured":"Wang, J., Sun, K., Cheng, T., Jiang, B., Deng, C., Zhao, Y., Liu, D., Mu, Y., Tan, M., Wang, X., Liu, W., Xiao, B.: Deep high-resolution representation learning for visual recognition. IEEE Trans. Pattern Anal. Mach. Intell. 43(10), 3349\u20133364 (2021)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"3873_CR42","first-page":"1623","volume":"227","author":"J Wu","year":"2024","unstructured":"Wu, J., FU, R., Fang, H., Zhang, Y., Yang, Y., Xiong, H., Liu, H., Xu, Y.: Medsegdiff: medical image segmentation with diffusion probabilistic model. Med. Imaging Deep Learn. 227, 1623\u20131639 (2024)","journal-title":"Med. Imaging Deep Learn."},{"key":"3873_CR43","doi-asserted-by":"crossref","unstructured":"Wu, J., Ji, W., Fu, H., Xu, M., Jin, Y., Xu, Y.: Medsegdiff-v2: diffusion-based medical image segmentation with transformer. In: AAAI, pp. 6030\u20136038 (2024)","DOI":"10.1609\/aaai.v38i6.28418"},{"issue":"4","key":"3873_CR44","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3626235","volume":"56","author":"L Yang","year":"2023","unstructured":"Yang, L., Zhang, Z., Song, Y., Hong, S., Xu, R., Zhao, Y., Zhang, W., Cui, B., Yang, M.H.: Diffusion models: a comprehensive survey of methods and applications. ACM Comput. Surv. 56(4), 1\u201339 (2023)","journal-title":"ACM Comput. Surv."},{"key":"3873_CR45","doi-asserted-by":"crossref","unstructured":"Yu, T., Meng, W., Wu, Z., Guo, J., Zhang, X.: Diff-pcg: diffusion point cloud generation conditioned on continuous normalizing flow. Vis. Comput. 41(2), 853\u2013867 (2024)","DOI":"10.1007\/s00371-024-03370-x"},{"issue":"8","key":"3873_CR46","doi-asserted-by":"publisher","first-page":"2546","DOI":"10.1109\/TVCG.2019.2894627","volume":"26","author":"B Zhang","year":"2019","unstructured":"Zhang, B., Sheng, B., Li, P., Lee, T.Y.: Depth of field rendering using multilayer-neighborhood optimization. IEEE Trans. Vis. Comput. Graph. 26(8), 2546\u20132559 (2019)","journal-title":"IEEE Trans. Vis. Comput. Graph."},{"key":"3873_CR47","doi-asserted-by":"crossref","unstructured":"Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2881\u20132890 (2017)","DOI":"10.1109\/CVPR.2017.660"},{"key":"3873_CR48","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: deformable transformers for end-to-end object detection. In: 9th International Conference on Learning Representations (2021)"}],"container-title":["The Visual Computer"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-03873-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00371-025-03873-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-03873-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,6]],"date-time":"2025-09-06T08:30:58Z","timestamp":1757147458000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00371-025-03873-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,1]]},"references-count":48,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2025,9]]}},"alternative-id":["3873"],"URL":"https:\/\/doi.org\/10.1007\/s00371-025-03873-1","relation":{},"ISSN":["0178-2789","1432-2315"],"issn-type":[{"value":"0178-2789","type":"print"},{"value":"1432-2315","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,4,1]]},"assertion":[{"value":"3 March 2025","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 April 2025","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}