{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,11]],"date-time":"2026-01-11T01:30:24Z","timestamp":1768095024683,"version":"3.49.0"},"reference-count":61,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2020,1,24]],"date-time":"2020-01-24T00:00:00Z","timestamp":1579824000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2020,1,24]],"date-time":"2020-01-24T00:00:00Z","timestamp":1579824000000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"name":"The Opening Foundation of the State Key Laboratory","award":["No. 2014KF06"],"award-info":[{"award-number":["No. 2014KF06"]}]},{"name":"The National Science and Technology Major Project","award":["No. 2013ZX03005013"],"award-info":[{"award-number":["No. 2013ZX03005013"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Process Lett"],"published-print":{"date-parts":[[2020,6]]},"DOI":"10.1007\/s11063-019-10148-z","type":"journal-article","created":{"date-parts":[[2020,1,24]],"date-time":"2020-01-24T05:14:29Z","timestamp":1579842869000},"page":"2281-2299","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["Deep Dual-Stream Network with Scale Context Selection Attention Module for Semantic Segmentation"],"prefix":"10.1007","volume":"51","author":[{"given":"Yifu","family":"Liu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chenfeng","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhihong","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chao","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Han","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinyu","family":"Jin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2020,1,24]]},"reference":[{"issue":"12","key":"10148_CR1","doi-asserted-by":"publisher","first-page":"2481","DOI":"10.1109\/TPAMI.2016.2644615","volume":"39","author":"V Badrinarayanan","year":"2017","unstructured":"Badrinarayanan V, Kendall A, Cipolla R (2017) SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Trans Pattern Anal Mach Intell 39(12):2481\u20132495","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"10148_CR2","unstructured":"Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate. arXiv e-prints, arXiv:1409.0473"},{"key":"10148_CR3","unstructured":"Bansal A, Chen X, Russell B, Gupta A, Ramanan D (2017) PixelNet: representation of the pixels, by the pixels, and for the pixels. arXiv e-prints, arXiv:1702.06506"},{"key":"10148_CR4","unstructured":"Buyssens P, Elmoataz A, L\u00e9zoray O (2012) Multiscale convolutional neural networks for vision-based classification of cells. In: Lee KM, Matsushita Y, Rehg JM, Hu Z (eds) Computer vision\u2014ACCV 2012. Springer, Berlin, pp 342\u2013352"},{"key":"10148_CR5","unstructured":"Chen L.-C, Papandreou G, Kokkinos I, Murphy K, Yuille AL (2014) Semantic image segmentation with deep convolutional nets and fully connected CRFs. arXiv e-prints, arXiv:1412.7062"},{"key":"10148_CR6","unstructured":"Chen L.-C, Papandreou G, Kokkinos I, Murphy K, Yuille AL (2016) DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. arXiv e-prints, arXiv:1606.00915"},{"key":"10148_CR7","unstructured":"Chen L.-C, Papandreou G, Schroff F, Adam H (2017) Rethinking atrous convolution for semantic image segmentation. arXiv e-prints, arXiv:1706.05587"},{"key":"10148_CR8","doi-asserted-by":"crossref","unstructured":"Chen L.-C, Papandreou G, Yuille AL (2013) Learning a dictionary of shape epitomes with applications to image labeling. In: 2013 IEEE international conference on computer vision. IEEE","DOI":"10.1109\/ICCV.2013.49"},{"key":"10148_CR9","unstructured":"Chen L.-C, Yang Y, Wang J, Xu W, Yuille AL (2015) Attention to scale: scale-aware semantic image segmentation. arXiv e-prints, arXiv:1511.03339"},{"key":"10148_CR10","doi-asserted-by":"crossref","unstructured":"Chen X, Mottaghi R, Liu X, Fidler S, Urtasun R, Yuille A (2014) Detect what you can: detecting and representing objects using holistic models and body parts. arXiv e-prints, arXiv:1406.2031","DOI":"10.1109\/CVPR.2014.254"},{"key":"10148_CR11","doi-asserted-by":"publisher","unstructured":"Chen Z, Chen C, Jin X, Liu Y, Cheng Z (2019) Deep joint two-stream Wasserstein auto-encoder and selective attention alignment for unsupervised domain adaptation. Neural Comput Appl. https:\/\/doi.org\/10.1007\/s00521-019-04262-1","DOI":"10.1007\/s00521-019-04262-1"},{"issue":"1","key":"10148_CR12","doi-asserted-by":"publisher","first-page":"98","DOI":"10.1007\/s11263-014-0733-5","volume":"111","author":"M Everingham","year":"2015","unstructured":"Everingham M, Eslami SMA, Van Gool L, Williams CKI, Winn J, Zisserman A (2015) The pascal visual object classes challenge: a retrospective. Int J Comput Vis 111(1):98\u2013136","journal-title":"Int J Comput Vis"},{"issue":"8","key":"10148_CR13","doi-asserted-by":"publisher","first-page":"1915","DOI":"10.1109\/TPAMI.2012.231","volume":"35","author":"C Farabet","year":"2013","unstructured":"Farabet C, Couprie C, Najman L, LeCun Y (2013) Learning hierarchical features for scene labeling. IEEE Trans Pattern Anal Mach Intell 35(8):1915\u20131929","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"10148_CR14","unstructured":"Fu J, Liu J, Tian H, Li Y, Bao Y, Fang Z, Lu H (2018) Dual attention network for scene segmentation. arXiv e-prints, arXiv:1809.02983"},{"key":"10148_CR15","unstructured":"Ganin Y, Lempitsky V (2015) N4-fields: neural network nearest neighbor fields for image transforms. In: Cremers D, Reid I, Saito H, Yang M-H (eds) Computer vision\u2014ACCV 2014. Springer, Cham, pp 536\u2013551"},{"key":"10148_CR16","unstructured":"Garcia-Garcia A, Orts-Escolano S, Oprea S, Villena-Martinez V, Rodr\u00edguez JG (2017) A review on deep learning techniques applied to semantic segmentation. CoRR, arXiv:1704.06857"},{"key":"10148_CR17","doi-asserted-by":"crossref","unstructured":"Ghiasi G, Fowlkes CC (2016) Laplacian pyramid reconstruction and refinement for semantic segmentation. arXiv e-prints, arXiv:1605.02264","DOI":"10.1007\/978-3-319-46487-9_32"},{"key":"10148_CR18","doi-asserted-by":"crossref","unstructured":"Hariharan B, Arbelaez P, Bourdev L, Maji S, Malik J (2011) Semantic contours from inverse detectors. In: 2011 international conference on computer vision. IEEE","DOI":"10.1109\/ICCV.2011.6126343"},{"issue":"1","key":"10148_CR19","doi-asserted-by":"publisher","first-page":"177","DOI":"10.1007\/s11063-018-9807-7","volume":"49","author":"C He","year":"2018","unstructured":"He C, Hu H (2018) Image captioning with text-based visual attention. Neural Process Lett 49(1):177\u2013185","journal-title":"Neural Process Lett"},{"key":"10148_CR20","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2014) Spatial pyramid pooling in deep convolutional networks for visual recognition. CoRR, arXiv:1406.4729","DOI":"10.1007\/978-3-319-10578-9_23"},{"key":"10148_CR21","unstructured":"He K, Zhang X, Ren S, Sun J (2015) Deep residual learning for image recognition. arXiv e-prints, page arXiv:1512.03385"},{"issue":"12","key":"10148_CR22","doi-asserted-by":"publisher","first-page":"5659","DOI":"10.1109\/TIP.2015.2487860","volume":"24","author":"C Hong","year":"2015","unstructured":"Hong C, Yu J, Wan J, Tao D, Wang M (2015) Multimodal deep autoencoder for human pose recovery. IEEE Trans Image Process 24(12):5659\u20135670","journal-title":"IEEE Trans Image Process"},{"issue":"7","key":"10148_CR23","doi-asserted-by":"publisher","first-page":"3952","DOI":"10.1109\/TII.2018.2884211","volume":"15","author":"C Hong","year":"2019","unstructured":"Hong C, Yu J, Zhang J, Jin X, Lee K (2019) Multimodal face-pose estimation with multitask manifold deep learning. IEEE Trans Ind Inf 15(7):3952\u20133961","journal-title":"IEEE Trans Ind Inf"},{"key":"10148_CR24","unstructured":"Hu J, Shen L, Albanie S, Sun G, Wu E (2017) Squeeze-and-excitation networks. arXiv e-prints, arXiv:1709.01507"},{"issue":"3","key":"10148_CR25","doi-asserted-by":"publisher","first-page":"783","DOI":"10.1007\/s11063-017-9724-1","volume":"47","author":"J Kim","year":"2017","unstructured":"Kim J, Bukhari W, Lee M (2017) Feature analysis of unsupervised learning for multi-task classification using convolutional neural network. Neural Process Lett 47(3):783\u2013797","journal-title":"Neural Process Lett"},{"key":"10148_CR26","first-page":"01","volume":"25","author":"A Krizhevsky","year":"2012","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. Neural Inf Process Syst 25:01","journal-title":"Neural Inf Process Syst"},{"key":"10148_CR27","doi-asserted-by":"crossref","unstructured":"Lazebnik S, Schmid C, Ponce J (2006) Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. In: 2006 IEEE computer society conference on computer vision and pattern recognition (CVPR\u201906), vol 2, pp 2169\u20132178","DOI":"10.1109\/CVPR.2006.68"},{"key":"10148_CR28","unstructured":"Lee C.-Y, Xie S, Gallagher P, Zhang Z, Tu Z (2014) Deeply-supervised nets. arXiv e-prints, arXiv:1409.5185"},{"key":"10148_CR29","doi-asserted-by":"crossref","unstructured":"Liang X, Shen X, Feng J, Lin L, Yan S (2016) Semantic object parsing with graph LSTM. arXiv e-prints, arXiv:1603.07063","DOI":"10.1007\/978-3-319-46448-0_8"},{"key":"10148_CR30","unstructured":"Liang X, Shen X, Xiang D, Feng J, Lin L, Yan S (2015) Semantic object parsing with local-global long short-term memory. arXiv e-prints, arXiv:1511.04510"},{"key":"10148_CR31","doi-asserted-by":"crossref","unstructured":"Lin G, Milan A, Shen C, Reid I (2017) Refinenet: multi-path refinement networks for high-resolution semantic segmentation. In: The IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2017.549"},{"key":"10148_CR32","unstructured":"Lin G, Shen C, van dan Hengel A, Reid I (2015) Efficient piecewise training of deep structured models for semantic segmentation. arXiv e-prints, arXiv:1504.01013"},{"key":"10148_CR33","unstructured":"Liu W, Rabinovich A, Berg AC (2015) ParseNet: looking wider to see better. arXiv e-prints, arXiv:1506.04579"},{"key":"10148_CR34","doi-asserted-by":"crossref","unstructured":"Liu Z, Li X, Luo P, Change Loy C, Tang X (2015) Semantic image segmentation via deep parsing network. arXiv e-prints, arXiv:1509.02634","DOI":"10.1109\/ICCV.2015.162"},{"key":"10148_CR35","unstructured":"Mnih V, Heess N, Graves A, Kavukcuoglu K (2014) Recurrent models of visual attention. arXiv e-prints, arXiv:1406.6247"},{"key":"10148_CR36","doi-asserted-by":"publisher","first-page":"474","DOI":"10.1007\/978-3-319-16178-5_33","volume-title":"Computer vision\u2014ECCV 2014 workshops","author":"N Neverova","year":"2015","unstructured":"Neverova N, Wolf C, Taylor GW, Nebout F (2015) Multi-scale deep learning for gesture detection and localization. In: Agapito L, Bronstein MM, Rother C (eds) Computer vision\u2014ECCV 2014 workshops. Springer, Cham, pp 474\u2013490"},{"key":"10148_CR37","doi-asserted-by":"crossref","unstructured":"Noh H, Hong S, Han B (2015) Learning deconvolution network for semantic segmentation. In: 2015 IEEE international conference on computer vision (ICCV). IEEE","DOI":"10.1109\/ICCV.2015.178"},{"key":"10148_CR38","unstructured":"Papandreou G, Chen L.-C, Murphy K, Yuille AL (2015) Weakly- and semi-supervised learning of a DCNN for semantic image segmentation. arXiv e-prints, arXiv:1502.02734"},{"key":"10148_CR39","doi-asserted-by":"crossref","unstructured":"Peng C, Zhang X, Yu G, Luo G, Sun J (2017) Large kernel matters\u2014improve semantic segmentation by global convolutional network. In: The IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2017.189"},{"key":"10148_CR40","doi-asserted-by":"crossref","unstructured":"Pohlen T, Hermans A, Mathias M, Leibe B (2017) Full-resolution residual networks for semantic segmentation in street scenes. In: The IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2017.353"},{"issue":"4","key":"10148_CR41","doi-asserted-by":"publisher","first-page":"640","DOI":"10.1109\/TPAMI.2016.2572683","volume":"39","author":"E Shelhamer","year":"2017","unstructured":"Shelhamer E, Long J, Darrell T (2017) Fully convolutional networks for semantic segmentation. IEEE Trans Pattern Anal Mach Intell 39(4):640\u2013651","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"6","key":"10148_CR42","doi-asserted-by":"publisher","first-page":"1480","DOI":"10.1109\/TPAMI.2017.2712691","volume":"40","author":"B Shuai","year":"2018","unstructured":"Shuai B, Zuo Z, Wang B, Wang G (2018) Scene segmentation with DAG-recurrent neural networks. IEEE Trans Pattern Anal Mach Intell 40(6):1480\u20131493","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"10148_CR43","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I (2017) Attention is all you need. arXiv e-prints, arXiv:1706.03762"},{"key":"10148_CR44","unstructured":"Wang P, Chen P, Yuan Y, Liu D, Huang Z, Hou X, Cottrell G (2017) Understanding convolution for semantic segmentation. arXiv e-prints, arXiv:1702.08502"},{"key":"10148_CR45","unstructured":"Wang X, Girshick RB, Gupta A, He K (2017) Non-local neural networks. CoRR, arXiv:1711.07971"},{"key":"10148_CR46","doi-asserted-by":"crossref","unstructured":"Woo S, Park J, Lee J.-Y, Kweon IS (2018) CBAM: convolutional block attention module. arXiv e-prints, arXiv:1807.06521","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"10148_CR47","unstructured":"Xia F, Wang P, Chen L.-C, Yuille AL (2015) Zoom better to see clearer: human and object parsing with hierarchical auto-zoom net. arXiv e-prints, arXiv:1511.06881"},{"key":"10148_CR48","unstructured":"Xiao Y, Codevilla F, Gurram A, Urfalioglu O, L\u00f3pez AM (2019) Multimodal end-to-end autonomous driving. arXiv e-prints, arXiv:1906.03199"},{"key":"10148_CR49","unstructured":"Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhutdinov R, Zemel R, Bengio Y (2015) Show, attend and tell: neural image caption generation with visual attention. arXiv e-prints, arXiv:1502.03044"},{"key":"10148_CR50","doi-asserted-by":"crossref","unstructured":"Yu C, Wang J, Peng C, Gao C, Yu G, Sang N (2018) Learning a discriminative feature network for semantic segmentation. arXiv e-prints, arXiv:1804.09337","DOI":"10.1109\/CVPR.2018.00199"},{"issue":"5","key":"10148_CR51","doi-asserted-by":"publisher","first-page":"2019","DOI":"10.1109\/TIP.2014.2311377","volume":"23","author":"J Yu","year":"2014","unstructured":"Yu J, Rui Y, Tao D (2014) Click prediction for web image reranking using multimodal sparse coding. IEEE Trans Image Process 23(5):2019\u20132032","journal-title":"IEEE Trans Image Process"},{"key":"10148_CR52","doi-asserted-by":"publisher","unstructured":"Yu J, Tan M, Zhang H, Tao D, Rui Y (2019) Hierarchical deep click feature prediction for fine-grained image recognition. IEEE Trans Pattern Anal Mach Intell. https:\/\/doi.org\/10.1109\/TPAMI.2019.2932058","DOI":"10.1109\/TPAMI.2019.2932058"},{"issue":"12","key":"10148_CR53","doi-asserted-by":"publisher","first-page":"4014","DOI":"10.1109\/TCYB.2016.2591583","volume":"47","author":"J Yu","year":"2017","unstructured":"Yu J, Yang X, Gao F, Tao D (2017) Deep multimodal distance metric learning using click constraints for image ranking. IEEE Trans Cybern 47(12):4014\u20134024","journal-title":"IEEE Trans Cybern"},{"issue":"5","key":"10148_CR54","doi-asserted-by":"publisher","first-page":"1005","DOI":"10.1109\/TIFS.2016.2636090","volume":"12","author":"J Yu","year":"2017","unstructured":"Yu J, Zhang B, Kuang Z, Lin D, Fan J (2017) iPrivacy: image privacy protection by identifying sensitive objects via deep multi-task learning. IEEE Trans Inf Forensics Secur 12(5):1005\u20131016","journal-title":"IEEE Trans Inf Forensics Secur"},{"key":"10148_CR55","doi-asserted-by":"publisher","unstructured":"Yu J, Zhu C, Zhang J, Huang Q, Tao D (2019) Spatial pyramid-enhanced NetVLAD with weighted triplet loss for place recognition. IEEE Trans Neural Netw Learn Syst. https:\/\/doi.org\/10.1109\/TNNLS.2019.2908982","DOI":"10.1109\/TNNLS.2019.2908982"},{"key":"10148_CR56","doi-asserted-by":"crossref","unstructured":"Zhang H, Dana K, Shi J, Zhang Z, Wang X, Tyagi A, Agrawal A (2018) Context encoding for semantic segmentation. arXiv e-prints, arXiv:1803.08904","DOI":"10.1109\/CVPR.2018.00747"},{"issue":"5","key":"10148_CR57","doi-asserted-by":"publisher","first-page":"2420","DOI":"10.1109\/TIP.2018.2804218","volume":"27","author":"J Zhang","year":"2018","unstructured":"Zhang J, Yu J, Tao D (2018) Local deep-feature alignment for unsupervised dimension reduction. IEEE Trans Image Process 27(5):2420\u20132432","journal-title":"IEEE Trans Image Process"},{"issue":"3","key":"10148_CR58","doi-asserted-by":"publisher","first-page":"1503","DOI":"10.1007\/s11063-017-9753-9","volume":"48","author":"W Zhang","year":"2018","unstructured":"Zhang W, Hu H, Hu H (2018) Training visual-semantic embedding network for boosting automatic image annotation. Neural Process Lett 48(3):1503\u20131519","journal-title":"Neural Process Lett"},{"key":"10148_CR59","unstructured":"Zhao H, Shi J, Qi X, Wang X, Jia J (2016) Pyramid scene parsing network. CoRR, arXiv:1612.01105"},{"key":"10148_CR60","doi-asserted-by":"crossref","unstructured":"Zhao H, Zhang Y, Liu S, Shi J, Loy CC, Lin D, Jia J (2018) Psanet: point-wise spatial attention network for scene parsing. In: Ferrari V, Hebert M, Sminchisescu C, Weiss Y (eds) Computer vision\u2014ECCV 2018. Springer, Cham, pp 270\u2013286","DOI":"10.1007\/978-3-030-01240-3_17"},{"key":"10148_CR61","doi-asserted-by":"crossref","unstructured":"Zheng S, Jayasumana S, Romera-Paredes B, Vineet V, Su Z, Du D, Huang C, Torr PHS (2015) Conditional random fields as recurrent neural networks. arXiv e-prints, arXiv:1502.03240","DOI":"10.1109\/ICCV.2015.179"}],"container-title":["Neural Processing Letters"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-019-10148-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11063-019-10148-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-019-10148-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,1,23]],"date-time":"2021-01-23T00:26:39Z","timestamp":1611361599000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11063-019-10148-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,1,24]]},"references-count":61,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2020,6]]}},"alternative-id":["10148"],"URL":"https:\/\/doi.org\/10.1007\/s11063-019-10148-z","relation":{},"ISSN":["1370-4621","1573-773X"],"issn-type":[{"value":"1370-4621","type":"print"},{"value":"1573-773X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020,1,24]]},"assertion":[{"value":"24 January 2020","order":1,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Compliance with ethical standards"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}