{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,31]],"date-time":"2025-08-31T10:00:22Z","timestamp":1756634422418},"reference-count":50,"publisher":"Springer Science and Business Media LLC","issue":"19","license":[{"start":{"date-parts":[[2023,3,1]],"date-time":"2023-03-01T00:00:00Z","timestamp":1677628800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,3,1]],"date-time":"2023-03-01T00:00:00Z","timestamp":1677628800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2023,8]]},"DOI":"10.1007\/s11042-023-14586-9","type":"journal-article","created":{"date-parts":[[2023,3,1]],"date-time":"2023-03-01T09:03:03Z","timestamp":1677661383000},"page":"28853-28872","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Cross-modal attention guided visual reasoning for referring image segmentation"],"prefix":"10.1007","volume":"82","author":[{"given":"Wenjing","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mengnan","family":"Hu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Quange","family":"Tan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qianli","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,3,1]]},"reference":[{"key":"14586_CR1","doi-asserted-by":"crossref","unstructured":"Ben-younes H, Cad\u00e8ne R, Thome M, Thome N (2017) \u201cMUTAN: Multimodal Tucker Fusion for Visual Question Answering\u201d, 2017 IEEE International Conference on Computer Vision (ICCV). 2631\u20132639","DOI":"10.1109\/ICCV.2017.285"},{"key":"14586_CR2","doi-asserted-by":"publisher","first-page":"53","DOI":"10.1090\/S0025-5718-1954-0061484-4","volume":"8","author":"AW Burks","year":"1954","unstructured":"Burks AW, Warren DW, Wright JB (1954) An analysis of a logical machine using parenthesis-free notation. Math Comput 8:53\u201357","journal-title":"Math Comput"},{"key":"14586_CR3","doi-asserted-by":"crossref","unstructured":"Chandra S, Usunier N, Kokkinos I (2017) \u201cDense and Low-Rank Gaussian CRFs Using Deep Embeddings.\u201d 2017 IEEE International Conference on Computer Vision (ICCV). 5113\u20135122","DOI":"10.1109\/ICCV.2017.546"},{"key":"14586_CR4","unstructured":"Chen L-C, Papandreou G, Kokkinos I, Murphy KP, Yuille AL (2015) \u201cSemantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs\u201d, CoRR abs\/1412.7062"},{"key":"14586_CR5","doi-asserted-by":"publisher","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","volume":"40","author":"LC Chen","year":"2018","unstructured":"Chen LC, Papandreou G, Kokkinos I, Murphy KP, Yuille AL (2018) DeepLab: semantic image segmentation with deep convolutional nets, Atrous convolution, and fully connected CRFs. IEEE Trans Pattern Anal Mach Intell 40:834\u2013848","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"14586_CR6","doi-asserted-by":"crossref","unstructured":"Chen D-J, Jia S, Lo Y-C, Chen H-T, Liu T-L (2019) \u201cSee-Through-Text Grouping for Referring Image Segmentation\u201d, 2019 IEEE\/CVF International Conference on Computer Vision (ICCV). 7453\u20137462","DOI":"10.1109\/ICCV.2019.00755"},{"key":"14586_CR7","unstructured":"Chen Y-W, Tsai Y-H, Wang T, Lin Y-Y, Yang M-H (2019) \u201cReferring Expression Object Segmentation with Caption-Aware Consistency\u201d, BMVC"},{"key":"14586_CR8","doi-asserted-by":"crossref","unstructured":"Chen Y, Rohrbach M, Yan Z, Yan S, Feng J, Kalantidis Y (2019) \u201cGraph-Based Global Reasoning Networks.\u201d 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 433\u2013442","DOI":"10.1109\/CVPR.2019.00052"},{"key":"14586_CR9","doi-asserted-by":"crossref","unstructured":"C Deng, Wu Q, Wu Q, Hu F, Lyu F, Tan M (2018) \u201cVisual Grounding via Accumulated Attention\u201d, 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition. 7746\u20137755","DOI":"10.1109\/CVPR.2018.00808"},{"key":"14586_CR10","unstructured":"Duta IC, Liu L, Zhu F, Shao L (2020) \u201cPyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition\u201d, ArXiv abs\/2006.11538"},{"key":"14586_CR11","doi-asserted-by":"publisher","first-page":"419","DOI":"10.1016\/j.cviu.2009.03.008","volume":"114","author":"HJ Escalante","year":"2010","unstructured":"Escalante HJ, Hern\u00e1ndez CA, Gonzalez JA, L\u00f3pez-L\u00f3pez A, Montes-y-G\u00f3mez M, Morales EF, Sucar LE, Pineda LV, Grubinger M (2010) The segmented and annotated IAPR TC-12 benchmark. Comput Vis Image Underst 114:419\u2013428","journal-title":"Comput Vis Image Underst"},{"key":"14586_CR12","doi-asserted-by":"crossref","unstructured":"Feng G, Hu Z, Zhang L, Huchuan L (2021) \u201cEncoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation\u201d, 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR): 15501\u201315510.","DOI":"10.1109\/CVPR46437.2021.01525"},{"key":"14586_CR13","doi-asserted-by":"crossref","unstructured":"Fu J, Liu J, Tian H, Fang Z, Lu H (2019) \u201cDual Attention Network for Scene Segmentation.\u201d 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 3141\u20133149","DOI":"10.1109\/CVPR.2019.00326"},{"key":"14586_CR14","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) \u201cDeep Residual Learning for Image Recognition\u201d, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"14586_CR15","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9:1735\u20131780","journal-title":"Neural Comput"},{"key":"14586_CR16","doi-asserted-by":"crossref","unstructured":"Hu R, Rohrbach M, Darrell T (2016) \u201cSegmentation from Natural Language Expressions\u201d, ArXiv abs\/1603.06180: 108\u2013124","DOI":"10.1007\/978-3-319-46448-0_7"},{"key":"14586_CR17","doi-asserted-by":"crossref","unstructured":"Hu R, Xu H, Rohrbach M, Feng J, Saenko K, Darrell T (2016) \u201cNatural Language Object Retrieval\u201d 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4555\u20134564","DOI":"10.1109\/CVPR.2016.493"},{"key":"14586_CR18","doi-asserted-by":"crossref","unstructured":"Hu R, Rohrbach M, Andreas J, Darrell T, Saenko K (2017) \u201cModeling Relationships in Referential Expressions with Compositional Modular Networks\u201d, 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4418\u20134427","DOI":"10.1109\/CVPR.2017.470"},{"key":"14586_CR19","doi-asserted-by":"crossref","unstructured":"Hu Z, Feng G, Sun J, Zhang L, Huchuan L (2020) \u201cBi-Directional Relationship Inferring Network for Referring Image Segmentation\u201d. 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 4423\u20134432","DOI":"10.1109\/CVPR42600.2020.00448"},{"key":"14586_CR20","doi-asserted-by":"crossref","unstructured":"Huang S, Hui T, Liu S, Li G, Wei Y, Han J, Liu L, Li B (2020) \u201cReferring Image Segmentation via Cross-Modal Progressive Comprehension\u201d. 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10485\u201310494","DOI":"10.1109\/CVPR42600.2020.01050"},{"key":"14586_CR21","doi-asserted-by":"crossref","unstructured":"Hui T, Liu S, Huang S, Li G, Yu S, Zhang F, Han J (2020) \u201cLinguistic Structure Guided Context Modeling for Referring Image Segmentation\u201d, ArXiv abs\/2010.00515. 59\u201375","DOI":"10.1007\/978-3-030-58607-2_4"},{"key":"14586_CR22","doi-asserted-by":"crossref","unstructured":"Jing Y, Kong T, Wang W, Liang W, Li L, Tieniu Tan (2021) \u201cLocate then Segment: A Strong Pipeline for Referring Image Segmentation\u201d, 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 9853\u20139862.","DOI":"10.1109\/CVPR46437.2021.00973"},{"key":"14586_CR23","doi-asserted-by":"crossref","unstructured":"Kazemzadeh S, Ordonez V, Matten MA, Berg TL (2014) \u201cReferItGame: Referring to Objects in Photographs of Natural Scenes.\u201d EMNLP, 787\u2013798.","DOI":"10.3115\/v1\/D14-1086"},{"key":"14586_CR24","unstructured":"Kingma DP, Ba J (2015) \u201cAdam: A Method for Stochastic Optimization.\u201d CoRR abs\/1412.6980, 1\u201315"},{"key":"14586_CR25","doi-asserted-by":"crossref","unstructured":"Li R, Li K, Kuo Y-C, Shu M, Qi X, Shen X, Jia J (2018) \u201cReferring Image Segmentation via Recurrent Refinement Networks\u201d, 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recogn. 5745\u20135753.","DOI":"10.1109\/CVPR.2018.00602"},{"key":"14586_CR26","doi-asserted-by":"crossref","unstructured":"Lin T-Y, Maire M, Belongie SJ, Hays J, Perona P, Ramanan D, Doll\u00e1r P, Zitnick CL (2014) Microsoft COCO: Common Objects in Context. ECCV:740\u2013755","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"14586_CR27","doi-asserted-by":"crossref","unstructured":"Liu C, Lin ZL, Shen X, Yang J, Lu X, Yuille AL (2017) \u201cRecurrent Multimodal Interaction for Referring Image Segmentation\u201d, 2017 IEEE International Conference on Computer Vision (ICCV). 1280\u20131289","DOI":"10.1109\/ICCV.2017.143"},{"key":"14586_CR28","doi-asserted-by":"crossref","unstructured":"Liu Y, Wang R, Shan S, Chen X (2018) \u201cStructure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships.\u201d 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recogn. 6985\u20136994","DOI":"10.1109\/CVPR.2018.00730"},{"key":"14586_CR29","doi-asserted-by":"crossref","unstructured":"Mao J, Huang J, Toshev A, Camburu O-M, Yuille AL, Murphy AL (2016) \u201cGeneration and Comprehension of Unambiguous Object Descriptions\u201d, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 11\u201320","DOI":"10.1109\/CVPR.2016.9"},{"key":"14586_CR30","doi-asserted-by":"crossref","unstructured":"Margffoy-Tuay E, P\u00e9rez J, Botero E, Arbel\u00e1ez P (2018) \u201cDynamic Multimodal Instance Segmentation guided by natural language queries.\u201d ArXiv abs\/1807.02257. 630\u2013645","DOI":"10.1007\/978-3-030-01252-6_39"},{"key":"14586_CR31","doi-asserted-by":"publisher","first-page":"32833","DOI":"10.1007\/s11042-020-09346-y","volume":"79","author":"B Peng","year":"2020","unstructured":"Peng B, Al-Huda Z, Xie Z, Xi W (2020) Multi-scale region composition of hierarchical image segmentation. Multimed Tools Appl 79:32833\u201332855","journal-title":"Multimed Tools Appl"},{"key":"14586_CR32","doi-asserted-by":"publisher","first-page":"1333","DOI":"10.1109\/TMM.2019.2942480","volume":"22","author":"S Qiu","year":"2020","unstructured":"Qiu S, Zhao Y, Jiao J, Wei Y, Wei S (2020) Referring image segmentation by generative adversarial learning. IEEE Transactions on Multimedia 22:1333\u20131344","journal-title":"IEEE Transactions on Multimedia"},{"key":"14586_CR33","doi-asserted-by":"publisher","first-page":"1137","DOI":"10.1109\/TPAMI.2016.2577031","volume":"39","author":"S Ren","year":"2015","unstructured":"Ren S, He K, Girshick RB, Sun J (2015) Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell 39:1137\u20131149","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"14586_CR34","doi-asserted-by":"publisher","first-page":"15329","DOI":"10.1007\/s11042-019-7305-1","volume":"79","author":"M Rezaei","year":"2019","unstructured":"Rezaei M, Yang H, Meinel C (2019) Recurrent generative adversarial network for learning imbalanced medical image semantic segmentation. Multimed Tools Appl 79:15329\u201315348","journal-title":"Multimed Tools Appl"},{"key":"14586_CR35","doi-asserted-by":"crossref","unstructured":"Rohrbach A, Rohrbach M, Hu R, Darrell T, Schiele B (2016) \u201cGrounding of Textual Phrases in Images by Reconstruction.\u201d ArXiv abs\/1511.03745. 817\u2013834","DOI":"10.1007\/978-3-319-46448-0_49"},{"key":"14586_CR36","doi-asserted-by":"crossref","unstructured":"Sadhu A, Chen K, Nevatia R (2019) \u201cZero-Shot Grounding of Objects From Natural Language Queries.\u201d 2019 IEEE\/CVF International Conference on Computer Vision (ICCV). 4693\u20134702","DOI":"10.1109\/ICCV.2019.00479"},{"key":"14586_CR37","doi-asserted-by":"crossref","unstructured":"Shi H, Li H, Meng F, Wu Q (2018) Key-Word-Aware Network for Referring Expression Image Segmentation. ECCV:38\u201354","DOI":"10.1007\/978-3-030-01231-1_3"},{"key":"14586_CR38","unstructured":"Simonyan K, Zisserman A (2015) \u201cVery Deep Convolutional Networks for Large-Scale Image Recognition\u201d, CoRR abs\/1409.1556"},{"key":"14586_CR39","unstructured":"A Tao, Sapra K, Catanzaro B (2020) \u201cHierarchical Multi-Scale Attention for Semantic Segmentation\u201d, ArXiv abs\/2005.10821"},{"key":"14586_CR40","doi-asserted-by":"crossref","unstructured":"Wang X, Gupta AK (2018) \u201cVideos as Space-Time Region Graphs.\u201d ArXiv abs\/1806.01810. 399\u2013417","DOI":"10.1007\/978-3-030-01228-1_25"},{"key":"14586_CR41","doi-asserted-by":"crossref","unstructured":"Yang Z, Gong B, Wang L, Huang W, Yu D, Luo J (2019) \u201cA Fast and Accurate One-Stage Approach to Visual Grounding\u201d, 2019 IEEE\/CVF International Conference on Computer Vision (ICCV). 4682\u20134692","DOI":"10.1109\/ICCV.2019.00478"},{"key":"14586_CR42","doi-asserted-by":"crossref","unstructured":"Yang S, Li G, Yizhou Y (2019) \u201cDynamic Graph Attention for Referring Expression Comprehension\u201d, 2019 IEEE\/CVF International Conference on Computer Vision (ICCV). 4643\u20134652","DOI":"10.1109\/ICCV.2019.00474"},{"key":"14586_CR43","doi-asserted-by":"crossref","unstructured":"Yang S, Li G, Yizhou Y (2019) \u201cCross-Modal Relationship Inference for Grounding Referring Expressions\u201d, 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 4140\u20134149","DOI":"10.1109\/CVPR.2019.00427"},{"key":"14586_CR44","doi-asserted-by":"crossref","unstructured":"Ye L, Rochan M, Liu Z, Yang W (2019) \u201cCross-Modal Self-Attention Network for Referring Image Segmentation.\u201d 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10494\u201310503","DOI":"10.1109\/CVPR.2019.01075"},{"key":"14586_CR45","doi-asserted-by":"crossref","unstructured":"Yu L, Poirson P, Yang S, Berg AC, Berg TL (2016) \u201cModeling Context in Referring Expressions.\u201d ArXiv abs\/1608.00272, 69\u201385","DOI":"10.1007\/978-3-319-46475-6_5"},{"key":"14586_CR46","doi-asserted-by":"crossref","unstructured":"Yu L, Lin ZL, Shen X, Yang J, Lu X, Bansal M, Tamara L. Berg (2018) \u201cMAttNet: Modular Attention Network for Referring Expression Comprehension\u201d, 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recogn. 1307\u20131315","DOI":"10.1109\/CVPR.2018.00142"},{"key":"14586_CR47","doi-asserted-by":"crossref","unstructured":"Zhang H, Niu Y, Chang S-F (2018) \u201cGrounding Referring Expressions in Images by Variational Context\u201d, 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recogn: 4158\u20134166.","DOI":"10.1109\/CVPR.2018.00437"},{"key":"14586_CR48","doi-asserted-by":"crossref","unstructured":"Zhang H, Zhang H, Wang C, Xie J (2019) \u201cCo-Occurrent Features in Semantic Segmentation\u201d, 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 548\u2013557","DOI":"10.1109\/CVPR.2019.00064"},{"key":"14586_CR49","unstructured":"Zhang H, Wu C, Zhang Z, Zhu Y, Zhang ZL, Lin H, Sun Y, He T, Mueller J, Manmatha R, Li M, Smola A (2020) \u201cResNeSt: Split-Attention Networks\u201d, ArXiv abs\/2004.08955"},{"key":"14586_CR50","doi-asserted-by":"crossref","unstructured":"B Zhuang, Wu Q, Shen C, Reid ID, van den Hengel A (2018) \u201cParallel Attention: A Unified Framework for Visual Object Discovery Through Dialogs and Queries.\u201d 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition. 4252\u20134261","DOI":"10.1109\/CVPR.2018.00447"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-14586-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-14586-9\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-14586-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,22]],"date-time":"2023-07-22T10:31:48Z","timestamp":1690021908000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-14586-9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,3,1]]},"references-count":50,"journal-issue":{"issue":"19","published-print":{"date-parts":[[2023,8]]}},"alternative-id":["14586"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-14586-9","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,3,1]]},"assertion":[{"value":"30 September 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"14 July 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"31 January 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 March 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}}]}}