{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T19:45:11Z","timestamp":1773085511973,"version":"3.50.1"},"reference-count":41,"publisher":"Association for Computing Machinery (ACM)","issue":"2s","license":[{"start":{"date-parts":[[2023,3,15]],"date-time":"2023-03-15T00:00:00Z","timestamp":1678838400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":["ACM Trans. Multimedia Comput. Commun. Appl."],"published-print":{"date-parts":[[2023,4,30]]},"abstract":"<jats:p>\n            Few-shot segmentation aims to segment objects belonging to a specific class under the guidance of a few annotated examples. Most existing approaches follow the prototype learning paradigm and generate category prototypes by squeezing masked feature maps extracted from images in the support set. These support prototypes may lead to inaccurate predictions when directly compared with features extracted from the query set due to the considerable distribution discrepancy between support and query features. We propose a query-guided prototype learning architecture to address this problem from two aspects: (i) We propose a cross-alignment loss for training the segmentation decoder. This loss function will help the decoder improve its robustness against the distribution discrepancy between support and query features. (ii) We build a dynamic fusion module to strengthen the original support prototype with another prototype extracted from query features. Experiments show that our method achieves promising results compared to previous prototype learning methods on PASCAL-5\n            <jats:sup>\n              <jats:italic>i<\/jats:italic>\n            <\/jats:sup>\n            and COCO-20\n            <jats:sup>\n              <jats:italic>i<\/jats:italic>\n            <\/jats:sup>\n            datasets.\n          <\/jats:p>","DOI":"10.1145\/3555314","type":"journal-article","created":{"date-parts":[[2022,8,12]],"date-time":"2022-08-12T11:31:42Z","timestamp":1660303902000},"page":"1-20","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":11,"title":["Query-Guided Prototype Learning with Decoder Alignment and Dynamic Fusion in Few-Shot Segmentation"],"prefix":"10.1145","volume":"19","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2871-2299","authenticated-orcid":false,"given":"Yiming","family":"Tang","sequence":"first","affiliation":[{"name":"Fudan University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0294-6620","authenticated-orcid":false,"given":"Yi","family":"Yu","sequence":"additional","affiliation":[{"name":"National Institute of Informatics, Chiyoda-ku, Tokyo, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2023,3,15]]},"reference":[{"key":"e_1_3_1_2_2","first-page":"13979","volume-title":"CVPR","author":"Boudiaf Malik","year":"2021","unstructured":"Malik Boudiaf, Hoel Kervadec, Ziko Imtiaz Masud, Pablo Piantanida, Ismail Ben Ayed, and Jose Dolz. 2021. Few-shot segmentation without meta-learning: A good transductive inference is all you need? In CVPR. 13979\u201313988."},{"key":"e_1_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2699184"},{"key":"e_1_3_1_4_2","first-page":"3213","volume-title":"CVPR","author":"Cordts Marius","year":"2016","unstructured":"Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. 2016. The cityscapes dataset for semantic urban scene understanding. In CVPR. 3213\u20133223."},{"key":"e_1_3_1_5_2","volume-title":"BMVC","author":"Dong Nanqing","year":"2018","unstructured":"Nanqing Dong and Eric P. Xing. 2018. Few-shot semantic segmentation with prototype learning. In BMVC, Vol. 3."},{"key":"e_1_3_1_6_2","article-title":"An image is worth 16  \\(\\times\\)  16 words: Transformers for image recognition at scale","author":"Dosovitskiy Alexey","year":"2021","unstructured":"Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An image is worth 16 \\(\\times\\) 16 words: Transformers for image recognition at scale. ICLR (2021).","journal-title":"ICLR"},{"key":"e_1_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-009-0275-4"},{"key":"e_1_3_1_8_2","first-page":"3146","volume-title":"CVPR","author":"Fu Jun","year":"2019","unstructured":"Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, and Hanqing Lu. 2019. Dual attention network for scene segmentation. In CVPR. 3146\u20133154."},{"key":"e_1_3_1_9_2","first-page":"297","volume-title":"ECCV","author":"Hariharan Bharath","year":"2014","unstructured":"Bharath Hariharan, Pablo Arbel\u00e1ez, Ross Girshick, and Jitendra Malik. 2014. Simultaneous detection and segmentation. In ECCV. Springer, 297\u2013312."},{"key":"e_1_3_1_10_2","first-page":"770","volume-title":"CVPR","author":"He Kaiming","year":"2016","unstructured":"Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR. 770\u2013778."},{"key":"e_1_3_1_11_2","first-page":"603","volume-title":"ICCV","author":"Huang Zilong","year":"2019","unstructured":"Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. 2019. CCNET: Criss-cross attention for semantic segmentation. In ICCV. 603\u2013612."},{"key":"e_1_3_1_12_2","first-page":"8334","volume-title":"CVPR","author":"Li Gen","year":"2021","unstructured":"Gen Li, Varun Jampani, Laura Sevilla-Lara, Deqing Sun, Jonghyun Kim, and Joongkyu Kim. 2021. Adaptive prototype learning and allocation for few-shot segmentation. In CVPR. 8334\u20138343."},{"key":"e_1_3_1_13_2","first-page":"740","volume-title":"ECCV","author":"Lin Tsung-Yi","year":"2014","unstructured":"Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll\u00e1r, and C. Lawrence Zitnick. 2014. Microsoft COCO: Common objects in context. In ECCV. Springer, 740\u2013755."},{"key":"e_1_3_1_14_2","first-page":"9747","volume-title":"CVPR","author":"Liu Binghao","year":"2021","unstructured":"Binghao Liu, Yao Ding, Jianbin Jiao, Xiangyang Ji, and Qixiang Ye. 2021. Anti-aliasing semantic reconstruction for few-shot semantic segmentation. In CVPR. 9747\u20139756."},{"key":"e_1_3_1_15_2","first-page":"4165","volume-title":"CVPR","author":"Liu Weide","year":"2020","unstructured":"Weide Liu, Chi Zhang, Guosheng Lin, and Fayao Liu. 2020. CRNet: Cross-reference networks for few-shot segmentation. In CVPR. 4165\u20134173."},{"key":"e_1_3_1_16_2","first-page":"142","volume-title":"ECCV","author":"Liu Yongfei","year":"2020","unstructured":"Yongfei Liu, Xiangyi Zhang, Songyang Zhang, and Xuming He. 2020. Part-aware prototype network for few-shot semantic segmentation. In ECCV. Springer, 142\u2013158."},{"key":"e_1_3_1_17_2","first-page":"3431","volume-title":"CVPR","author":"Long Jonathan","year":"2015","unstructured":"Jonathan Long, Evan Shelhamer, and Trevor Darrell. 2015. Fully convolutional networks for semantic segmentation. In CVPR. 3431\u20133440."},{"key":"e_1_3_1_18_2","first-page":"622","volume-title":"ICCV","author":"Nguyen Khoi","year":"2019","unstructured":"Khoi Nguyen and Sinisa Todorovic. 2019. Feature weighting and boosting for few-shot segmentation. In ICCV. 622\u2013631."},{"key":"e_1_3_1_19_2","unstructured":"Kate Rakelly Evan Shelhamer Trevor Darrell Alyosha Efros and Sergey Levine. 2018. Conditional networks for few-shot semantic segmentation."},{"key":"e_1_3_1_20_2","first-page":"91","volume-title":"NeurIPS","author":"Ren Shaoqing","year":"2015","unstructured":"Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 2015. Faster r-CNN: Towards real-time object detection with region proposal networks. In NeurIPS. 91\u201399."},{"key":"e_1_3_1_21_2","first-page":"234","volume-title":"MICCAI","author":"Ronneberger Olaf","year":"2015","unstructured":"Olaf Ronneberger, Philipp Fischer, and Thomas Brox. 2015. U-net: Convolutional networks for biomedical image segmentation. In MICCAI. Springer, 234\u2013241."},{"issue":"3","key":"e_1_3_1_22_2","doi-asserted-by":"crossref","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","article-title":"Imagenet large scale visual recognition challenge","volume":"115","author":"Russakovsky Olga","year":"2015","unstructured":"Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et\u00a0al. 2015. Imagenet large scale visual recognition challenge. IJCV 115, 3 (2015), 211\u2013252.","journal-title":"IJCV"},{"key":"e_1_3_1_23_2","volume-title":"BMVC","author":"Shaban A.","year":"2017","unstructured":"A. Shaban, S. Bansal, Z. Liu, I. Essa, and B. Boots. 2017. One-shot learning for semantic segmentation. In BMVC."},{"key":"e_1_3_1_24_2","first-page":"5249","volume-title":"ICCV","author":"Siam Mennatullah","year":"2019","unstructured":"Mennatullah Siam, Boris N. Oreshkin, and Martin Jagersand. 2019. AMP: Adaptive masked proxies for few-shot segmentation. In ICCV. 5249\u20135258."},{"key":"e_1_3_1_25_2","first-page":"4077","volume-title":"NeurIPS","author":"Snell Jake","year":"2017","unstructured":"Jake Snell, Kevin Swersky, and Richard Zemel. 2017. Prototypical networks for few-shot learning. In NeurIPS. 4077\u20134087."},{"issue":"99","key":"e_1_3_1_26_2","first-page":"1","article-title":"Prior guided feature enrichment network for few-shot segmentation","author":"Tian Z.","year":"2020","unstructured":"Z. Tian, H. Zhao, M. Shu, Z. Yang, and J. Jia. 2020. Prior guided feature enrichment network for few-shot segmentation. TPAMI PP, 99 (2020), 1\u20131.","journal-title":"TPAMI"},{"key":"e_1_3_1_27_2","first-page":"5998","volume-title":"NeurIPS","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NeurIPS. 5998\u20136008."},{"key":"e_1_3_1_28_2","first-page":"730","volume-title":"ECCV","author":"Wang Haochen","year":"2020","unstructured":"Haochen Wang, Xudong Zhang, Yutao Hu, Yandan Yang, Xianbin Cao, and Xiantong Zhen. 2020. Few-shot semantic segmentation with democratic attention networks. In ECCV. Springer, 730\u2013746."},{"issue":"10","key":"e_1_3_1_29_2","doi-asserted-by":"crossref","first-page":"3349","DOI":"10.1109\/TPAMI.2020.2983686","article-title":"Deep high-resolution representation learning for visual recognition","volume":"43","author":"Wang Jingdong","year":"2020","unstructured":"Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et\u00a0al. 2020. Deep high-resolution representation learning for visual recognition. TPAMI 43, 10 (2020), 3349\u20133364.","journal-title":"TPAMI"},{"key":"e_1_3_1_30_2","first-page":"9197","volume-title":"ICCV","author":"Wang Kaixin","year":"2019","unstructured":"Kaixin Wang, Jun Hao Liew, Yingtian Zou, Daquan Zhou, and Jiashi Feng. 2019. PANET: Few-shot image semantic segmentation with prototype alignment. In ICCV. 9197\u20139206."},{"key":"e_1_3_1_31_2","first-page":"7794","volume-title":"CVPR","author":"Wang Xiaolong","year":"2018","unstructured":"Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 2018. Non-local neural networks. In CVPR. 7794\u20137803."},{"key":"e_1_3_1_32_2","article-title":"A  \\(^2\\) -Net: Learning attribute-aware hash codes for large-scale fine-grained image retrieval","volume":"34","author":"Wei Xiu-Shen","year":"2021","unstructured":"Xiu-Shen Wei, Yang Shen, Xuhao Sun, Han-Jia Ye, and Jian Yang. 2021. A \\(^2\\) -Net: Learning attribute-aware hash codes for large-scale fine-grained image retrieval. Advances in Neural Information Processing Systems 34 (2021).","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2924811"},{"key":"e_1_3_1_34_2","first-page":"5475","volume-title":"CVPR","author":"Xie Guo-Sen","year":"2021","unstructured":"Guo-Sen Xie, Jie Liu, Huan Xiong, and Ling Shao. 2021. Scale-aware graph neural network for few-shot semantic segmentation. In CVPR. 5475\u20135484."},{"key":"e_1_3_1_35_2","first-page":"763","volume-title":"ECCV","author":"Yang Boyu","year":"2020","unstructured":"Boyu Yang, Chang Liu, Bohao Li, Jianbin Jiao, and Qixiang Ye. 2020. Prototype mixture models for few-shot semantic segmentation. In ECCV. Springer, 763\u2013778."},{"key":"e_1_3_1_36_2","first-page":"8312","volume-title":"CVPR","author":"Zhang Bingfeng","year":"2021","unstructured":"Bingfeng Zhang, Jimin Xiao, and Terry Qin. 2021. Self-guided and cross-guided learning for few-shot segmentation. In CVPR. 8312\u20138321."},{"key":"e_1_3_1_37_2","first-page":"9587","volume-title":"ICCV","author":"Zhang Chi","year":"2019","unstructured":"Chi Zhang, Guosheng Lin, Fayao Liu, Jiushuang Guo, Qingyao Wu, and Rui Yao. 2019. Pyramid graph networks with connection attentions for region-based one-shot semantic segmentation. In ICCV. 9587\u20139595."},{"key":"e_1_3_1_38_2","first-page":"5217","volume-title":"CVPR","author":"Zhang Chi","year":"2019","unstructured":"Chi Zhang, Guosheng Lin, Fayao Liu, Rui Yao, and Chunhua Shen. 2019. CANET: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning. In CVPR. 5217\u20135226."},{"key":"e_1_3_1_39_2","article-title":"SG-one: Similarity guidance network for one-shot semantic segmentation","author":"Zhang Xiaolin","year":"2020","unstructured":"Xiaolin Zhang, Yunchao Wei, Yi Yang, and Thomas S. Huang. 2020. SG-one: Similarity guidance network for one-shot semantic segmentation. IEEE Transactions on Cybernetics (2020).","journal-title":"IEEE Transactions on Cybernetics"},{"key":"e_1_3_1_40_2","first-page":"2881","volume-title":"CVPR","author":"Zhao Hengshuang","year":"2017","unstructured":"Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. 2017. Pyramid scene parsing network. In CVPR. 2881\u20132890."},{"key":"e_1_3_1_41_2","first-page":"6881","volume-title":"CVPR","author":"Zheng Sixiao","year":"2021","unstructured":"Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H. S. Torr, et\u00a0al. 2021. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In CVPR. 6881\u20136890."},{"key":"e_1_3_1_42_2","first-page":"633","volume-title":"CVPR","author":"Zhou Bolei","year":"2017","unstructured":"Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. 2017. Scene parsing through ade20k dataset. In CVPR. 633\u2013641."}],"container-title":["ACM Transactions on Multimedia Computing, Communications, and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3555314","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3555314","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T17:49:02Z","timestamp":1750182542000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3555314"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,3,15]]},"references-count":41,"journal-issue":{"issue":"2s","published-print":{"date-parts":[[2023,4,30]]}},"alternative-id":["10.1145\/3555314"],"URL":"https:\/\/doi.org\/10.1145\/3555314","relation":{},"ISSN":["1551-6857","1551-6865"],"issn-type":[{"value":"1551-6857","type":"print"},{"value":"1551-6865","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,3,15]]},"assertion":[{"value":"2021-12-28","order":0,"name":"received","label":"Received","group":{"name":"publication_history","label":"Publication History"}},{"value":"2022-07-23","order":1,"name":"accepted","label":"Accepted","group":{"name":"publication_history","label":"Publication History"}},{"value":"2023-03-15","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}