{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T16:13:40Z","timestamp":1775578420331,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":63,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/501100002367","name":"Chinese Academy of Sciences","doi-asserted-by":"publisher","award":["YSBR-067"],"award-info":[{"award-number":["YSBR-067"]}],"id":[{"id":"10.13039\/501100002367","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62121002,62232006,62102384"],"award-info":[{"award-number":["62121002,62232006,62102384"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3612117","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:26:54Z","timestamp":1698391614000},"page":"779-788","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":22,"title":["CARIS: Context-Aware Referring Image Segmentation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-7913-0483","authenticated-orcid":false,"given":"Sun-Ao","family":"Liu","sequence":"first","affiliation":[{"name":"University of Science and Technology of China, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1940-6137","authenticated-orcid":false,"given":"Yiheng","family":"Zhang","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7485-9198","authenticated-orcid":false,"given":"Zhaofan","family":"Qiu","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6249-5315","authenticated-orcid":false,"given":"Hongtao","family":"Xie","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1151-1792","authenticated-orcid":false,"given":"Yongdong","family":"Zhang","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7587-101X","authenticated-orcid":false,"given":"Ting","family":"Yao","sequence":"additional","affiliation":[{"name":"HiDream.ai Inc., Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Exploring visual prompts for adapting large-scale models. arXiv preprint arXiv:2203.17274","author":"Bahng Hyojin","year":"2022","unstructured":"Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan, and Phillip Isola. 2022. Exploring visual prompts for adapting large-scale models. arXiv preprint arXiv:2203.17274 (2022)."},{"key":"e_1_3_2_1_2_1","unstructured":"Amir Bar Yossi Gandelsman Trevor Darrell Amir Globerson and Alexei Efros. 2022. Visual prompting via image inpainting. In NeurIPS."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Ding-Jie Chen Songhao Jia Yi-Chen Lo Hwann-Tzong Chen and Tyng-Luh Liu. 2019. See-through-text grouping for referring image segmentation. In ICCV.","DOI":"10.1109\/ICCV.2019.00755"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Bowen Cheng Ishan Misra Alexander G Schwing Alexander Kirillov and Rohit Girdhar. 2022. Masked-attention mask transformer for universal image segmentation. In CVPR.","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"e_1_3_2_1_5_1","volume-title":"Imagenet: A large-scale hierarchical image database. In CVPR.","author":"Deng Jia","year":"2009","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In CVPR."},{"key":"e_1_3_2_1_6_1","volume-title":"Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805","author":"Devlin Jacob","year":"2018","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Henghui Ding Chang Liu Suchen Wang and Xudong Jiang. 2021. Vision-language transformer and query generation for referring segmentation. In ICCV.","DOI":"10.1109\/ICCV48922.2021.01601"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"crossref","unstructured":"Jian Ding Nan Xue Gui-Song Xia and Dengxin Dai. 2022. Decoupling zero-shot semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01129"},{"key":"e_1_3_2_1_9_1","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly et al. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Guang Feng Zhiwei Hu Lihe Zhang and Huchuan Lu. 2021. Encoder fusion network with co-attention embedding for referring image segmentation. In CVPR.","DOI":"10.1109\/CVPR46437.2021.01525"},{"key":"e_1_3_2_1_11_1","unstructured":"Byeongho Heo Sangdoo Yun Dongyoon Han Sanghyuk Chun Junsuk Choe and Seong Joon Oh. 2021. Rethinking spatial dimensions of vision transformers. In ICCV."},{"key":"e_1_3_2_1_12_1","unstructured":"Ronghang Hu Marcus Rohrbach and Trevor Darrell. 2016. Segmentation from natural language expressions. In ECCV."},{"key":"e_1_3_2_1_13_1","unstructured":"Zhiwei Hu Guang Feng Jiayu Sun Lihe Zhang and Huchuan Lu. 2020. Bi-directional relationship inferring network for referring image segmentation. In CVPR."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu and Bo Li. 2020. Referring image segmentation via cross-modal progressive comprehension. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01050"},{"key":"e_1_3_2_1_15_1","unstructured":"Tianrui Hui Si Liu Shaofei Huang Guanbin Li Sansi Yu Faxi Zhang and Jizhong Han. 2020. Linguistic structure guided context modeling for referring image segmentation. In ECCV."},{"key":"e_1_3_2_1_16_1","unstructured":"Menglin Jia Luming Tang Bor-Chun Chen Claire Cardie Serge Belongie Bharath Hariharan and Ser-Nam Lim. 2022. Visual prompt tuning. In ECCV."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Ya Jing Tao Kong Wei Wang Liang Wang Lei Li and Tieniu Tan. 2021. Locate then segment: A strong pipeline for referring image segmentation. In CVPR.","DOI":"10.1109\/CVPR46437.2021.00973"},{"key":"e_1_3_2_1_18_1","volume-title":"Restr: Convolution-free referring image segmentation using transformers. In CVPR.","author":"Kim Namyup","year":"2022","unstructured":"Namyup Kim, Dongwon Kim, Cuiling Lan, Wenjun Zeng, and Suha Kwak. 2022. Restr: Convolution-free referring image segmentation using transformers. In CVPR."},{"key":"e_1_3_2_1_19_1","volume-title":"Vilt: Vision-and-language transformer without convolution or region supervision. In ICML.","author":"Kim Wonjae","year":"2021","unstructured":"Wonjae Kim, Bokyung Son, and Ildoo Kim. 2021. Vilt: Vision-and-language transformer without convolution or region supervision. In ICML."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"crossref","unstructured":"Alexander Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland Laura Gustafson Tete Xiao Spencer Whitehead Alexander C Berg Wan-Yen Lo et al. 2023. Segment anything. arXiv preprint arXiv:2304.02643 (2023).","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"e_1_3_2_1_21_1","unstructured":"Boyi Li Kilian Q Weinberger Serge Belongie Vladlen Koltun and Rene Ranftl. 2022a. Language-driven Semantic Segmentation. In ICLR."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"crossref","unstructured":"Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li Yiwu Zhong Lijuan Wang Lu Yuan Lei Zhang Jenq-Neng Hwang et al. 2022c. Grounded language-image pre-training. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01069"},{"key":"e_1_3_2_1_23_1","unstructured":"Ruiyu Li Kaican Li Yi-Chun Kuo Michelle Shu Xiaojuan Qi Xiaoyong Shen and Jiaya Jia. 2018. Referring image segmentation via recurrent refinement networks. In CVPR."},{"key":"e_1_3_2_1_24_1","volume-title":"Contextual transformer networks for visual recognition. TPAMI","author":"Li Yehao","year":"2022","unstructured":"Yehao Li, Ting Yao, Yingwei Pan, and Tao Mei. 2022b. Contextual transformer networks for visual recognition. TPAMI (2022)."},{"key":"e_1_3_2_1_25_1","unstructured":"Tsung-Yi Lin Michael Maire Serge J. Belongie James Hays Pietro Perona Deva Ramanan Piotr Doll\u00e1r and C. Lawrence Zitnick. 2014. Microsoft COCO: Common Objects in Context. In ECCV."},{"key":"e_1_3_2_1_26_1","unstructured":"Chenxi Liu Zhe Lin Xiaohui Shen Jimei Yang Xin Lu and Alan Yuille. 2017. Recurrent multimodal interaction for referring image segmentation. In ICCV."},{"key":"e_1_3_2_1_27_1","volume-title":"Vijay Mahadevan, and R Manmatha. 2023 a. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation. arXiv preprint arXiv:2302.07387","author":"Liu Jiang","year":"2023","unstructured":"Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, and R Manmatha. 2023 a. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation. arXiv preprint arXiv:2302.07387 (2023)."},{"key":"e_1_3_2_1_28_1","volume-title":"2023 b. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. Comput. Surveys","author":"Liu Pengfei","year":"2023","unstructured":"Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2023 b. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. Comput. Surveys (2023)."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"crossref","unstructured":"Sun-Ao Liu Hongtao Xie Hai Xu Yongdong Zhang and Qi Tian. 2022. Partial class activation attention for semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01633"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Sun-Ao Liu Yiheng Zhang Zhaofan Qiu Hongtao Xie Yongdong Zhang and Ting Yao. 2023 c. Learning Orthogonal Prototypes for Generalized Few-Shot Semantic Segmentation. In CVPR.","DOI":"10.1109\/CVPR52729.2023.01089"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"crossref","unstructured":"Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin and Baining Guo. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Jonathan Long Evan Shelhamer and Trevor Darrell. 2015. Fully convolutional networks for semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"e_1_3_2_1_33_1","unstructured":"Ilya Loshchilov and Frank Hutter. 2019. Decoupled Weight Decay Regularization. In ICLR."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"crossref","unstructured":"Gen Luo Yiyi Zhou Rongrong Ji Xiaoshuai Sun Jinsong Su Chia-Wen Lin and Qi Tian. 2020a. Cascade grouped attention network for referring expression segmentation. In ACM MM.","DOI":"10.1145\/3394171.3414006"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"crossref","unstructured":"Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng and Rongrong Ji. 2020b. Multi-task collaborative network for joint referring expression comprehension and segmentation. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01005"},{"key":"e_1_3_2_1_36_1","volume-title":"Learning cross-channel representations for semantic segmentation. TMM","author":"Ma Lingfeng","year":"2022","unstructured":"Lingfeng Ma, Hongtao Xie, Chuanbin Liu, and Yongdong Zhang. 2022. Learning cross-channel representations for semantic segmentation. TMM (2022)."},{"key":"e_1_3_2_1_37_1","unstructured":"Junhua Mao Jonathan Huang Alexander Toshev Oana Camburu Alan L Yuille and Kevin Murphy. 2016. Generation and comprehension of unambiguous object descriptions. In CVPR."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Edgar Margffoy-Tuay Juan C P\u00e9rez Emilio Botero and Pablo Arbel\u00e1ez. 2018. Dynamic multimodal instance segmentation guided by natural language queries. In ECCV.","DOI":"10.1007\/978-3-030-01252-6_39"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Varun K Nagaraja Vlad I Morariu and Larry S Davis. 2016. Modeling context between objects for referring expression understanding. In ECCV.","DOI":"10.1007\/978-3-319-46493-0_48"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Ben Niu Weilei Wen Wenqi Ren Xiangde Zhang Lianping Yang Shuzhen Wang Kaihao Zhang Xiaochun Cao and Haifeng Shen. 2020. Single image super-resolution via a holistic attention network. In ECCV.","DOI":"10.1007\/978-3-030-58610-2_12"},{"key":"e_1_3_2_1_41_1","volume-title":"PyTorch: An Imperative Style","author":"Paszke Adam","unstructured":"Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. 2019. PyTorch: An Imperative Style, High-Performance Deep Learning Library. In NeurIPS."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"crossref","unstructured":"Bryan A Plummer Liwei Wang Chris M Cervantes Juan C Caicedo Julia Hockenmaier and Svetlana Lazebnik. 2015. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. In ICCV.","DOI":"10.1109\/ICCV.2015.303"},{"key":"e_1_3_2_1_43_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In ICML."},{"key":"e_1_3_2_1_44_1","volume-title":"Low-light image enhancement via a deep hybrid network. TIP","author":"Ren Wenqi","year":"2019","unstructured":"Wenqi Ren, Sifei Liu, Lin Ma, Qianqian Xu, Xiangyu Xu, Xiaochun Cao, Junping Du, and Ming-Hsuan Yang. 2019. Low-light image enhancement via a deep hybrid network. TIP (2019)."},{"key":"e_1_3_2_1_45_1","unstructured":"Hengcan Shi Hongliang Li Fanman Meng and Qingbo Wu. 2018. Key-word-aware network for referring expression image segmentation. In ECCV."},{"key":"e_1_3_2_1_46_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. In NeurIPS."},{"key":"e_1_3_2_1_47_1","volume-title":"Saksham Singhal, Subhojit Som, et al.","author":"Wang Wenhui","year":"2022","unstructured":"Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, et al. 2022a. Image as a foreign language: Beit pretraining for all vision and vision-language tasks. arXiv preprint arXiv:2208.10442 (2022)."},{"key":"e_1_3_2_1_48_1","volume-title":"Cris: Clip-driven referring image segmentation. In CVPR.","author":"Wang Zhaoqing","year":"2022","unstructured":"Zhaoqing Wang, Yu Lu, Qiang Li, Xunqiang Tao, Yandong Guo, Mingming Gong, and Tongliang Liu. 2022b. Cris: Clip-driven referring image segmentation. In CVPR."},{"key":"e_1_3_2_1_49_1","volume-title":"Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush.","author":"Wolf Thomas","year":"2020","unstructured":"Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R\u00e9mi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. 2020. Transformers: State-of-the-Art Natural Language Processing. In EMNLP."},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"crossref","unstructured":"Sibei Yang Meng Xia Guanbin Li Hong-Yu Zhou and Yizhou Yu. 2021. Bottom-up shift and reasoning for referring image segmentation. In CVPR.","DOI":"10.1109\/CVPR46437.2021.01111"},{"key":"e_1_3_2_1_51_1","volume-title":"Lavt: Language-aware vision transformer for referring image segmentation. In CVPR.","author":"Yang Zhao","year":"2022","unstructured":"Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, and Philip HS Torr. 2022. Lavt: Language-aware vision transformer for referring image segmentation. In CVPR."},{"key":"e_1_3_2_1_52_1","volume-title":"Torr","author":"Yang Zhao","year":"2023","unstructured":"Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, and Philip H.S. Torr. 2023. Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation. In AAAI."},{"key":"e_1_3_2_1_53_1","volume-title":"Dual vision transformer. TPAMI","author":"Yao Ting","year":"2023","unstructured":"Ting Yao, Yehao Li, Yingwei Pan, Yu Wang, Xiao-Ping Zhang, and Tao Mei. 2023. Dual vision transformer. TPAMI (2023)."},{"key":"e_1_3_2_1_54_1","volume-title":"Wave-vit: Unifying wavelet and transformers for visual representation learning. In ECCV.","author":"Yao Ting","year":"2022","unstructured":"Ting Yao, Yingwei Pan, Yehao Li, Chong-Wah Ngo, and Tao Mei. 2022. Wave-vit: Unifying wavelet and transformers for visual representation learning. In ECCV."},{"key":"e_1_3_2_1_55_1","unstructured":"Linwei Ye Mrigank Rochan Zhi Liu and Yang Wang. 2019. Cross-modal self-attention network for referring image segmentation. In CVPR."},{"key":"e_1_3_2_1_56_1","volume-title":"Mattnet: Modular attention network for referring expression comprehension. In CVPR.","author":"Yu Licheng","year":"2018","unstructured":"Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L Berg. 2018. Mattnet: Modular attention network for referring expression comprehension. In CVPR."},{"key":"e_1_3_2_1_57_1","unstructured":"Licheng Yu Patrick Poirson Shan Yang Alexander C Berg and Tamara L Berg. 2016. Modeling context in referring expressions. In ECCV."},{"key":"e_1_3_2_1_58_1","volume-title":"Lightweight and progressively-scalable networks for semantic segmentation. IJCV","author":"Zhang Yiheng","year":"2023","unstructured":"Yiheng Zhang, Ting Yao, Zhaofan Qiu, and Tao Mei. 2023. Lightweight and progressively-scalable networks for semantic segmentation. IJCV (2023)."},{"key":"e_1_3_2_1_59_1","unstructured":"Zicheng Zhang Yi Zhu Jianzhuang Liu Xiaodan Liang and Wei Ke. 2022. CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation. In NeurIPS."},{"key":"e_1_3_2_1_60_1","volume-title":"Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, et al.","author":"Zhong Yiwu","year":"2022","unstructured":"Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, et al. 2022. Regionclip: Region-based language-image pretraining. In CVPR."},{"key":"e_1_3_2_1_61_1","volume-title":"Chen Change Loy, and Ziwei Liu","author":"Zhou Kaiyang","year":"2022","unstructured":"Kaiyang Zhou, Jingkang Yang, Chen Change Loy, and Ziwei Liu. 2022a. Conditional prompt learning for vision-language models. In CVPR."},{"key":"e_1_3_2_1_62_1","volume-title":"Chen Change Loy, and Ziwei Liu","author":"Zhou Kaiyang","year":"2022","unstructured":"Kaiyang Zhou, Jingkang Yang, Chen Change Loy, and Ziwei Liu. 2022b. Learning to prompt for vision-language models. IJCV (2022)."},{"key":"e_1_3_2_1_63_1","unstructured":"Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang and Jifeng Dai. 2021. Deformable DETR: Deformable Transformers for End-to-End Object Detection. In ICLR."}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","location":"Ottawa ON Canada","acronym":"MM '23","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612117","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3612117","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T23:59:13Z","timestamp":1755820753000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612117"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":63,"alternative-id":["10.1145\/3581783.3612117","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3612117","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}