{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T09:08:34Z","timestamp":1765357714462,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":53,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U23A20386, 62276045, 62293540, 62293542"],"award-info":[{"award-number":["U23A20386, 62276045, 62293540, 62293542"]}],"id":[{"id":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3680925","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:41Z","timestamp":1729925981000},"page":"9321-9329","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["LOVD: Large-and-Open Vocabulary Object Detection"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-4554-5663","authenticated-orcid":false,"given":"Shiyu","family":"Tang","sequence":"first","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2758-3758","authenticated-orcid":false,"given":"Zhaofan","family":"Luo","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1911-2526","authenticated-orcid":false,"given":"Yifan","family":"Wang","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2538-8358","authenticated-orcid":false,"given":"Lijun","family":"Wang","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6668-9758","authenticated-orcid":false,"given":"Huchuan","family":"Lu","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-8190-344X","authenticated-orcid":false,"given":"Weibo","family":"Su","sequence":"additional","affiliation":[{"name":"OPPO, Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-5621-6077","authenticated-orcid":false,"given":"Libo","family":"Liu","sequence":"additional","affiliation":[{"name":"OPPO, Shenzhen, China"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"crossref","unstructured":"Alberto Baldrati Marco Bertini Tiberio Uricchio and Alberto Del Bimbo. 2021. Conditioned image retrieval for fashion using contrastive learning and CLIP-based features. In MM Asia. 1--5.","DOI":"10.1145\/3469877.3493593"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Alberto Baldrati Marco Bertini Tiberio Uricchio and Alberto Del Bimbo. 2022. Conditioned and Composed Image Retrieval Combining and Partially Fine-Tuning CLIP-Based Features. In CVPR. 4959--4968.","DOI":"10.1109\/CVPRW56347.2022.00543"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Ankan Bansal Karan Sikka Gaurav Sharma Rama Chellappa and Ajay Divakaran. 2018. Zero-shot object detection. In ECCV. 384--400.","DOI":"10.1007\/978-3-030-01246-5_24"},{"key":"e_1_3_2_1_4_1","volume-title":"Chinaopen: A dataset for open-world multimodal learning. In ACM MM. 6432--6440.","author":"Chen Aozhu","year":"2023","unstructured":"Aozhu Chen, Ziyuan Wang, Chengbo Dong, Kaibin Tian, Ruixiang Zhao, Xun Liang, Zhanhui Kang, and Xirong Li. 2023. Chinaopen: A dataset for open-world multimodal learning. In ACM MM. 6432--6440."},{"key":"e_1_3_2_1_5_1","volume-title":"Class Enhancement Losses with Pseudo Labels for Open-Vocabulary Semantic Segmentation","author":"Dao Son D","year":"2023","unstructured":"Son D Dao, Hengcan Shi, Dinh Phung, and Jianfei Cai. 2023. Class Enhancement Losses with Pseudo Labels for Open-Vocabulary Semantic Segmentation. IEEE TMM (2023)."},{"key":"e_1_3_2_1_6_1","volume-title":"Imagenet: A large-scale hierarchical image database. In CVPR. 248--255.","author":"Deng Jia","year":"2009","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In CVPR. 248--255."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-009-0275-4"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"crossref","unstructured":"Ruohuan Fang Guansong Pang and Xiao Bai. 2024. Simple image-level classification improves open-vocabulary object detection. In AAAI. 1716--1725.","DOI":"10.1609\/aaai.v38i2.27939"},{"key":"e_1_3_2_1_9_1","volume-title":"Eva: Exploring the limits of masked visual representation learning at scale. In CVPR. 19358--19369.","author":"Fang Yuxin","year":"2023","unstructured":"Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao. 2023. Eva: Exploring the limits of masked visual representation learning at scale. In CVPR. 19358--19369."},{"key":"e_1_3_2_1_10_1","volume-title":"Junnan Li, Ran Xu, Wenhao Liu, and Caiming Xiong.","author":"Gao Mingfei","year":"2022","unstructured":"Mingfei Gao, Chen Xing, Juan Carlos Niebles, Junnan Li, Ran Xu, Wenhao Liu, and Caiming Xiong. 2022. Open vocabulary object detection with pseudo bounding-box labels. In ECCV. 266--282."},{"key":"e_1_3_2_1_11_1","volume-title":"Armand Joulin, and Ishan Misra.","author":"Girdhar Rohit","year":"2023","unstructured":"Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, and Ishan Misra. 2023. Imagebind: One embedding space to bind them all. In CVPR. 15180--15190."},{"key":"e_1_3_2_1_12_1","volume-title":"Open-vocabulary object detection via vision and language knowledge distillation. arXiv preprint","author":"Gu Xiuye","year":"2021","unstructured":"Xiuye Gu, Tsung-Yi Lin, Weicheng Kuo, and Yin Cui. 2021. Open-vocabulary object detection via vision and language knowledge distillation. arXiv preprint (2021)."},{"key":"e_1_3_2_1_13_1","volume-title":"Piotr Dollar, and Ross Girshick","author":"Gupta Agrim","year":"2019","unstructured":"Agrim Gupta, Piotr Dollar, and Ross Girshick. 2019. LVIS: A Dataset for Large Vocabulary Instance Segmentation. In CVPR."},{"key":"e_1_3_2_1_14_1","unstructured":"Kaiming He Georgia Gkioxari Piotr Doll\u00e1r and Ross Girshick. 2017. Mask r-cnn. In ICCV. 2961--2969."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Sunan He Taian Guo Tao Dai Ruizhi Qiao Xiujun Shu Bo Ren and Shu-Tao Xia. 2023. Open-vocabulary multi-label classification via multi-modal knowledge transfer. In AAAI. 808--816.","DOI":"10.1609\/aaai.v37i1.25159"},{"key":"e_1_3_2_1_16_1","volume-title":"Inject Semantic Concepts into Image Tagging for Open-Set Recognition. arXiv preprint","author":"Huang Xinyu","year":"2023","unstructured":"Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, and Lei Zhang. 2023. Inject Semantic Concepts into Image Tagging for Open-Set Recognition. arXiv preprint (2023)."},{"key":"e_1_3_2_1_17_1","volume-title":"Open-set image tagging with multi-grained text supervision. arXiv preprint","author":"Huang Xinyu","year":"2023","unstructured":"Xinyu Huang, Yi-Jie Huang, Youcai Zhang, Weiwei Tian, Rui Feng, Yuejie Zhang, Yanchun Xie, Yaqian Li, and Lei Zhang. 2023. Open-set image tagging with multi-grained text supervision. arXiv preprint (2023), arXiv--2310."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Xu Huang Jin Liu Zhizhong Zhang and Yuan Xie. 2023. Improving Cross-Modal Recipe Retrieval with Component-Aware Prompted CLIP Embedding. In ACMMM. 529--537.","DOI":"10.1145\/3581783.3612193"},{"key":"e_1_3_2_1_19_1","volume-title":"2023 d. Tag2text: Guiding vision-language model via image tagging. arXiv preprint","author":"Huang Xinyu","year":"2023","unstructured":"Xinyu Huang, Youcai Zhang, Jinyu Ma, Weiwei Tian, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, and Lei Zhang. 2023 d. Tag2text: Guiding vision-language model via image tagging. arXiv preprint (2023)."},{"key":"e_1_3_2_1_20_1","unstructured":"Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu Pham Quoc Le Yun-Hsuan Sung Zhen Li and Tom Duerig. 2021. Scaling up visual and vision-language representation learning with noisy text supervision. In ICML. 4904--4916."},{"key":"e_1_3_2_1_21_1","volume-title":"Clip-count: Towards text-guided zero-shot object counting. In ACM MM. 4535--4545.","author":"Jiang Ruixiang","year":"2023","unstructured":"Ruixiang Jiang, Lingbo Liu, and Changwen Chen. 2023. Clip-count: Towards text-guided zero-shot object counting. In ACM MM. 4535--4545."},{"key":"e_1_3_2_1_22_1","volume-title":"F-vlm: Open-vocabulary object detection upon frozen vision and language models. arXiv preprint","author":"Kuo Weicheng","year":"2022","unstructured":"Weicheng Kuo, Yin Cui, Xiuye Gu, AJ Piergiovanni, and Anelia Angelova. 2022. F-vlm: Open-vocabulary object detection upon frozen vision and language models. arXiv preprint (2022)."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01316-z"},{"key":"e_1_3_2_1_24_1","volume-title":"Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML. 12888--12900.","author":"Li Junnan","year":"2022","unstructured":"Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML. 12888--12900."},{"key":"e_1_3_2_1_25_1","volume-title":"Align before fuse: Vision and language representation learning with momentum distillation. NeurIPS","author":"Li Junnan","year":"2021","unstructured":"Junnan Li, Ramprasaath Selvaraju, Akhilesh Gotmare, Shafiq Joty, Caiming Xiong, and Steven Chu Hong Hoi. 2021. Align before fuse: Vision and language representation learning with momentum distillation. NeurIPS (2021), 9694--9705."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li Yiwu Zhong Lijuan Wang Lu Yuan Lei Zhang Jenq-Neng Hwang et al. 2022. Grounded language-image pre-training. In CVPR. 10965--10975.","DOI":"10.1109\/CVPR52688.2022.01069"},{"key":"e_1_3_2_1_27_1","volume-title":"Learning object-language alignments for open-vocabulary object detection. arXiv preprint","author":"Lin Chuang","year":"2022","unstructured":"Chuang Lin, Peize Sun, Yi Jiang, Ping Luo, Lizhen Qu, Gholamreza Haffari, Zehuan Yuan, and Jianfei Cai. 2022. Learning object-language alignments for open-vocabulary object detection. arXiv preprint (2022)."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Tsung-Yi Lin Michael Maire Serge Belongie James Hays Pietro Perona Deva Ramanan Piotr Doll\u00e1r and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In ECCV. 740--755.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"e_1_3_2_1_29_1","volume-title":"NeurIPS","volume":"36","author":"Liu Haotian","year":"2024","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2024. Visual instruction tuning. NeurIPS, Vol. 36 (2024)."},{"key":"e_1_3_2_1_30_1","volume-title":"X-clip: End-to-end multi-grained contrastive learning for video-text retrieval. In ACM MM. 638--647.","author":"Ma Yiwei","year":"2022","unstructured":"Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, and Rongrong Ji. 2022. X-clip: End-to-end multi-grained contrastive learning for video-text retrieval. In ACM MM. 638--647."},{"key":"e_1_3_2_1_31_1","volume-title":"Scaling Open-Vocabulary Object Detection. arXiv preprint","author":"Minderer Matthias","year":"2023","unstructured":"Matthias Minderer, Alexey Gritsenko, and Neil Houlsby. 2023. Scaling Open-Vocabulary Object Detection. arXiv preprint (2023)."},{"key":"e_1_3_2_1_32_1","volume-title":"Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, et al.","author":"Minderer Matthias","year":"2022","unstructured":"Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, et al. 2022. Simple open-vocabulary object detection. In ECCV. 728--755."},{"key":"e_1_3_2_1_33_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In ICML. 8748--8763."},{"key":"e_1_3_2_1_34_1","volume-title":"Hierarchical text-conditional image generation with clip latents. arXiv preprint","author":"Ramesh Aditya","year":"2022","unstructured":"Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. 2022. Hierarchical text-conditional image generation with clip latents. arXiv preprint (2022), 3."},{"key":"e_1_3_2_1_35_1","volume-title":"NeurIPS","volume":"28","author":"Ren Shaoqing","year":"2015","unstructured":"Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 2015. Faster r-cnn: Towards real-time object detection with region proposal networks. NeurIPS, Vol. 28 (2015)."},{"key":"e_1_3_2_1_36_1","volume-title":"Burcu Karagol Ayan, Tim Salimans, et al.","author":"Saharia Chitwan","year":"2022","unstructured":"Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. 2022. Photorealistic text-to-image diffusion models with deep language understanding. NeurIPS (2022), 36479--36494."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"crossref","unstructured":"Hengcan Shi Munawar Hayat and Jianfei Cai. 2023. Open-vocabulary object detection via scene graph discovery. In ACM MM. 4012--4021.","DOI":"10.1145\/3581783.3612407"},{"key":"e_1_3_2_1_38_1","volume-title":"Dualcoop: Fast adaptation to multi-label recognition with limited annotations. NeurIPS","author":"Sun Ximeng","year":"2022","unstructured":"Ximeng Sun, Ping Hu, and Kate Saenko. 2022. Dualcoop: Fast adaptation to multi-label recognition with limited annotations. NeurIPS (2022), 30569--30582."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Mingkang Tang Zhanyu Wang Zhenhua Liu Fengyun Rao Dian Li and Xiu Li. 2021. Clip4caption: Clip for video caption. In ACM MM. 4858--4862.","DOI":"10.1145\/3474085.3479207"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Jiong Wang Huiming Zhang Haiwen Hong Xuan Jin Yuan He Hui Xue and Zhou Zhao. 2023 d. Open-Vocabulary Object Detection With an Open Corpus. In ICCV. 6759--6769.","DOI":"10.1109\/ICCV51070.2023.00622"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"crossref","unstructured":"Qiang Wang Junlong Du Ke Yan and Shouhong Ding. 2023. Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning. In ACM MM. 5339--5347.","DOI":"10.1145\/3581783.3612490"},{"key":"e_1_3_2_1_42_1","volume-title":"Taking a closer look at visual relation: Unbiased video scene graph generation with decoupled label learning","author":"Wang Wenqing","year":"2023","unstructured":"Wenqing Wang, Yawei Luo, Zhiqing Chen, Tao Jiang, Yi Yang, and Jun Xiao. 2023. Taking a closer look at visual relation: Unbiased video scene graph generation with decoupled label learning. IEEE TMM (2023)."},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Yuanbin Wang Shaofei Huang Yulu Gao Zhen Wang Rui Wang Kehua Sheng Bo Zhang and Si Liu. 2023. Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation. In ACMMM. 3745--3754.","DOI":"10.1145\/3581783.3612107"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"crossref","unstructured":"Size Wu Wenwei Zhang Sheng Jin Wentao Liu and Chen Change Loy. 2023. Aligning bag of regions for open-vocabulary object detection. In CVPR. 15254--15264.","DOI":"10.1109\/CVPR52729.2023.01464"},{"key":"e_1_3_2_1_45_1","volume-title":"CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching. In CVPR. 7031--7040.","author":"Wu Xiaoshi","year":"2023","unstructured":"Xiaoshi Wu, Feng Zhu, Rui Zhao, and Hongsheng Li. 2023. CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching. In CVPR. 7031--7040."},{"key":"e_1_3_2_1_46_1","volume-title":"Class-aware visual prompt tuning for vision-language pre-trained model. arXiv preprint","author":"Xing Yinghui","year":"2022","unstructured":"Yinghui Xing, Qirui Wu, De Cheng, Shizhou Zhang, Guoqiang Liang, and Yanning Zhang. 2022. Class-aware visual prompt tuning for vision-language pre-trained model. arXiv preprint (2022)."},{"key":"e_1_3_2_1_47_1","volume-title":"Coca: Contrastive captioners are image-text foundation models. arXiv preprint","author":"Yu Jiahui","year":"2022","unstructured":"Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, and Yonghui Wu. 2022. Coca: Contrastive captioners are image-text foundation models. arXiv preprint (2022)."},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"crossref","unstructured":"Yuhang Zang Wei Li Kaiyang Zhou Chen Huang and Chen Change Loy. 2022. Open-vocabulary detr with conditional matching. In ECCV. 106--122.","DOI":"10.1007\/978-3-031-20077-9_7"},{"key":"e_1_3_2_1_49_1","volume-title":"Derek Hao Hu, and Shih-Fu Chang.","author":"Zareian Alireza","year":"2021","unstructured":"Alireza Zareian, Kevin Dela Rosa, Derek Hao Hu, and Shih-Fu Chang. 2021. Open-vocabulary object detection using captions. In CVPR. 14393--14402."},{"key":"e_1_3_2_1_50_1","volume-title":"Recognize Anything: A Strong Image Tagging Model. arXiv preprint","author":"Zhang Youcai","year":"2023","unstructured":"Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, et al. 2023. Recognize Anything: A Strong Image Tagging Model. arXiv preprint (2023)."},{"key":"e_1_3_2_1_51_1","volume-title":"POAR: Towards Open Vocabulary Pedestrian Attribute Recognition. In ACM MM. 655--665.","author":"Zhang Yue","year":"2023","unstructured":"Yue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, and Yap-peng Tan. 2023. POAR: Towards Open Vocabulary Pedestrian Attribute Recognition. In ACM MM. 655--665."},{"key":"e_1_3_2_1_52_1","volume-title":"Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, et al.","author":"Zhong Yiwu","year":"2022","unstructured":"Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, et al. 2022. Regionclip: Region-based language-image pretraining. In CVPR. 16793--16803."},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"crossref","unstructured":"Xingyi Zhou Rohit Girdhar Armand Joulin Philipp Kr\u00e4henb\u00fchl and Ishan Misra. 2022. Detecting twenty-thousand classes using image-level supervision. In ECCV. 350--368.","DOI":"10.1007\/978-3-031-20077-9_21"}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Melbourne VIC Australia","acronym":"MM '24"},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680925","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3680925","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:34Z","timestamp":1750295854000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680925"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":53,"alternative-id":["10.1145\/3664647.3680925","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3680925","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}