{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T15:25:02Z","timestamp":1774538702306,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":53,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"National Science and Technology Major Project","award":["2022ZD0115502"],"award-info":[{"award-number":["2022ZD0115502"]}]},{"DOI":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["NO. 62122010, U23B2010"],"award-info":[{"award-number":["NO. 62122010, U23B2010"]}],"id":[{"id":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Zhejiang Provincial Natural Science Foundation of China","award":["LDT23F02022F02"],"award-info":[{"award-number":["LDT23F02022F02"]}]},{"name":"Beijing Natural Science Foundation","award":["L231011"],"award-info":[{"award-number":["L231011"]}]},{"name":"Beihang World TOP University Cooperation Program"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3680701","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:41Z","timestamp":1729925981000},"page":"7133-7142","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["GPD-VVTO: Preserving Garment Details in Video Virtual Try-On"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-1238-1692","authenticated-orcid":false,"given":"Yuanbin","family":"Wang","sequence":"first","affiliation":[{"name":"School of Artificial Intelligence, Beihang University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4063-8880","authenticated-orcid":false,"given":"Weilun","family":"Dai","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-2432-2952","authenticated-orcid":false,"given":"Long","family":"Chan","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-7839-3154","authenticated-orcid":false,"given":"Huanyu","family":"Zhou","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9863-0091","authenticated-orcid":false,"given":"Aixi","family":"Zhang","sequence":"additional","affiliation":[{"name":"Alibaba Group, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9180-2935","authenticated-orcid":false,"given":"Si","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, Beihang University, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Demystifying mmd gans. arXiv preprint arXiv:1801.01401","author":"Bikowski Mikolaj","year":"2018","unstructured":"Mikolaj Bikowski, Danica J Sutherland, Michael Arbel, and Arthur Gretton. 2018. Demystifying mmd gans. arXiv preprint arXiv:1801.01401 (2018)."},{"key":"e_1_3_2_1_2_1","volume-title":"Sanja Fidler, and Karsten Kreis.","author":"Blattmann Andreas","year":"2023","unstructured":"Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. 2023. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Joao Carreira and Andrew Zisserman. 2017. Quo Vadis Action Recognition? A New Model and the Kinetics Dataset. In CVPR.","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_1_4_1","volume":"202","author":"Ceylan Duygu","unstructured":"Duygu Ceylan, Chun-Hao P Huang, and Niloy J Mitra. 2023. Pix2video: Video editing using image diffusion. In ICCV.","journal-title":"Niloy J Mitra."},{"key":"e_1_3_2_1_5_1","volume-title":"Viton-hd: High-resolution virtual try-on via misalignment-aware normalization. In CVPR.","author":"Choi Seunghwan","year":"2021","unstructured":"Seunghwan Choi, Sunghyun Park, Minsoo Lee, and Jaegul Choo. 2021. Viton-hd: High-resolution virtual try-on via misalignment-aware normalization. In CVPR."},{"key":"e_1_3_2_1_6_1","volume-title":"Improving Diffusion Models for Virtual Try-on. arXiv preprint arXiv:2403.05139","author":"Choi Yisol","year":"2024","unstructured":"Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, and Jinwoo Shin. 2024. Improving Diffusion Models for Virtual Try-on. arXiv preprint arXiv:2403.05139 (2024)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Zijun Deng Xiangteng He Yuxin Peng Xiongwei Zhu and Lele Cheng. 2023. MV-Diffusion: Motion-aware Video Diffusion Model. In ACM MM.","DOI":"10.1145\/3581783.3612405"},{"key":"e_1_3_2_1_8_1","volume-title":"Fw-gan: Flow-navigated warping gan for video virtual try-on. In ICCV.","author":"Dong Haoye","year":"2019","unstructured":"Haoye Dong, Xiaodan Liang, Xiaohui Shen, Bowen Wu, Bing-Cheng Chen, and Jian Yin. 2019. Fw-gan: Flow-navigated warping gan for video virtual try-on. In ICCV."},{"key":"e_1_3_2_1_9_1","volume-title":"Akbar Shah, Xi Yin, Devi Parikh, and Ishan Misra.","author":"Girdhar Rohit","year":"2023","unstructured":"Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi Yin, Devi Parikh, and Ishan Misra. 2023. Emu video: Factorizing text-to-video generation by explicit image conditioning. arXiv preprint arXiv:2311.10709 (2023)."},{"key":"e_1_3_2_1_10_1","volume-title":"Graphonomy: Universal Human Parsing via Graph Transfer Learning. In CVPR.","author":"Gong Ke","year":"2019","unstructured":"Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen, Meng Wang, and Liang Lin. 2019. Graphonomy: Universal Human Parsing via Graph Transfer Learning. In CVPR."},{"key":"e_1_3_2_1_11_1","volume-title":"Generative adversarial networks. Commun. ACM","author":"Goodfellow Ian","year":"2020","unstructured":"Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2020. Generative adversarial networks. Commun. ACM (2020)."},{"key":"e_1_3_2_1_12_1","unstructured":"Junhong Gou Siyu Sun Jianfu Zhang Jianlou Si Chen Qian and Liqing Zhang. 2023. Taming the Power of Diffusion Models for High-Quality Virtual Try-On with Appearance Flow. In ACM MM."},{"key":"e_1_3_2_1_13_1","volume-title":"Densepose: Dense human pose estimation in the wild. In CVPR.","author":"G\u00fcler Riza Alp","year":"2018","unstructured":"Riza Alp G\u00fcler, Natalia Neverova, and Iasonas Kokkinos. 2018. Densepose: Dense human pose estimation in the wild. In CVPR."},{"key":"e_1_3_2_1_14_1","volume-title":"Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725","author":"Guo Yuwei","year":"2023","unstructured":"Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai. 2023. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725 (2023)."},{"key":"e_1_3_2_1_15_1","volume-title":"Viton: An image-based virtual try-on network. In CVPR.","author":"Han Xintong","year":"2018","unstructured":"Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, and Larry S Davis. 2018. Viton: An image-based virtual try-on network. In CVPR."},{"key":"e_1_3_2_1_16_1","volume-title":"GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. Neural Information Processing Systems,Neural Information Processing Systems","author":"Heusel Martin","year":"2017","unstructured":"Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. 2017. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. Neural Information Processing Systems,Neural Information Processing Systems (2017)."},{"key":"e_1_3_2_1_17_1","volume-title":"Denoising diffusion probabilistic models. NeurIPS","author":"Ho Jonathan","year":"2020","unstructured":"Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. NeurIPS (2020)."},{"key":"e_1_3_2_1_18_1","volume-title":"Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598","author":"Ho Jonathan","year":"2022","unstructured":"Jonathan Ho and Tim Salimans. 2022. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)."},{"key":"e_1_3_2_1_19_1","volume":"202","author":"Ho Jonathan","unstructured":"Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. 2022. Video diffusion models. NeurIPS (2022).","journal-title":"David J Fleet."},{"key":"e_1_3_2_1_20_1","volume-title":"Animate anyone: Consistent and controllable image-to-video synthesis for character animation. arXiv preprint arXiv:2311.17117","author":"Hu Li","year":"2023","unstructured":"Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, and Liefeng Bo. 2023. Animate anyone: Consistent and controllable image-to-video synthesis for character animation. arXiv preprint arXiv:2311.17117 (2023)."},{"key":"e_1_3_2_1_21_1","volume-title":"Clothformer: Taming video virtual try-on in all module. In CVPR. 10799--10808.","author":"Jiang Jianbin","year":"2022","unstructured":"Jianbin Jiang, Tan Wang, He Yan, and Junhui Liu. 2022. Clothformer: Taming video virtual try-on in all module. In CVPR. 10799--10808."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"crossref","unstructured":"Justin Johnson Alexandre Alahi and Li Fei-Fei. 2016. Perceptual losses for real-time style transfer and super-resolution. In ECCV.","DOI":"10.1007\/978-3-319-46475-6_43"},{"key":"e_1_3_2_1_23_1","volume-title":"StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On. arXiv preprint arXiv:2312.01725","author":"Kim Jeongho","year":"2023","unstructured":"Jeongho Kim, Gyojung Gu, Minho Park, Sunghyun Park, and Jaegul Choo. 2023. StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On. arXiv preprint arXiv:2312.01725 (2023)."},{"key":"e_1_3_2_1_24_1","volume-title":"Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980","author":"Kingma Diederik P","year":"2014","unstructured":"Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)."},{"key":"e_1_3_2_1_25_1","volume-title":"Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114","author":"Kingma Diederik P","year":"2013","unstructured":"Diederik P Kingma and Max Welling. 2013. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114 (2013)."},{"key":"e_1_3_2_1_26_1","unstructured":"Sangyun Lee Gyojung Gu Sunghyun Park Seunghwan Choi and Jaegul Choo. 2022. High-resolution virtual try-on with misalignment and occlusion-handled conditions. In ECCV."},{"key":"e_1_3_2_1_27_1","unstructured":"Jiafeng Mao Xueting Wang and Kiyoharu Aizawa. 2023. Guided image synthesis via initial image editing in diffusion model. In ACM MM."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Davide Morelli Alberto Baldrati Giuseppe Cartella Marcella Cornia Marco Bertini and Rita Cucchiara. 2023. LaDI-VTON: latent diffusion textual-inversion enhanced virtual try-on. In ACM MM.","DOI":"10.1145\/3581783.3612137"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"crossref","unstructured":"Davide Morelli Matteo Fincato Marcella Cornia Federico Landi Fabio Cesari and Rita Cucchiara. 2022. Dress code: high-resolution multi-category virtual try-on. In CVPR.","DOI":"10.1109\/CVPRW56347.2022.00243"},{"key":"e_1_3_2_1_30_1","unstructured":"Maxime Oquab Timoth\u00e9e Darcet Th\u00e9o Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby et al. 2023. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)."},{"key":"e_1_3_2_1_31_1","volume-title":"Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125","author":"Ramesh Aditya","year":"2022","unstructured":"Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. 2022. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125 (2022)."},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Robin Rombach Andreas Blattmann Dominik Lorenz Patrick Esser and Bj\u00f6rn Ommer. 2022. High-resolution image synthesis with latent diffusion models. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_2_1_33_1","volume-title":"Burcu Karagol Ayan, Tim Salimans, et al.","author":"Saharia Chitwan","year":"2022","unstructured":"Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. 2022. Photorealistic text-to-image diffusion models with deep language understanding. NeurIPS (2022)."},{"key":"e_1_3_2_1_34_1","volume-title":"Towards Squeezing-Averse Virtual Try-On via Sequential Deformation. arXiv preprint arXiv:2312.15861","author":"Shim Sang-Heon","year":"2023","unstructured":"Sang-Heon Shim, Jiwoo Chung, and Jae-Pil Heo. 2023. Towards Squeezing-Averse Virtual Try-On via Sequential Deformation. arXiv preprint arXiv:2312.15861 (2023)."},{"key":"e_1_3_2_1_35_1","volume-title":"Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556","author":"Simonyan Karen","year":"2014","unstructured":"Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)."},{"key":"e_1_3_2_1_36_1","volume-title":"Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502","author":"Song Jiaming","year":"2020","unstructured":"Jiaming Song, Chenlin Meng, and Stefano Ermon. 2020. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502 (2020)."},{"key":"e_1_3_2_1_37_1","volume-title":"Sgdiff: A style guided diffusion model for fashion synthesis. In ACM MM.","author":"Sun Zhengwentai","year":"2023","unstructured":"Zhengwentai Sun, Yanghong Zhou, Honghong He, and PY Mok. 2023. Sgdiff: A style guided diffusion model for fashion synthesis. In ACM MM."},{"key":"e_1_3_2_1_38_1","unstructured":"Aaron Van Den Oord Oriol Vinyals et al. 2017. Neural discrete representation learning. NeurIPS (2017)."},{"key":"e_1_3_2_1_39_1","volume-title":"Attention is all you need. NeurIPS","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. NeurIPS (2017)."},{"key":"e_1_3_2_1_40_1","volume-title":"Image quality assessment: from error visibility to structural similarity. TIP","author":"Wang Zhou","year":"2004","unstructured":"Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. 2004. Image quality assessment: from error visibility to structural similarity. TIP (2004)."},{"key":"e_1_3_2_1_41_1","volume-title":"Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou.","author":"Wu Jay Zhangjie","year":"2023","unstructured":"Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou. 2023. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In ICCV."},{"key":"e_1_3_2_1_42_1","volume-title":"Gp-vton: Towards general purpose virtual try-on via collaborative local-flow global-parsing learning. In CVPR.","author":"Xie Zhenyu","year":"2023","unstructured":"Zhenyu Xie, Zaiyu Huang, Xin Dong, Fuwei Zhao, Haoye Dong, Xijin Zhang, Feida Zhu, and Xiaodan Liang. 2023. Gp-vton: Towards general purpose virtual try-on via collaborative local-flow global-parsing learning. In CVPR."},{"key":"e_1_3_2_1_43_1","volume-title":"OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on. arXiv preprint arXiv:2403.01779","author":"Xu Yuhao","year":"2024","unstructured":"Yuhao Xu, Tao Gu, Weifeng Chen, and Chengcai Chen. 2024. OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on. arXiv preprint arXiv:2403.01779 (2024)."},{"key":"e_1_3_2_1_44_1","volume-title":"Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, and Mike Zheng Shou.","author":"Xu Zhongcong","year":"2023","unstructured":"Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, and Mike Zheng Shou. 2023. Magicanimate: Temporally consistent human image animation using diffusion model. arXiv preprint arXiv:2311.16498 (2023)."},{"key":"e_1_3_2_1_45_1","volume-title":"Raphael: Text-to-image generation via large mixture of diffusion paths. NeurIPS","author":"Xue Zeyue","year":"2024","unstructured":"Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. 2024. Raphael: Text-to-image generation via large mixture of diffusion paths. NeurIPS (2024)."},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"crossref","unstructured":"Binxin Yang Shuyang Gu Bo Zhang Ting Zhang Xuejin Chen Xiaoyan Sun Dong Chen and Fang Wen. 2023. Paint by example: Exemplar-based image editing with diffusion models. In CVPR.","DOI":"10.1109\/CVPR52729.2023.01763"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"crossref","unstructured":"Zhendong Yang Ailing Zeng Chun Yuan and Yu Li. 2023. Effective whole-body pose estimation with two-stages distillation. In CVPR.","DOI":"10.1109\/ICCVW60793.2023.00455"},{"key":"e_1_3_2_1_48_1","unstructured":"Yuyang Yin Dejia Xu Chuangchuang Tan Ping Liu Yao Zhao and Yunchao Wei. 2023. Cle diffusion: Controllable light enhancement diffusion model. In ACM MM."},{"key":"e_1_3_2_1_49_1","volume-title":"Make pixels dance: High-dynamic video generation. arXiv preprint arXiv:2311.10982","author":"Zeng Yan","year":"2023","unstructured":"Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, and Hang Li. 2023. Make pixels dance: High-dynamic video generation. arXiv preprint arXiv:2311.10982 (2023)."},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"crossref","unstructured":"Richard Zhang Phillip Isola Alexei A. Efros Eli Shechtman and Oliver Wang. 2018. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. In CVPR.","DOI":"10.1109\/CVPR.2018.00068"},{"key":"e_1_3_2_1_51_1","volume-title":"Mv-ton: Memory-based video virtual try-on network. In ACM MM.","author":"Zhong Xiaojing","year":"2021","unstructured":"Xiaojing Zhong, Zhonghua Wu, Taizhe Tan, Guosheng Lin, and Qingyao Wu. 2021. Mv-ton: Memory-based video virtual try-on network. In ACM MM."},{"key":"e_1_3_2_1_52_1","volume-title":"Tryondiffusion: A tale of two unets. In CVPR.","author":"Zhu Luyang","year":"2023","unstructured":"Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, and Ira Kemelmacher-Shlizerman. 2023. Tryondiffusion: A tale of two unets. In CVPR."},{"key":"e_1_3_2_1_53_1","volume-title":"Cut-and-Paste: Subject-Driven Video Editing with Attention Control. arXiv preprint arXiv:2311.11697","author":"Zuo Zhichao","year":"2023","unstructured":"Zhichao Zuo, Zhao Zhang, Yan Luo, Yang Zhao, Haijun Zhang, Yi Yang, and Meng Wang. 2023. Cut-and-Paste: Subject-Driven Video Editing with Attention Control. arXiv preprint arXiv:2311.11697 (2023)."}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","location":"Melbourne VIC Australia","acronym":"MM '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680701","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3680701","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T00:06:23Z","timestamp":1750291583000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680701"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":53,"alternative-id":["10.1145\/3664647.3680701","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3680701","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}