{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T05:05:22Z","timestamp":1750309522417,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":55,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"China Scholarship Council","award":["202306300023"],"award-info":[{"award-number":["202306300023"]}]},{"DOI":"10.13039\/https:\/\/doi.org\/10.13039\/501100004543","name":"China Scholarship Council","doi-asserted-by":"publisher","award":["202306890106"],"award-info":[{"award-number":["202306890106"]}],"id":[{"id":"10.13039\/https:\/\/doi.org\/10.13039\/501100004543","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3680800","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:27Z","timestamp":1729925967000},"page":"8536-8545","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Harmony Everything! Masked Autoencoders for Video Harmonization"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3827-1522","authenticated-orcid":false,"given":"Yuhang","family":"Li","sequence":"first","affiliation":[{"name":"Shanghai Film Academy, Shanghai University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0150-4644","authenticated-orcid":false,"given":"Jincen","family":"Jiang","sequence":"additional","affiliation":[{"name":"National Centre for Computer Animation, Bournemouth University, Bournemouth, United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3815-0584","authenticated-orcid":false,"given":"Xiaosong","family":"Yang","sequence":"additional","affiliation":[{"name":"National Centre for Computer Animation, Bournemouth University, Bournemouth, United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4740-2595","authenticated-orcid":false,"given":"Youdong","family":"Ding","sequence":"additional","affiliation":[{"name":"Shanghai Film Academy, Shanghai University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7069-5771","authenticated-orcid":false,"given":"Jian Jun","family":"Zhang","sequence":"additional","affiliation":[{"name":"National Centre for Computer Animation, Bournemouth University, Bournemouth, United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19836-6_20"},{"key":"e_1_3_2_1_2_1","volume-title":"Deep image harmonization by bridging the reality gap. arXiv preprint arXiv:2103.17104","author":"Cao Junyan","year":"2021","unstructured":"Junyan Cao, Wenyan Cong, Li Niu, Jianfu Zhang, and Liqing Zhang. 2021. Deep image harmonization by bridging the reality gap. arXiv preprint arXiv:2103.17104 (2021)."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-023-1447-3"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20056-4_7"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1145\/1179352.1141933"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01792"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00842"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"crossref","unstructured":"Ken Dancyger. 2018. The technique of film and video editing: history theory and practice.","DOI":"10.4324\/9781315210698"},{"key":"e_1_3_2_1_9_1","first-page":"35946","article-title":"Masked autoencoders as spatiotemporal learners","volume":"35","author":"Feichtenhofer Christoph","year":"2022","unstructured":"Christoph Feichtenhofer, Yanghao Li, Kaiming He, et al. 2022. Masked autoencoders as spatiotemporal learners. Advances in Neural Information Processing Systems, Vol. 35 (2022), 35946--35958.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3207091"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01460"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01610"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01909"},{"key":"e_1_3_2_1_14_1","volume-title":"British Machine Vision Conference","volume":"1","author":"Hao Guoqing","year":"2020","unstructured":"Guoqing Hao, Satoshi Iizuka, and Kazuhiro Fukui. 2020. Image Harmonization with Attention-based Deep Feature Modulation.. In British Machine Vision Conference, Vol. 1. 2."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"e_1_3_2_1_16_1","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho Jonathan","year":"2020","unstructured":"Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, Vol. 33 (2020), 6840--6851.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2925550"},{"key":"e_1_3_2_1_18_1","volume-title":"Masked autoencoders in 3d point cloud representation learning","author":"Jiang Jincen","year":"2023","unstructured":"Jincen Jiang, Xuequan Lu, Lizhi Zhao, Richard Dazaley, and Meili Wang. 2023. Masked autoencoders in 3d point cloud representation learning. IEEE Transactions on Multimedia (2023)."},{"key":"e_1_3_2_1_19_1","volume-title":"DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding. In European Conference on Computer Vision. Springer.","author":"Jiang Jincen","year":"2024","unstructured":"Jincen Jiang, Qianyu Zhou, Yuhang Li, Xuequan Lu, Meili Wang, Lizhuang Ma, Jian Chang, and Jian Jun Zhang. 2024. DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding. In European Conference on Computer Vision. Springer."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00479"},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46475-6_43"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01362"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19784-0_40"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_11"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2007.4409107"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543664.3543681"},{"key":"e_1_3_2_1_27_1","first-page":"1083","article-title":"Blind video temporal consistency via deep video prior","volume":"33","author":"Lei Chenyang","year":"2020","unstructured":"Chenyang Lei, Yazhou Xing, and Qifeng Chen. 2020. Blind video temporal consistency via deep video prior. Advances in Neural Information Processing Systems, Vol. 33 (2020), 1083--1093.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_28_1","volume-title":"Quality Harmonization for Virtual Composition in Online Video Communications","author":"Li Binzhe","year":"2023","unstructured":"Binzhe Li, Bolin Chen, Zhao Wang, Baoliang Chen, Shiqi Wang, and Yan Ye. 2023. Quality Harmonization for Virtual Composition in Online Video Communications. IEEE Transactions on Circuits and Systems for Video Technology (2023)."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-27818-1_16"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Yuhang Li Youdong Ding and Bing Yu. 2020. Inpainting of Vintage Films Based on Variational Auto-encoder. In Mechanical Control and Computer Engineering. 616--620.","DOI":"10.1109\/ICMCCE51767.2020.00137"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1007\/s00138-022-01365-z"},{"key":"e_1_3_2_1_32_1","volume-title":"Luminance domain-guided low-light image enhancement. Neural Computing and Applications","author":"Li Yuhang","year":"2024","unstructured":"Yuhang Li, Chao Wang, Bing Liang, Feifan Cai, and Youdong Ding. 2024. Luminance domain-guided low-light image enhancement. Neural Computing and Applications (2024), 1--17."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20071-7_20"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00319"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00924"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01754"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"e_1_3_2_1_38_1","volume-title":"Decoupled Weight Decay Regularization. In International Conference on Learning Representations.","author":"Loshchilov Ilya","year":"2019","unstructured":"Ilya Loshchilov and Frank Hutter. 2019. Decoupled Weight Decay Regularization. In International Conference on Learning Representations."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612451"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/172"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.3390\/electronics13061037"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00166"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"publisher","DOI":"10.1145\/1778765.1778862"},{"key":"e_1_3_2_1_44_1","first-page":"10078","article-title":"Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training","volume":"35","author":"Tong Zhan","year":"2022","unstructured":"Zhan Tong, Yibing Song, Jue Wang, and Limin Wang. 2022. Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training. Advances in Neural Information Processing Systems, Vol. 35 (2022), 10078--10093.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.299"},{"key":"e_1_3_2_1_46_1","volume-title":"Electronic and Automation Control Conference","volume":"5","author":"Tu Yifei","year":"2022","unstructured":"Yifei Tu, Yuhang Li, Feifan Cai, Chao Wang, Bing Liang, Jiaxin Fan, and Youdong Ding. 2022. Deep Video Decaptioning via Subtitle Mask Prediction and Inpainting. In Information Management, Communicates, Electronic and Automation Control Conference, Vol. 5. 1836--1839."},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01398"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00813"},{"key":"e_1_3_2_1_49_1","volume-title":"Advances in Neural Information Processing Systems","volume":"36","author":"Wang Xiang","year":"2024","unstructured":"Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. 2024. Videocomposer: Compositional video synthesis with motion controllability. Advances in Neural Information Processing Systems, Vol. 36 (2024)."},{"key":"e_1_3_2_1_50_1","volume-title":"Shuttling Through Films: A Recoloring Method Based on Chinese Film Aesthetics. In International Information Technology and Artificial Intelligence Conference","volume":"11","author":"Xia Tianlin","year":"2023","unstructured":"Tianlin Xia, Yuhang Li, Liting Huang, and Youdong Ding. 2023. Shuttling Through Films: A Recoloring Method Based on Chinese Film Aesthetics. In International Information Technology and Artificial Intelligence Conference, Vol. 11. 1362--1366."},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00409"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20071-7_18"},{"key":"e_1_3_2_1_53_1","volume-title":"Understanding and improving the realism of image composites. ACM Transactions on graphics","author":"Xue Su","year":"2012","unstructured":"Su Xue, Aseem Agarwala, Julie Dorsey, and Holly Rushmeier. 2012. Understanding and improving the realism of image composites. ACM Transactions on graphics, Vol. 31, 4 (2012), 1--10."},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591482"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3192717"}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Melbourne VIC Australia","acronym":"MM '24"},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680800","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3680800","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:18:07Z","timestamp":1750295887000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680800"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":55,"alternative-id":["10.1145\/3664647.3680800","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3680800","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}