{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T01:45:37Z","timestamp":1773193537526,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":44,"publisher":"ACM","funder":[{"name":"National Key Research and Development Plan","award":["2024YFF0505702"],"award-info":[{"award-number":["2024YFF0505702"]}]},{"name":"Natural Science Foundation of China","award":["62171429,62021001"],"award-info":[{"award-number":["62171429,62021001"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755598","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:30:51Z","timestamp":1761377451000},"page":"12083-12091","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":1,"title":["EHVC: Efficient Hierarchical Reference and Quality Structure for Neural Video Coding"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-4030-174X","authenticated-orcid":false,"given":"Junqi","family":"Liao","sequence":"first","affiliation":[{"name":"University of Science and Technology of China, Hefei, Anhui Province, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8138-4186","authenticated-orcid":false,"given":"Yaojun","family":"Wu","sequence":"additional","affiliation":[{"name":"Bytedance China, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-7770-6821","authenticated-orcid":false,"given":"Chaoyi","family":"Lin","sequence":"additional","affiliation":[{"name":"Bytedance China, Hangzhou, Zhejiang Province, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-9854-9470","authenticated-orcid":false,"given":"Zhipin","family":"Deng","sequence":"additional","affiliation":[{"name":"Bytedance China, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7163-6263","authenticated-orcid":false,"given":"Li","family":"Li","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, Anhui Province, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9100-2906","authenticated-orcid":false,"given":"Dong","family":"Liu","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, Anhui Province, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3638-5566","authenticated-orcid":false,"given":"Xiaoyan","family":"Sun","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, Anhui Province, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00853"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00988"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00201"},{"key":"e_1_3_2_1_4_1","volume-title":"Calculation of average PSNR differences between RD-curves. ITU SG16 Doc. VCEG-M33","author":"Bjontegaard Gisle","year":"2001","unstructured":"Gisle Bjontegaard. 2001. Calculation of average PSNR differences between RD-curves. ITU SG16 Doc. VCEG-M33 (2001)."},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3072204"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2020.3043399"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3101953"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611960"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00652"},{"key":"e_1_3_2_1_10_1","volume-title":"Standards and Common Interfaces for Video Information Systems: A Critical Review","author":"Girod Bernd","unstructured":"Bernd Girod, Eckehard G Steinbach, and Niko Faerber. 1995. Comparison of the H. 263 and H. 261 video compression standards. In Standards and Common Interfaces for Video Information Systems: A Critical Review, Vol. 10282. SPIE, 230-248."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3316429"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00713"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19787-1_12"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58536-5_12"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00583"},{"key":"e_1_3_2_1_16_1","volume-title":"Conditional coding for flexible learned video compression. arXiv preprint arXiv:2104.07930","author":"Ladune Th\u00e9o","year":"2021","unstructured":"Th\u00e9o Ladune, Pierrick Philippe, Wassim Hamidouche, Lu Zhang, and Olivier D\u00e9forges. 2021. Conditional coding for flexible learned video compression. arXiv preprint arXiv:2104.07930 (2021)."},{"key":"e_1_3_2_1_17_1","first-page":"18114","article-title":"Deep contextual video compression","volume":"34","author":"Li Jiahao","year":"2021","unstructured":"Jiahao Li, Bin Li, and Yan Lu. 2021. Deep contextual video compression. Advances in Neural Information Processing Systems, Vol. 34 (2021), 18114-18125.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547845"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02166"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02466"},{"key":"e_1_3_2_1_21_1","volume-title":"EFVC: Error-Propagation-Free Neural Video Coding with Reversible Transform. In 2025 IEEE International Symposium on Circuits and Systems (ISCAS). IEEE, 1-5.","author":"Liao Junqi","year":"2025","unstructured":"Junqi Liao, Li Li, Dong Liu, and Houqiang Li. 2025. EFVC: Error-Propagation-Free Neural Video Coding with Reversible Transform. In 2025 IEEE International Symposium on Circuits and Systems (ISCAS). IEEE, 1-5."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00360"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.3035680"},{"key":"e_1_3_2_1_24_1","volume-title":"Meet Shah, Rui Hu, Pranaab Dhawan, and Raquel Urtasun. 2020b. Conditional entropy coding for efficient video compression. In European Conference on Computer Vision. Springer, 453-468","author":"Liu Jerry","unstructured":"Jerry Liu, Shenlong Wang, Wei-Chiu Ma, Meet Shah, Rui Hu, Pranaab Dhawan, and Raquel Urtasun. 2020b. Conditional entropy coding for efficient video compression. In European Conference on Computer Vision. Springer, 453-468."},{"key":"e_1_3_2_1_25_1","volume-title":"Advances in Neural Information Processing Systems","volume":"32","author":"Lombardo Salvator","year":"2019","unstructured":"Salvator Lombardo, Jun Han, Christopher Schroers, and Stephan Mandt. 2019. Deep generative video compression. Advances in Neural Information Processing Systems, Vol. 32 (2019)."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01126"},{"key":"e_1_3_2_1_27_1","volume-title":"An end-to-end learning framework for video compression","author":"Lu Guo","year":"2020","unstructured":"Guo Lu, Xiaoyun Zhang, Wanli Ouyang, Li Chen, Zhiyong Gao, and Dong Xu. 2020. An end-to-end learning framework for video compression. IEEE transactions on pattern analysis and machine intelligence, Vol. 43, 10 (2020), 3292-3308."},{"key":"e_1_3_2_1_28_1","volume-title":"VCT: A video compression transformer. arXiv preprint arXiv:2206.07307","author":"Mentzer Fabian","year":"2022","unstructured":"Fabian Mentzer, George Toderici, David Minnen, Sung-Jin Hwang, Sergi Caelles, Mario Lucic, and Eirikur Agustsson. 2022. VCT: A video compression transformer. arXiv preprint arXiv:2206.07307 (2022)."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3077116"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1145\/3339825.3394937"},{"key":"e_1_3_2_1_31_1","volume-title":"Deep predictive video compression with bi-directional prediction. arXiv preprint arXiv:1904.02909","author":"Park Woonsung","year":"2019","unstructured":"Woonsung Park and Munchurl Kim. 2019. Deep predictive video compression with bi-directional prediction. arXiv preprint arXiv:1904.02909 (2019)."},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3046040"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00592"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01421"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3220421"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2025.3543061"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2012.2221191"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01171"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2016.7532610"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3070860"},{"key":"e_1_3_2_1_41_1","volume-title":"The Eleventh International Conference on Learning Representations.","author":"Xiang Jinxi","year":"2022","unstructured":"Jinxi Xiang, Kuan Tian, and Jun Zhang. 2022. Mimt: Masked image modeling transformer for video compression. In The Eleventh International Conference on Learning Representations."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00666"},{"key":"e_1_3_2_1_43_1","volume-title":"2020 IEEE International Conference on Image Processing (ICIP). IEEE, 1311-1315","author":"Akin Yilmaz M","year":"2020","unstructured":"M Akin Yilmaz and A Murat Tekalp. 2020. End-to-end rate-distortion optimization for bi-directional learned video compression. In 2020 IEEE International Conference on Image Processing (ICIP). IEEE, 1311-1315."},{"key":"e_1_3_2_1_44_1","volume-title":"The Twelfth International Conference on Learning Representations.","author":"Zhang Yiwei","year":"2023","unstructured":"Yiwei Zhang, Guo Lu, Yunuo Chen, Shen Wang, Yibo Shi, Jing Wang, and Li Song. 2023. Neural rate control for learned video compression. In The Twelfth International Conference on Learning Representations."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","location":"Dublin Ireland","acronym":"MM '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755598","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T20:06:29Z","timestamp":1765310789000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755598"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":44,"alternative-id":["10.1145\/3746027.3755598","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755598","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}