{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T16:06:14Z","timestamp":1758125174214,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":102,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3680721","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:41Z","timestamp":1729925981000},"page":"2709-2718","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["QPT-V2: Masked Image Modeling Advances Visual Scoring"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6171-9789","authenticated-orcid":false,"given":"Qizhi","family":"Xie","sequence":"first","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3681-2196","authenticated-orcid":false,"given":"Kun","family":"Yuan","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-9700-6290","authenticated-orcid":false,"given":"Yunpeng","family":"Qu","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-8461-9798","authenticated-orcid":false,"given":"Mingda","family":"Wu","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5948-2708","authenticated-orcid":false,"given":"Ming","family":"Sun","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2969-3042","authenticated-orcid":false,"given":"Chao","family":"Zhou","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6830-1211","authenticated-orcid":false,"given":"Jihong","family":"Zhu","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study. In CVPR Workshops. IEEE Computer Society, 1122--1131","author":"Agustsson Eirikur","year":"2017","unstructured":"Eirikur Agustsson and Radu Timofte. 2017. NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study. In CVPR Workshops. IEEE Computer Society, 1122--1131."},{"key":"e_1_3_2_1_2_1","unstructured":"Hangbo Bao Li Dong Songhao Piao and Furu Wei. 2022. BEiT: BERT Pre-Training of Image Transformers. In ICLR. OpenReview.net."},{"key":"e_1_3_2_1_3_1","volume-title":"Cisco visual networking index (vni) complete forecast update","author":"Barnett Thomas","year":"2017","unstructured":"Thomas Barnett, Shruti Jain, Usha Andra, and Taru Khurana. 2018. Cisco visual networking index (vni) complete forecast update, 2017--2022. Americas\/EMEAR Cisco Knowledge Network (CKN) Presentation (2018), 1--30."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2760518"},{"volume-title":"Adaptive Fractional Dilated Convolution Network for Image Aesthetics Assessment","author":"Chen Qiuyu","key":"e_1_3_2_1_5_1","unstructured":"Qiuyu Chen, Wei Zhang, Ning Zhou, Peng Lei, Yi Xu, Yu Zheng, and Jianping Fan. 2020. Adaptive Fractional Dilated Convolution Network for Image Aesthetics Assessment. In CVPR. Computer Vision Foundation \/ IEEE, 14102--14111."},{"key":"e_1_3_2_1_6_1","volume-title":"Improved Baselines with Momentum Contrastive Learning. CoRR","author":"Chen Xinlei","year":"2020","unstructured":"Xinlei Chen, Haoqi Fan, Ross B. Girshick, and Kaiming He. 2020. Improved Baselines with Momentum Contrastive Learning. CoRR, Vol. abs\/2003.04297 (2020)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.5555\/2319093.2321747"},{"volume-title":"ImageNet: A large-scale hierarchical image database","author":"Deng Jia","key":"e_1_3_2_1_8_1","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. ImageNet: A large-scale hierarchical image database. In CVPR. IEEE Computer Society, 248--255."},{"key":"e_1_3_2_1_9_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT (1)","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT (1). Association for Computational Linguistics, 4171--4186."},{"key":"e_1_3_2_1_10_1","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR. OpenReview.net."},{"key":"e_1_3_2_1_11_1","volume-title":"Proceedings of the second international workshop on video processing and quality metrics","volume":"4","author":"Egiazarian Karen","year":"2006","unstructured":"Karen Egiazarian, Jaakko Astola, Nikolay Ponomarenko, Vladimir Lukin, Federica Battisti, and Marco Carli. 2006. New full-reference quality metrics based on HVS. In Proceedings of the second international workshop on video processing and quality metrics, Vol. 4. 4."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2831899"},{"key":"e_1_3_2_1_13_1","volume-title":"EVA: Exploring the Limits of Masked Visual Representation Learning at Scale","author":"Fang Yuxin","year":"2023","unstructured":"Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao. 2023. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale. In CVPR. IEEE, 19358--19369."},{"volume-title":"Perceptual Quality Assessment of Smartphone Photography","author":"Fang Yuming","key":"e_1_3_2_1_14_1","unstructured":"Yuming Fang, Hanwei Zhu, Yan Zeng, Kede Ma, and Zhou Wang. 2020. Perceptual Quality Assessment of Smartphone Photography. In CVPR. Computer Vision Foundation \/ IEEE, 3674--3683."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2015.2500021"},{"key":"e_1_3_2_1_16_1","volume-title":"Bovik","author":"Ghadiyaram Deepti","year":"2016","unstructured":"Deepti Ghadiyaram and Alan C. Bovik. 2016. Perceptual Quality Prediction on Authentically Distorted Images Using a Bag of Features Approach. CoRR, Vol. abs\/1609.04757 (2016)."},{"volume-title":"Image Aesthetics Assessment Using Graph Attention Network","author":"Ghosal Koustav","key":"e_1_3_2_1_17_1","unstructured":"Koustav Ghosal and Aljosa Smolic. 2022. Image Aesthetics Assessment Using Graph Attention Network. In ICPR. IEEE, 3160--3167."},{"key":"e_1_3_2_1_18_1","volume-title":"Kitani","author":"Golestaneh S. Alireza","year":"2022","unstructured":"S. Alireza Golestaneh, Saba Dadsetan, and Kris M. Kitani. 2022. No-Reference Image Quality Assessment via Transformers, Relative Ranking, and Self-Consistency. In WACV. IEEE, 3989--3999."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCIndA.2011.6146669"},{"key":"e_1_3_2_1_20_1","volume-title":"Girshick","author":"He Kaiming","year":"2022","unstructured":"Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll\u00e1r, and Ross B. Girshick. 2022. Masked Autoencoders Are Scalable Vision Learners. In CVPR. IEEE, 15979--15988."},{"key":"e_1_3_2_1_21_1","volume-title":"Girshick","author":"He Kaiming","year":"2020","unstructured":"Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross B. Girshick. 2020. Momentum Contrast for Unsupervised Visual Representation Learning. In CVPR. Computer Vision Foundation \/ IEEE, 9726--9735."},{"volume-title":"Deep Residual Learning for Image Recognition","author":"He Kaiming","key":"e_1_3_2_1_22_1","unstructured":"Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR. IEEE Computer Society, 770--778."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.5555\/2693776.2693781"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"crossref","unstructured":"Shuai He Yongchang Zhang Rui Xie Dongxiang Jiang and Anlong Ming. 2022. Rethinking Image Aesthetics Assessment: Models Datasets and Benchmarks. In IJCAI. ijcai.org 942--948.","DOI":"10.24963\/ijcai.2022\/132"},{"volume-title":"Effective Aesthetics Prediction With Multi-Level Spatially Pooled Features","author":"Hosu Vlad","key":"e_1_3_2_1_25_1","unstructured":"Vlad Hosu, Bastian Goldl\u00fccke, and Dietmar Saupe. 2019. Effective Aesthetics Prediction With Multi-Level Spatially Pooled Features. In CVPR. Computer Vision Foundation \/ IEEE, 9375--9383."},{"volume-title":"Effective Aesthetics Prediction With Multi-Level Spatially Pooled Features","author":"Hosu Vlad","key":"e_1_3_2_1_26_1","unstructured":"Vlad Hosu, Bastian Goldl\u00fccke, and Dietmar Saupe. 2019. Effective Aesthetics Prediction With Multi-Level Spatially Pooled Features. In CVPR. Computer Vision Foundation \/ IEEE, 9375--9383."},{"volume-title":"The Konstanz natural video database (KoNViD-1k)","author":"Hosu Vlad","key":"e_1_3_2_1_27_1","unstructured":"Vlad Hosu, Franz Hahn, Mohsen Jenadeleh, Hanhe Lin, Hui Men, Tam\u00e1s Szir\u00e1nyi, Shujun Li, and Dietmar Saupe. 2017. The Konstanz natural video database (KoNViD-1k). In QoMEX. IEEE, 1--6."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2967829"},{"key":"e_1_3_2_1_29_1","volume-title":"MILAN: Masked Image Pretraining on Language Assisted Representation. CoRR","author":"Hou Zejiang","year":"2022","unstructured":"Zejiang Hou, Fei Sun, Yen-Kuang Chen, Yuan Xie, and Sun-Yuan Kung. 2022. MILAN: Masked Image Pretraining on Language Assisted Representation. CoRR, Vol. abs\/2208.06049 (2022)."},{"key":"e_1_3_2_1_30_1","first-page":"11","article-title":"Which is the Better Inpainted Image?Training Data Generation Without Any Manual","volume":"127","author":"Isogawa Mariko","year":"2019","unstructured":"Mariko Isogawa, Dan Mikami, Kosuke Takahashi, Daisuke Iwai, Kosuke Sato, and Hideaki Kimata. 2019. Which is the Better Inpainted Image?Training Data Generation Without Any Manual Operations. Int. J. Comput. Vis., Vol. 127, 11--12 (2019), 1751--1766.","journal-title":"Operations. Int. J. Comput. Vis."},{"key":"e_1_3_2_1_31_1","volume-title":"Doermann","author":"Kang Le","year":"2014","unstructured":"Le Kang, Peng Ye, Yi Li, and David S. Doermann. 2014. Convolutional Neural Networks for No-Reference Image Quality Assessment. In CVPR. IEEE Computer Society, 1733--1740."},{"key":"e_1_3_2_1_32_1","volume-title":"MUSIQ: Multi-scale Image Quality Transformer","author":"Ke Junjie","year":"2021","unstructured":"Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, and Feng Yang. 2021. MUSIQ: Multi-scale Image Quality Transformer. In ICCV. IEEE, 5128--5137."},{"key":"e_1_3_2_1_33_1","volume-title":"VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining","author":"Ke Junjie","year":"2023","unstructured":"Junjie Ke, Keren Ye, Jiahui Yu, Yonghui Wu, Peyman Milanfar, and Feng Yang. 2023. VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining. In CVPR. IEEE, 10041--10051."},{"key":"e_1_3_2_1_34_1","volume-title":"Girshick","author":"Kirillov Alexander","year":"2023","unstructured":"Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chlo\u00e9 Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Doll\u00e1r, and Ross B. Girshick. 2023. Segment Anything. In ICCV. IEEE, 3992--4003."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2923051"},{"key":"e_1_3_2_1_36_1","volume-title":"Hinton","author":"Krizhevsky Alex","year":"2012","unstructured":"Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet Classification with Deep Convolutional Neural Networks. In NIPS. 1106--1114."},{"key":"e_1_3_2_1_37_1","unstructured":"LAION. 2023. aesthetic-predictor. https:\/\/github.com\/LAION-AI\/aesthetic-predictor"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3164467"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Dingquan Li Tingting Jiang and Ming Jiang. 2019. Quality Assessment of In-the-Wild Videos. In ACM Multimedia. ACM 2351--2359.","DOI":"10.1145\/3343031.3351028"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01408-w"},{"key":"e_1_3_2_1_41_1","volume-title":"Vajira Lasantha Thambawita, and Haoliang Wang","author":"Li Dingquan","year":"2021","unstructured":"Dingquan Li, Tingting Jiang, Ming Jiang, Vajira Lasantha Thambawita, and Haoliang Wang. 2021. Reproducibility Companion Paper: Norm-in-Norm Loss with Faster Convergence and Better Performance for Image Quality Assessment. In ACM Multimedia. ACM, 3615--3618."},{"volume-title":"KADID-10k: A Large-scale Artificially Distorted IQA Database","author":"Lin Hanhe","key":"e_1_3_2_1_42_1","unstructured":"Hanhe Lin, Vlad Hosu, and Dietmar Saupe. 2019. KADID-10k: A Large-scale Artificially Distorted IQA Database. In QoMEX. IEEE, 1--3."},{"key":"e_1_3_2_1_43_1","volume-title":"Belongie","author":"Lin Tsung-Yi","year":"2017","unstructured":"Tsung-Yi Lin, Piotr Doll\u00e1r, Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Belongie. 2017. Feature Pyramid Networks for Object Detection. In CVPR. IEEE Computer Society, 936--944."},{"key":"e_1_3_2_1_44_1","volume-title":"Bagdanov","author":"Liu Xialei","year":"2017","unstructured":"Xialei Liu, Joost van de Weijer, and Andrew D. Bagdanov. 2017. RankIQA: Learning from Rankings for No-Reference Image Quality Assessment. In ICCV. IEEE Computer Society, 1040--1049."},{"key":"e_1_3_2_1_45_1","volume-title":"PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling. CoRR","author":"Liu Yuan","year":"2023","unstructured":"Yuan Liu, Songyang Zhang, Jiacheng Chen, Kai Chen, and Dahua Lin. 2023. PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling. CoRR, Vol. abs\/2303.02416 (2023)."},{"volume-title":"Improving Pixel-based MIM by Reducing Wasted Modeling Capability","author":"Liu Yuan","key":"e_1_3_2_1_46_1","unstructured":"Yuan Liu, Songyang Zhang, Jiacheng Chen, Zhaohui Yu, Kai Chen, and Dahua Lin. 2023. Improving Pixel-based MIM by Reducing Wasted Modeling Capability. In ICCV. IEEE, 5338--5349."},{"key":"e_1_3_2_1_47_1","volume-title":"Swin Transformer: Hierarchical Vision Transformer using Shifted Windows","author":"Liu Ze","year":"2021","unstructured":"Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 2021. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In ICCV. IEEE, 9992--10002."},{"key":"e_1_3_2_1_48_1","volume-title":"Kvq: Kwai video quality assessment for short-form videos. In CVPR. 25963--25973.","author":"Lu Yiting","year":"2024","unstructured":"Yiting Lu, Xin Li, Yajing Pei, Kun Yuan, Qizhi Xie, Yunpeng Qu, Ming Sun, Chao Zhou, and Zhibo Chen. 2024. Kvq: Kwai video quality assessment for short-form videos. In CVPR. 25963--25973."},{"key":"e_1_3_2_1_49_1","volume-title":"NTIRE 2021 Learning the Super-Resolution Space Challenge. In CVPR Workshops. Computer Vision Foundation \/ IEEE, 596--612","author":"Lugmayr Andreas","year":"2021","unstructured":"Andreas Lugmayr, Martin Danelljan, and Radu Timofte. 2021. NTIRE 2021 Learning the Super-Resolution Space Challenge. In CVPR Workshops. Computer Vision Foundation \/ IEEE, 596--612."},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3181496"},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2012.2214050"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2012.2227726"},{"key":"e_1_3_2_1_53_1","volume-title":"AVA: A large-scale database for aesthetic visual analysis","author":"Murray Naila","year":"2012","unstructured":"Naila Murray, Luca Marchesotti, and Florent Perronnin. 2012. AVA: A large-scale database for aesthetic visual analysis. In CVPR. IEEE Computer Society, 2408--2415."},{"key":"e_1_3_2_1_54_1","unstructured":"Namuk Park Wonjae Kim Byeongho Heo Taekyung Kim and Sangdoo Yun. 2023. What Do Self-Supervised Vision Transformers Learn?. In ICLR. OpenReview.net."},{"key":"e_1_3_2_1_55_1","volume-title":"BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers. CoRR","author":"Peng Zhiliang","year":"2022","unstructured":"Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, and Furu Wei. 2022. BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers. CoRR, Vol. abs\/2208.06366 (2022)."},{"volume-title":"Color image database TID2013: Peculiarities and preliminary results","author":"Ponomarenko Nikolay N.","key":"e_1_3_2_1_56_1","unstructured":"Nikolay N. Ponomarenko, Oleg Ieremeiev, Vladimir V. Lukin, Karen O. Egiazarian, Lina Jin, Jaakko Astola, Beno^it Vozel, Kacem Chehdi, Marco Carli, Federica Battisti, and C.-C. Jay Kuo. 2013. Color image database TID2013: Peculiarities and preliminary results. In EUVIP. IEEE, 106--111."},{"key":"e_1_3_2_1_57_1","volume-title":"XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution. CoRR","author":"Qu Yunpeng","year":"2024","unstructured":"Yunpeng Qu, Kun Yuan, Kai Zhao, Qizhi Xie, Jinhua Hao, Ming Sun, and Chao Zhou. 2024. XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution. CoRR, Vol. abs\/2403.05049 (2024)."},{"key":"e_1_3_2_1_58_1","volume-title":"ICML (Proceedings of Machine Learning Research","volume":"8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML (Proceedings of Machine Learning Research, Vol. 139). PMLR, 8748--8763."},{"key":"e_1_3_2_1_59_1","volume-title":"ICML (Proceedings of Machine Learning Research","volume":"8831","author":"Ramesh Aditya","year":"2021","unstructured":"Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. 2021. Zero-Shot Text-to-Image Generation. In ICML (Proceedings of Machine Learning Research, Vol. 139). PMLR, 8821--8831."},{"key":"e_1_3_2_1_60_1","volume-title":"Real-time flying object detection with YOLOv8. arXiv preprint arXiv:2305.09972","author":"Reis Dillon","year":"2023","unstructured":"Dillon Reis, Jordan Kupec, Jacqueline Hong, and Ahmad Daoudi. 2023. Real-time flying object detection with YOLOv8. arXiv preprint arXiv:2305.09972 (2023)."},{"key":"e_1_3_2_1_61_1","volume-title":"Bourdev","author":"Rippel Oren","year":"2019","unstructured":"Oren Rippel, Sanjay Nair, Carissa Lew, Steve Branson, Alexander G. Anderson, and Lubomir D. Bourdev. 2019. Learned Video Compression. In ICCV. IEEE, 3453--3462."},{"key":"e_1_3_2_1_62_1","volume-title":"Bovik","author":"Saha Avinab","year":"2023","unstructured":"Avinab Saha, Sandeep Mishra, and Alan C. Bovik. 2023. Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild. In CVPR. IEEE, 5846--5855."},{"volume-title":"FaceNet: A unified embedding for face recognition and clustering","author":"Schroff Florian","key":"e_1_3_2_1_63_1","unstructured":"Florian Schroff, Dmitry Kalenichenko, and James Philbin. 2015. FaceNet: A unified embedding for face recognition and clustering. In CVPR. IEEE Computer Society, 815--823."},{"key":"e_1_3_2_1_64_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2006.881959"},{"key":"e_1_3_2_1_65_1","volume-title":"Natural image statistics and neural representation. Annual review of neuroscience","author":"Simoncelli Eero P","year":"2001","unstructured":"Eero P Simoncelli and Bruno A Olshausen. 2001. Natural image statistics and neural representation. Annual review of neuroscience, Vol. 24, 1 (2001), 1193--1216."},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2869673"},{"volume-title":"Blindly Assess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network","author":"Su Shaolin","key":"e_1_3_2_1_67_1","unstructured":"Shaolin Su, Qingsen Yan, Yu Zhu, Cheng Zhang, Xin Ge, Jinqiu Sun, and Yanning Zhang. 2020. Blindly Assess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network. In CVPR. Computer Vision Foundation \/ IEEE, 3664--3673."},{"key":"e_1_3_2_1_68_1","doi-asserted-by":"crossref","unstructured":"Wei Sun Xiongkuo Min Wei Lu and Guangtao Zhai. 2022. A Deep Learning based No-reference Quality Assessment Model for UGC Videos. In ACM Multimedia. ACM 856--865.","DOI":"10.1145\/3503161.3548329"},{"key":"e_1_3_2_1_69_1","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2023.3270621"},{"key":"e_1_3_2_1_70_1","unstructured":"Zhan Tong Yibing Song Jue Wang and Limin Wang. 2022. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training. In NeurIPS."},{"volume-title":"ECCV (24) (Lecture Notes in Computer Science","author":"Tu Zhengzhong","key":"e_1_3_2_1_71_1","unstructured":"Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan C. Bovik, and Yinxiao Li. 2022. MaxViT: Multi-axis Vision Transformer. In ECCV (24) (Lecture Notes in Computer Science, Vol. 13684). Springer, 459--479."},{"key":"e_1_3_2_1_72_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3072221"},{"key":"e_1_3_2_1_73_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3072221"},{"key":"e_1_3_2_1_74_1","volume-title":"Bovik","author":"Tu Zhengzhong","year":"2021","unstructured":"Zhengzhong Tu, Xiangxu Yu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, and Alan C. Bovik. 2021. RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content. CoRR, Vol. abs\/2101.10955 (2021)."},{"key":"e_1_3_2_1_75_1","volume-title":"Representation Learning with Contrastive Predictive Coding. CoRR","author":"van den Oord A\u00e4ron","year":"2018","unstructured":"A\u00e4ron van den Oord, Yazhe Li, and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. CoRR, Vol. abs\/1807.03748 (2018)."},{"key":"e_1_3_2_1_76_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser and Illia Polosukhin. 2017. Attention is All you Need. In NIPS. 5998--6008."},{"key":"e_1_3_2_1_77_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICOSP.2008.4697344"},{"volume-title":"Exploring CLIP for Assessing the Look and Feel of Images","author":"Wang Jianyi","key":"e_1_3_2_1_78_1","unstructured":"Jianyi Wang, Kelvin C. K. Chan, and Chen Change Loy. 2023. Exploring CLIP for Assessing the Look and Feel of Images. In AAAI. AAAI Press, 2555--2563."},{"key":"e_1_3_2_1_79_1","volume-title":"Saksham Singhal, Subhojit Som, and Furu Wei.","author":"Wang Wenhui","year":"2022","unstructured":"Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, and Furu Wei. 2022. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks. CoRR, Vol. abs\/2208.10442 (2022)."},{"key":"e_1_3_2_1_80_1","volume-title":"Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data","author":"Wang Xintao","year":"1905","unstructured":"Xintao Wang, Liangbin Xie, Chao Dong, and Ying Shan. 2021. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. In ICCVW. IEEE, 1905--1914."},{"volume-title":"YouTube UGC Dataset for Video Compression Research","author":"Wang Yilin","key":"e_1_3_2_1_81_1","unstructured":"Yilin Wang, Sasi Inguva, and Balu Adsumilli. 2019. YouTube UGC Dataset for Video Compression Research. In MMSP. IEEE, 1--5."},{"volume-title":"Masked Feature Prediction for Self-Supervised Visual Pre-Training","author":"Wei Chen","key":"e_1_3_2_1_82_1","unstructured":"Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan L. Yuille, and Christoph Feichtenhofer. 2022. Masked Feature Prediction for Self-Supervised Visual Pre-Training. In CVPR. IEEE, 14648--14658."},{"key":"e_1_3_2_1_83_1","volume-title":"MVP: Multimodality-Guided Visual Pre-training. In ECCV (30) (Lecture Notes in Computer Science","author":"Wei Longhui","year":"2022","unstructured":"Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, and Qi Tian. 2022. MVP: Multimodality-Guided Visual Pre-training. In ECCV (30) (Lecture Notes in Computer Science, Vol. 13690). Springer, 337--353."},{"volume-title":"ECCV (6) (Lecture Notes in Computer Science","author":"Wu Haoning","key":"e_1_3_2_1_84_1","unstructured":"Haoning Wu, Chaofeng Chen, Jingwen Hou, Liang Liao, Annan Wang, Wenxiu Sun, Qiong Yan, and Weisi Lin. 2022. FAST-VQA: Efficient End-to-End Video Quality Assessment with Fragment Sampling. In ECCV (6) (Lecture Notes in Computer Science, Vol. 13666). Springer, 538--554."},{"key":"e_1_3_2_1_85_1","volume-title":"Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels. CoRR","author":"Wu Haoning","year":"2023","unstructured":"Haoning Wu, Zicheng Zhang, Weixia Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Yixuan Gao, Annan Wang, Erli Zhang, Wenxiu Sun, Qiong Yan, Xiongkuo Min, Guangtao Zhai, and Weisi Lin. 2023. Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels. CoRR, Vol. abs\/2312.17090 (2023)."},{"volume-title":"SimMIM: a Simple Framework for Masked Image Modeling","author":"Xie Zhenda","key":"e_1_3_2_1_86_1","unstructured":"Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, and Han Hu. 2022. SimMIM: a Simple Framework for Masked Image Modeling. In CVPR. IEEE, 9643--9653."},{"key":"e_1_3_2_1_87_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2585880"},{"key":"e_1_3_2_1_88_1","volume-title":"MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment. In CVPR Workshops. IEEE, 1190--1199","author":"Yang Sidi","year":"2022","unstructured":"Sidi Yang, Tianhe Wu, Shuwei Shi, Shanshan Lao, Yuan Gong, Mingdeng Cao, Jiahao Wang, and Yujiu Yang. 2022. MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment. In CVPR Workshops. IEEE, 1190--1199."},{"key":"e_1_3_2_1_89_1","volume-title":"Doermann","author":"Ye Peng","year":"2012","unstructured":"Peng Ye, Jayant Kumar, Le Kang, and David S. Doermann. 2012. Unsupervised feature learning framework for no-reference image quality assessment. In CVPR. IEEE Computer Society, 1098--1105."},{"key":"e_1_3_2_1_90_1","volume-title":"Bovik","author":"Ying Zhenqiang","year":"2021","unstructured":"Zhenqiang Ying, Maniratnam Mandal, Deepti Ghadiyaram, and Alan C. Bovik. 2021. Patch-VQ: 'Patching Up' the Video Quality Problem. In CVPR. Computer Vision Foundation \/ IEEE, 14019--14029."},{"key":"e_1_3_2_1_91_1","volume-title":"Bovik","author":"Ying Zhenqiang","year":"2020","unstructured":"Zhenqiang Ying, Haoran Niu, Praful Gupta, Dhruv Mahajan, Deepti Ghadiyaram, and Alan C. Bovik. 2020. From Patches to Pictures (PaQ-2-PiQ): Mapping the Perceptual Space of Picture Quality. In CVPR. Computer Vision Foundation \/ IEEE, 3572--3582."},{"key":"e_1_3_2_1_92_1","doi-asserted-by":"crossref","unstructured":"Junyong You. 2021. Long Short-term Convolutional Transformer for No-Reference Video Quality Assessment. In ACM Multimedia. ACM 2112--2120.","DOI":"10.1145\/3474085.3475368"},{"key":"e_1_3_2_1_93_1","article-title":"CoCa: Contrastive Captioners are Image-Text Foundation","volume":"2022","author":"Yu Jiahui","year":"2022","unstructured":"Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, and Yonghui Wu. 2022. CoCa: Contrastive Captioners are Image-Text Foundation Models. Trans. Mach. Learn. Res., Vol. 2022 (2022).","journal-title":"Models. Trans. Mach. Learn. Res."},{"key":"e_1_3_2_1_94_1","volume-title":"PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI Generated Images. CoRR","author":"Yuan Jiquan","year":"2023","unstructured":"Jiquan Yuan, Xinyan Cao, Changjin Li, Fanyi Yang, Jinlong Lin, and Xixin Cao. 2023. PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI Generated Images. CoRR, Vol. abs\/2311.15556 (2023)."},{"key":"e_1_3_2_1_95_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612023"},{"key":"e_1_3_2_1_96_1","doi-asserted-by":"crossref","unstructured":"Kun Yuan Hongbo Liu Mading Li Muyi Sun Ming Sun Jiachao Gong Jinhua Hao Chao Zhou and Yansong Tang. 2024. PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild. In CVPR. 2835--2845.","DOI":"10.1109\/CVPR52733.2024.00274"},{"key":"e_1_3_2_1_97_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2015.2426416"},{"volume-title":"RankSRGAN: Generative Adversarial Networks With Ranker for Image Super-Resolution","author":"Zhang Wenlong","key":"e_1_3_2_1_98_1","unstructured":"Wenlong Zhang, Yihao Liu, Chao Dong, and Yu Qiao. 2019. RankSRGAN: Generative Adversarial Networks With Ranker for Image Super-Resolution. In ICCV. IEEE, 3096--3105."},{"key":"e_1_3_2_1_99_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2018.2886771"},{"volume-title":"Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective","author":"Zhang Weixia","key":"e_1_3_2_1_100_1","unstructured":"Weixia Zhang, Guangtao Zhai, Ying Wei, Xiaokang Yang, and Kede Ma. 2023. Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective. In CVPR. IEEE, 14071--14081."},{"key":"e_1_3_2_1_101_1","unstructured":"Xiaosong Zhang Yunjie Tian Lingxi Xie Wei Huang Qi Dai Qixiang Ye and Qi Tian. 2023. HiViT: A Simpler and More Efficient Design of Hierarchical Vision Transformer. In ICLR. OpenReview.net."},{"key":"e_1_3_2_1_102_1","volume-title":"Quality-aware Pre-trained Models for Blind Image Quality Assessment. CoRR","author":"Zhao Kai","year":"2023","unstructured":"Kai Zhao, Kun Yuan, Ming Sun, Mading Li, and Xing Wen. 2023. Quality-aware Pre-trained Models for Blind Image Quality Assessment. CoRR, Vol. abs\/2303.00521 (2023)."}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Melbourne VIC Australia","acronym":"MM '24"},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680721","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3680721","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T00:06:24Z","timestamp":1750291584000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680721"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":102,"alternative-id":["10.1145\/3664647.3680721","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3680721","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}