{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T15:47:35Z","timestamp":1778082455238,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":71,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62271312"],"award-info":[{"award-number":["62271312"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"STCSM","award":["22DZ2229005"],"award-info":[{"award-number":["22DZ2229005"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3754696","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T05:44:48Z","timestamp":1761371088000},"page":"6751-6760","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":6,"title":["VQA\n                    <sup>2<\/sup>\n                    : Visual Question Answering for Video Quality Assessment"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-2623-4756","authenticated-orcid":false,"given":"Ziheng","family":"Jia","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7247-7938","authenticated-orcid":false,"given":"Zicheng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, China, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8783-4942","authenticated-orcid":false,"given":"Jiaying","family":"Qian","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8642-8101","authenticated-orcid":false,"given":"Haoning","family":"Wu","sequence":"additional","affiliation":[{"name":"Nanyang Technological University, Singapore, Singapore"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8162-1949","authenticated-orcid":false,"given":"Wei","family":"Sun","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0634-1710","authenticated-orcid":false,"given":"Chunyi","family":"Li","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6377-4730","authenticated-orcid":false,"given":"Xiaohong","family":"Liu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9866-1947","authenticated-orcid":false,"given":"Weisi","family":"Lin","sequence":"additional","affiliation":[{"name":"Nanyang Technological University, Singapore, Singapore"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8165-9322","authenticated-orcid":false,"given":"Guangtao","family":"Zhai","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5693-0416","authenticated-orcid":false,"given":"Xiongkuo","family":"Min","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al., 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)."},{"key":"e_1_3_2_1_2_1","first-page":"2425","article-title":"Vqa: Visual question answering","author":"Antol Stanislaw","year":"2015","unstructured":"Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. 2015. Vqa: Visual question answering. In CVPR. 2425-2433.","journal-title":"CVPR."},{"key":"e_1_3_2_1_3_1","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang et al. 2025. Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 (2025)."},{"key":"e_1_3_2_1_4_1","volume-title":"Feature-based prediction of streaming video QoE: Distortions, stalling and memory","author":"Bampis Christos G","year":"2018","unstructured":"Christos G Bampis and Alan C Bovik. 2018. Feature-based prediction of streaming video QoE: Distortions, stalling and memory. Elsevier Signal Processing: Image Communication, Vol. 68 (2018), 218-228."},{"key":"e_1_3_2_1_5_1","first-page":"5182","article-title":"Towards perceptually optimized adaptive video streaming-a realistic quality of experience database","volume":"30","author":"Bampis Christos G","year":"2021","unstructured":"Christos G Bampis, Zhi Li, Ioannis Katsavounidis, Te-Yuan Huang, Chaitanya Ekanadham, and Alan C Bovik. 2021. Towards perceptually optimized adaptive video streaming-a realistic quality of experience database. IEEE TIP, Vol. 30 (2021), 5182-5197.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_6_1","first-page":"5217","article-title":"Study of temporal effects on subjective video quality of experience","volume":"26","author":"Bampis Christos George","year":"2017","unstructured":"Christos George Bampis, Zhi Li, Anush Krishna Moorthy, Ioannis Katsavounidis, Anne Aaron, and Alan Conrad Bovik. 2017. Study of temporal effects on subjective video quality of experience. IEEE TIP, Vol. 26, 11 (2017), 5217-5231.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Zhe Chen Weiyun Wang Hao Tian Shenglong Ye Zhangwei Gao Erfei Cui Wenwen Tong Kongzhi Hu Jiapeng Luo Zheng Ma et al. 2024. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint arXiv:2404.16821 (2024).","DOI":"10.1007\/s11432-024-4231-5"},{"key":"e_1_3_2_1_8_1","first-page":"1","article-title":"A bayesian quality-of-experience model for adaptive streaming videos","volume":"18","author":"Duanmu Zhengfang","year":"2023","unstructured":"Zhengfang Duanmu, Wentao Liu, Diqi Chen, Zhuoran Li, Zhou Wang, Yizhou Wang, and Wen Gao. 2023. A bayesian quality-of-experience model for adaptive streaming videos. ACM TOMM, Vol. 18, 3s (2023), 1-24.","journal-title":"ACM TOMM"},{"key":"e_1_3_2_1_9_1","volume-title":"The Waterloo Streaming Quality-of-Experience Database-IV","author":"Duanmu Zhengfang","year":"2020","unstructured":"Zhengfang Duanmu, Wentao Liu, Zhuoran Li, Diqi Chen, Zhou Wang, Yizhou Wang, and Wen Gao. 2020. The Waterloo Streaming Quality-of-Experience Database-IV. IEEE Dataport (2020)."},{"key":"e_1_3_2_1_10_1","first-page":"1752","article-title":"Quality-of-experience of adaptive video streaming: Exploring the space of adaptations","author":"Duanmu Zhengfang","year":"2017","unstructured":"Zhengfang Duanmu, Kede Ma, and Zhou Wang. 2017. Quality-of-experience of adaptive video streaming: Exploring the space of adaptations. In ACM MM. 1752-1760.","journal-title":"ACM MM."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/TBC.2018.2822870"},{"key":"e_1_3_2_1_12_1","first-page":"154","volume-title":"IEEE JSTSP","volume":"11","author":"Duanmu Zhengfang","year":"2016","unstructured":"Zhengfang Duanmu, Kai Zeng, Kede Ma, Abdul Rehman, and Zhou Wang. 2016. A quality-of-experience index for streaming video. IEEE JSTSP, Vol. 11, 1 (2016), 154-166."},{"key":"e_1_3_2_1_13_1","first-page":"6202","article-title":"Slowfast networks for video recognition","author":"Feichtenhofer Christoph","year":"2019","unstructured":"Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. 2019. Slowfast networks for video recognition. In CVPR. 6202-6211.","journal-title":"CVPR."},{"key":"e_1_3_2_1_14_1","unstructured":"Chaoyou Fu Yuhan Dai Yondong Luo Lei Li Shuhuai Ren Renrui Zhang Zihan Wang Chenyu Zhou Yunhang Shen Mengdan Zhang et al. 2024. Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis. arXiv preprint arXiv:2405.21075 (2024)."},{"key":"e_1_3_2_1_15_1","unstructured":"Peng Gao Jiaming Han Renrui Zhang Ziyi Lin Shijie Geng Aojun Zhou Wei Zhang Pan Lu Conghui He Xiangyu Yue et al. 2023. Llama-adapter v2: Parameter-efficient visual instruction model. arXiv preprint arXiv:2304.15010 (2023)."},{"key":"e_1_3_2_1_16_1","first-page":"183","volume-title":"IEEE TCSVT","volume":"29","author":"Ghadiyaram Deepti","year":"2017","unstructured":"Deepti Ghadiyaram, Janice Pan, and Alan C Bovik. 2017a. A subjective and objective study of stalling events in mobile streaming videos. IEEE TCSVT, Vol. 29, 1 (2017), 183-197."},{"key":"e_1_3_2_1_17_1","first-page":"2061","volume-title":"IEEE TCSVT","volume":"28","author":"Ghadiyaram Deepti","year":"2017","unstructured":"Deepti Ghadiyaram, Janice Pan, Alan C Bovik, Anush Krishna Moorthy, Prasanjit Panda, and Kai-Chieh Yang. 2017b. In-capture mobile video distortions: A study of subjective behavior and objective algorithms. IEEE TCSVT, Vol. 28, 9 (2017), 2061-2077."},{"key":"e_1_3_2_1_18_1","first-page":"2105","article-title":"VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation","author":"He Xuan","year":"2024","unstructured":"Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, et al., 2024. VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation. In EMNLP. 2105-2123.","journal-title":"EMNLP."},{"key":"e_1_3_2_1_19_1","first-page":"1","article-title":"The Konstanz natural video database (KoNViD-1k)","author":"Hosu Vlad","year":"2017","unstructured":"Vlad Hosu, Franz Hahn, Mohsen Jenadeleh, Hanhe Lin, Hui Men, Tam\u00e1s Szir\u00e1nyi, Shujun Li, and Dietmar Saupe. 2017. The Konstanz natural video database (KoNViD-1k). In QoMEX. 1-6.","journal-title":"QoMEX."},{"key":"e_1_3_2_1_20_1","first-page":"4041","article-title":"KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment","volume":"29","author":"Hosu Vlad","year":"2020","unstructured":"Vlad Hosu, Hanhe Lin, Tamas Sziranyi, and Dietmar Saupe. 2020. KonIQ-10k: An ecologically valid database for deep learning of blind image quality assessment. IEEE TIP, Vol. 29 (2020), 4041-4056.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_21_1","volume-title":"AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception. arXiv preprint arXiv:2404.09624","author":"Huang Yipo","year":"2024","unstructured":"Yipo Huang, Xiangfei Sheng, Zhichao Yang, Quan Yuan, Zhichao Duan, Pengfei Chen, Leida Li, Weisi Lin, and Guangming Shi. 2024. AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception. arXiv preprint arXiv:2404.09624 (2024)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3418941"},{"key":"e_1_3_2_1_23_1","first-page":"10041","article-title":"Vila: Learning image aesthetics from user comments with vision-language pretraining","author":"Ke Junjie","year":"2023","unstructured":"Junjie Ke, Keren Ye, Jiahui Yu, Yonghui Wu, Peyman Milanfar, and Feng Yang. 2023. Vila: Learning image aesthetics from user comments with vision-language pretraining. In CVPR. 10041-10051.","journal-title":"CVPR."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2017.2685630"},{"key":"e_1_3_2_1_25_1","volume-title":"Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125","author":"Li Bohao","year":"2023","unstructured":"Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. 2023b. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125 (2023)."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3164467"},{"key":"e_1_3_2_1_27_1","volume-title":"Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326","author":"Li Bo","year":"2024","unstructured":"Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. 2024c. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326 (2024)."},{"key":"e_1_3_2_1_28_1","volume-title":"G-Refine: A General Quality Refiner for Text-to-Image Generation. arXiv preprint arXiv:2404.18343","author":"Li Chunyi","year":"2024","unstructured":"Chunyi Li, Haoning Wu, Hongkun Hao, Zicheng Zhang, Tengchaun Kou, Chaofeng Chen, Lei Bai, Xiaohong Liu, Weisi Lin, and Guangtao Zhai. 2024b. G-Refine: A General Quality Refiner for Text-to-Image Generation. arXiv preprint arXiv:2404.18343 (2024)."},{"key":"e_1_3_2_1_29_1","first-page":"2351","article-title":"Quality assessment of in-the-wild videos","author":"Li Dingquan","year":"2019","unstructured":"Dingquan Li, Tingting Jiang, and Ming Jiang. 2019. Quality assessment of in-the-wild videos. In ACM MM. 2351-2359.","journal-title":"ACM MM."},{"key":"e_1_3_2_1_30_1","first-page":"19730","article-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023a. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML. 19730-19742.","journal-title":"ICML."},{"key":"e_1_3_2_1_31_1","first-page":"22195","article-title":"Mvbench: A comprehensive multi-modal video understanding benchmark","author":"Li Kunchang","year":"2024","unstructured":"Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, et al., 2024a. Mvbench: A comprehensive multi-modal video understanding benchmark. In CVPR. 22195-22206.","journal-title":"CVPR."},{"key":"e_1_3_2_1_32_1","first-page":"1","article-title":"KADID-10k: A large-scale artificially distorted IQA database","author":"Lin Hanhe","year":"2019","unstructured":"Hanhe Lin, Vlad Hosu, and Dietmar Saupe. 2019. KADID-10k: A large-scale artificially distorted IQA database. In QoMEX. 1-3.","journal-title":"QoMEX."},{"key":"e_1_3_2_1_33_1","volume-title":"NIPS","volume":"36","author":"Liu Haotian","year":"2024","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2024. Visual instruction tuning. NIPS, Vol. 36 (2024)."},{"key":"e_1_3_2_1_34_1","first-page":"6695","article-title":"Ada-dqa: Adaptive diverse quality-aware feature acquisition for video quality assessment","author":"Liu Hongbo","year":"2023","unstructured":"Hongbo Liu, Mingda Wu, Kun Yuan, Ming Sun, Yansong Tang, Chuanchuan Zheng, Xing Wen, and Xiu Li. 2023. Ada-dqa: Adaptive diverse quality-aware feature acquisition for video quality assessment. In ACM MM. 6695-6704.","journal-title":"ACM MM."},{"key":"e_1_3_2_1_35_1","first-page":"546","article-title":"End-to-End Blind Quality Assessment of Compressed Videos Using Deep Neural Networks","author":"Liu Wentao","year":"2018","unstructured":"Wentao Liu, Zhengfang Duanmu, and Zhou Wang. 2018. End-to-End Blind Quality Assessment of Compressed Videos Using Deep Neural Networks.. In ACM MM. 546-554.","journal-title":"ACM MM."},{"key":"e_1_3_2_1_36_1","first-page":"22631","article-title":"The flan collection: Designing data and methods for effective instruction tuning","author":"Longpre Shayne","year":"2023","unstructured":"Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al., 2023. The flan collection: Designing data and methods for effective instruction tuning. In ICML. 22631-22648.","journal-title":"ICML."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4133-3"},{"key":"e_1_3_2_1_38_1","first-page":"289","article-title":"A completely blind video integrity oracle","volume":"25","author":"Mittal Anish","year":"2015","unstructured":"Anish Mittal, Michele A Saad, and Alan C Bovik. 2015. A completely blind video integrity oracle. IEEE TIP, Vol. 25, 1 (2015), 289-300.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_39_1","first-page":"209","volume-title":"IEEE SPL","volume":"20","author":"Mittal Anish","year":"2012","unstructured":"Anish Mittal, Rajiv Soundararajan, and Alan C Bovik. 2012. Making a ''completely blind'' image quality analyzer. IEEE SPL, Vol. 20, 3 (2012), 209-212."},{"key":"e_1_3_2_1_40_1","first-page":"3073","volume-title":"CVD2014-A database for evaluating no-reference video quality assessment algorithms. IEEE TIP","volume":"25","author":"Nuutinen Mikko","year":"2016","unstructured":"Mikko Nuutinen, Toni Virtanen, Mikko Vaahteranoksa, Tero Vuori, Pirkko Oittinen, and Jukka H\u00e4kkinen. 2016. CVD2014-A database for evaluating no-reference video quality assessment algorithms. IEEE TIP, Vol. 25, 7 (2016), 3073-3086."},{"key":"e_1_3_2_1_41_1","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., 2021. Learning transferable visual models from natural language supervision. In ICML. 8748-8763.","journal-title":"ICML."},{"key":"e_1_3_2_1_42_1","unstructured":"Alec Radford Jeffrey Wu Rewon Child David Luan Dario Amodei Ilya Sutskever et al. 2019. Language models are unsupervised multitask learners. OpenAI blog Vol. 1 8 (2019) 9."},{"key":"e_1_3_2_1_43_1","first-page":"1352","article-title":"Blind prediction of natural video quality","volume":"23","author":"Saad Michele A","year":"2014","unstructured":"Michele A Saad, Alan C Bovik, and Christophe Charrier. 2014. Blind prediction of natural video quality. IEEE TIP, Vol. 23, 3 (2014), 1352-1365.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_44_1","first-page":"612","article-title":"Large-scale study of perceptual video quality","volume":"28","author":"Sinno Zeina","year":"2018","unstructured":"Zeina Sinno and Alan Conrad Bovik. 2018. Large-scale study of perceptual video quality. IEEE TIP, Vol. 28, 2 (2018), 612-627.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_45_1","first-page":"856","article-title":"A deep learning based no-reference quality assessment model for ugc videos","author":"Sun Wei","year":"2022","unstructured":"Wei Sun, Xiongkuo Min, Wei Lu, and Guangtao Zhai. 2022. A deep learning based no-reference quality assessment model for ugc videos. In ACM MM. 856-865.","journal-title":"ACM MM."},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3385364"},{"key":"e_1_3_2_1_47_1","first-page":"4449","article-title":"UGC-VQA: Benchmarking blind video quality assessment for user generated content","volume":"30","author":"Tu Zhengzhong","year":"2021","unstructured":"Zhengzhong Tu, Yilin Wang, Neil Birkbeck, Balu Adsumilli, and Alan C Bovik. 2021a. UGC-VQA: Benchmarking blind video quality assessment for user generated content. IEEE TIP, Vol. 30 (2021), 4449-4464.","journal-title":"IEEE TIP"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/OJSP.2021.3090333"},{"key":"e_1_3_2_1_49_1","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge et al. 2024. Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 (2024)."},{"key":"e_1_3_2_1_50_1","first-page":"1","article-title":"YouTube UGC dataset for video compression research","author":"Wang Yilin","year":"2019","unstructured":"Yilin Wang, Sasi Inguva, and Balu Adsumilli. 2019. YouTube UGC dataset for video compression research. In MMSP. 1-5.","journal-title":"MMSP."},{"key":"e_1_3_2_1_51_1","first-page":"13435","article-title":"Rich features for perceptual quality assessment of UGC videos","author":"Wang Yilin","year":"2021","unstructured":"Yilin Wang, Junjie Ke, Hossein Talebi, Joong Gon Yim, Neil Birkbeck, Balu Adsumilli, Peyman Milanfar, and Feng Yang. 2021. Rich features for perceptual quality assessment of UGC videos. In CVPR. 13435-13444.","journal-title":"CVPR."},{"key":"e_1_3_2_1_52_1","first-page":"2763","article-title":"Modular Blind Video Quality Assessment","author":"Wen Wen","year":"2024","unstructured":"Wen Wen, Mu Li, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang, and Kede Ma. 2024. Modular Blind Video Quality Assessment. In CVPR. 2763-2772.","journal-title":"CVPR."},{"key":"e_1_3_2_1_53_1","first-page":"538","article-title":"Fast-vqa: Efficient end-to-end video quality assessment with fragment sampling","author":"Wu Haoning","year":"2022","unstructured":"Haoning Wu, Chaofeng Chen, Jingwen Hou, Liang Liao, Annan Wang, Wenxiu Sun, Qiong Yan, and Weisi Lin. 2022. Fast-vqa: Efficient end-to-end video quality assessment with fragment sampling. In ECCV. 538-554.","journal-title":"ECCV."},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3319332"},{"key":"e_1_3_2_1_55_1","first-page":"20144","article-title":"Exploring video quality assessment on user generated contents from aesthetic and technical perspectives","author":"Wu Haoning","year":"2023","unstructured":"Haoning Wu, Erli Zhang, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, and Weisi Lin. 2023b. Exploring video quality assessment on user generated contents from aesthetic and technical perspectives. In CVPR. 20144-20154.","journal-title":"CVPR."},{"key":"e_1_3_2_1_56_1","first-page":"25490","article-title":"Q-instruct: Improving low-level visual abilities for multi-modality foundation models","author":"Wu Haoning","year":"2024","unstructured":"Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, et al., 2024. Q-instruct: Improving low-level visual abilities for multi-modality foundation models. In CVPR. 25490-25500.","journal-title":"CVPR."},{"key":"e_1_3_2_1_57_1","volume-title":"Q-align: Teaching lmms for visual scoring via discrete text-defined levels. arXiv preprint arXiv:2312.17090","author":"Wu Haoning","year":"2023","unstructured":"Haoning Wu, Zicheng Zhang, Weixia Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Yixuan Gao, Annan Wang, Erli Zhang, Wenxiu Sun, et al., 2023c. Q-align: Teaching lmms for visual scoring via discrete text-defined levels. arXiv preprint arXiv:2312.17090 (2023)."},{"key":"e_1_3_2_1_58_1","first-page":"360","article-title":"Towards open-ended visual quality comparison","author":"Wu Haoning","year":"2025","unstructured":"Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, et al., 2025. Towards open-ended visual quality comparison. In ECCV. 360-377.","journal-title":"ECCV."},{"key":"e_1_3_2_1_59_1","unstructured":"An Yang Baosong Yang Binyuan Hui Bo Zheng Bowen Yu Chang Zhou Chengpeng Li Chengyuan Li Dayiheng Liu Fei Huang et al. 2024. Qwen2 technical report. arXiv preprint arXiv:2407.10671 (2024)."},{"key":"e_1_3_2_1_60_1","volume-title":"mplug-owl3: Towards long image-sequence understanding in multi-modal large language models. arXiv preprint arXiv:2408.04840","author":"Ye Jiabo","year":"2024","unstructured":"Jiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, and Jingren Zhou. 2024a. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models. arXiv preprint arXiv:2408.04840 (2024)."},{"key":"e_1_3_2_1_61_1","first-page":"13040","article-title":"mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration","author":"Ye Qinghao","year":"2024","unstructured":"Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, and Fei Huang. 2024b. mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration. In CVPR. 13040-13051.","journal-title":"CVPR."},{"key":"e_1_3_2_1_62_1","first-page":"14019","article-title":"Patch-vq:'patching up'the video quality problem","author":"Ying Zhenqiang","year":"2021","unstructured":"Zhenqiang Ying, Maniratnam Mandal, Deepti Ghadiyaram, and Alan Bovik. 2021. Patch-vq:'patching up'the video quality problem. In CVPR. 14019-14029.","journal-title":"CVPR."},{"key":"e_1_3_2_1_63_1","volume-title":"Depicting beyond scores: Advancing image quality assessment through multi-modal language models. arXiv preprint arXiv:2312.08962","author":"You Zhiyuan","year":"2023","unstructured":"Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, and Chao Dong. 2023. Depicting beyond scores: Advancing image quality assessment through multi-modal language models. arXiv preprint arXiv:2312.08962 (2023)."},{"key":"e_1_3_2_1_64_1","first-page":"11975","article-title":"Sigmoid loss for language image pre-training","author":"Zhai Xiaohua","year":"2023","unstructured":"Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. 2023. Sigmoid loss for language image pre-training. In CVPR. 11975-11986.","journal-title":"CVPR."},{"key":"e_1_3_2_1_65_1","first-page":"14071","article-title":"Blind image quality assessment via vision-language correspondence: A multitask learning perspective","author":"Zhang Weixia","year":"2023","unstructured":"Weixia Zhang, Guangtao Zhai, Ying Wei, Xiaokang Yang, and Kede Ma. 2023b. Blind image quality assessment via vision-language correspondence: A multitask learning perspective. In CVPR. 14071-14081.","journal-title":"CVPR."},{"key":"e_1_3_2_1_66_1","volume-title":"Video Instruction Tuning With Synthetic Data. arXiv preprint arXiv:2410.02713","author":"Zhang Yuanhan","year":"2024","unstructured":"Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, and Chunyuan Li. 2024a. Video Instruction Tuning With Synthetic Data. arXiv preprint arXiv:2410.02713 (2024)."},{"key":"e_1_3_2_1_67_1","doi-asserted-by":"crossref","unstructured":"Zicheng Zhang Ziheng Jia Haoning Wu Chunyi Li Zijian Chen Yingjie Zhou Wei Sun Xiaohong Liu Xiongkuo Min Weisi Lin et al. 2025. Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs. In CVPR.","DOI":"10.1109\/CVPR52734.2025.00307"},{"key":"e_1_3_2_1_68_1","volume-title":"Q-bench: A benchmark for multi-modal foundation models on low-level vision from single images to pairs","author":"Zhang Zicheng","year":"2024","unstructured":"Zicheng Zhang, Haoning Wu, Erli Zhang, Guangtao Zhai, and Weisi Lin. 2024b. Q-bench: A benchmark for multi-modal foundation models on low-level vision from single images to pairs. IEEE TPAMI (2024)."},{"key":"e_1_3_2_1_69_1","first-page":"1746","article-title":"MD-VQA: Multi-dimensional quality assessment for UGC live videos","author":"Zhang Zicheng","year":"2023","unstructured":"Zicheng Zhang, Wei Wu, Wei Sun, Danyang Tu, Wei Lu, Xiongkuo Min, Ying Chen, and Guangtao Zhai. 2023a. MD-VQA: Multi-dimensional quality assessment for UGC live videos. In CVPR. 1746-1755.","journal-title":"CVPR."},{"key":"e_1_3_2_1_70_1","volume-title":"Quality Assessment in the Era of Large Models: A Survey. arXiv preprint arXiv:2409.00031","author":"Zhang Zicheng","year":"2024","unstructured":"Zicheng Zhang, Yingjie Zhou, Chunyi Li, Baixuan Zhao, Xiaohong Liu, and Guangtao Zhai. 2024c. Quality Assessment in the Era of Large Models: A Survey. arXiv preprint arXiv:2409.00031 (2024)."},{"key":"e_1_3_2_1_71_1","volume-title":"MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding. arXiv preprint arXiv:2406.04264","author":"Zhou Junjie","year":"2024","unstructured":"Junjie Zhou, Yan Shu, Bo Zhao, Boya Wu, Shitao Xiao, Xi Yang, Yongping Xiong, Bo Zhang, Tiejun Huang, and Zheng Liu. 2024. MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding. arXiv preprint arXiv:2406.04264 (2024)."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","location":"Dublin Ireland","acronym":"MM '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3754696","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:11:44Z","timestamp":1765307504000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3754696"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":71,"alternative-id":["10.1145\/3746027.3754696","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3754696","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}