{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T16:23:14Z","timestamp":1775578994359,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":59,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"the Postdoctoral Fellowship Program of CPSF","award":["GZC20231618"],"award-info":[{"award-number":["GZC20231618"]}]},{"name":"the China Postdoctoral Science Foundation","award":["2023TQ0212 and 2023M742298"],"award-info":[{"award-number":["2023TQ0212 and 2023M742298"]}]},{"name":"the National Natural Science Foundation of China","award":["62225112, 62101326, 62301316, and 62271312"],"award-info":[{"award-number":["62225112, 62101326, 62301316, and 62271312"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3681471","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:33Z","timestamp":1729925973000},"page":"7803-7812","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":27,"title":["Large Multi-modality Model Assisted AI-Generated Image Quality Assessment"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-2943-4610","authenticated-orcid":false,"given":"Puyi","family":"Wang","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8162-1949","authenticated-orcid":false,"given":"Wei","family":"Sun","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7247-7938","authenticated-orcid":false,"given":"Zicheng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5424-4284","authenticated-orcid":false,"given":"Jun","family":"Jia","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-6700-8110","authenticated-orcid":false,"given":"Yanwei","family":"Jiang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1466-6383","authenticated-orcid":false,"given":"Zhichao","family":"Zhang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5693-0416","authenticated-orcid":false,"given":"Xiongkuo","family":"Min","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8165-9322","authenticated-orcid":false,"given":"Guangtao","family":"Zhai","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)."},{"key":"e_1_3_2_1_2_1","volume-title":"Training Diffusion Models with Reinforcement Learning. In The Twelfth International Conference on Learning Representations.","author":"Black Kevin","year":"2023","unstructured":"Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine. 2023. Training Diffusion Models with Reinforcement Learning. In The Twelfth International Conference on Learning Representations."},{"key":"e_1_3_2_1_3_1","first-page":"00426","article-title":"PixArt-\u03b1","volume":"2310","author":"Chen Junsong","year":"2023","unstructured":"Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. 2023. PixArt-\u03b1: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis. 2310.00426.","journal-title":"Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis."},{"key":"e_1_3_2_1_4_1","unstructured":"DeepFloyd. 2023. IF-I-XL-v1.0. https:\/\/www.deepfloyd.ai."},{"key":"e_1_3_2_1_5_1","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly et al. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)."},{"key":"e_1_3_2_1_6_1","unstructured":"dreamlike art. 2023. dreamlike-photoreal-2.0. https:\/\/dreamlike.art."},{"key":"e_1_3_2_1_7_1","volume-title":"Perceptual Quality Assessment of Smartphone Photography. In IEEE Conference on Computer Vision and Pattern Recognition. 3677--3686","author":"Fang Yuming","year":"2020","unstructured":"Yuming Fang, Hanwei Zhu, Yan Zeng, Kede Ma, and Zhou Wang. 2020. Perceptual Quality Assessment of Smartphone Photography. In IEEE Conference on Computer Vision and Pattern Recognition. 3677--3686."},{"key":"e_1_3_2_1_8_1","volume-title":"LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model. arXiv preprint arXiv:2304.15010","author":"Gao Peng","year":"2023","unstructured":"Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, and Yu Qiao. 2023. LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model. arXiv preprint arXiv:2304.15010 (2023)."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00404"},{"key":"e_1_3_2_1_10_1","unstructured":"Yatharth Gupta Vishnu V. Jaddipal Harish Prabhala Sayak Paul and Patrick Von Platen. 2024. Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss. 2401.02677."},{"key":"e_1_3_2_1_11_1","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2015. Deep Residual Learning for Image Recognition. arxiv: 1512.03385 [cs.CV]"},{"key":"e_1_3_2_1_12_1","volume-title":"Denoising Diffusion Probabilistic Models. arxiv","author":"Ho Jonathan","year":"2006","unstructured":"Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising Diffusion Probabilistic Models. arxiv: 2006.11239 [cs.LG]"},{"key":"e_1_3_2_1_13_1","unstructured":"David Holz. 2023. Midjourney. https:\/\/www.midjourney.com."},{"key":"e_1_3_2_1_14_1","volume-title":"Multilayer feedforward networks are universal approximators. Neural networks","author":"Hornik Kurt","year":"1989","unstructured":"Kurt Hornik, Maxwell Stinchcombe, and Halbert White. 1989. Multilayer feedforward networks are universal approximators. Neural networks, Vol. 2, 5 (1989), 359--366."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2967829"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Le Kang Peng Ye Yi Li and David Doermann. 2014. Convolutional neural networks for no-reference image quality assessment. In CVPR. 1733--1740.","DOI":"10.1109\/CVPR.2014.224"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00510"},{"key":"e_1_3_2_1_18_1","unstructured":"Chunyuan Li Zhe Gan Zhengyuan Yang Jianwei Yang Linjie Li Lijuan Wang and Jianfeng Gao. 2023. Multimodal Foundation Models: From Specialists to General-Purpose Assistants. arxiv: 2309.10020 [cs.CV]"},{"key":"e_1_3_2_1_19_1","unstructured":"Chunyi Li Tengchuan Kou Yixuan Gao Yuqin Cao Wei Sun Zicheng Zhang Yingjie Zhou Zhichao Zhang Weixia Zhang Haoning Wu Xiaohong Liu Xiongkuo Min and Guangtao Zhai. 2024. AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment. arxiv: 2404.03407 [cs.CV]"},{"key":"e_1_3_2_1_20_1","volume-title":"IEEE International Symposium on Broadband Multimedia Systems and Broadcasting.","author":"Li Chunyi","year":"2022","unstructured":"Chunyi Li, Haoyang Li, Ning Yang, and Dazhi He. 2022. A PBCH Reception Algorithm in 5G Broadcasting. In IEEE International Symposium on Broadband Multimedia Systems and Broadcasting."},{"key":"e_1_3_2_1_21_1","unstructured":"Chunyi Li Haoning Wu Zicheng Zhang Hongkun Hao Kaiwei Zhang Lei Bai Xiaohong Liu Xiongkuo Min Weisi Lin and Guangtao Zhai. 2024. Q-Refine: A Perceptual Quality Refiner for AI-Generated Image. arxiv: 2401.01117"},{"key":"e_1_3_2_1_22_1","unstructured":"Chunyi Li Zicheng Zhang Haoning Wu Wei Sun Xiongkuo Min Xiaohong Liu Guangtao Zhai and Weisi Lin. 2023. AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment. arxiv: 2306.04717 [cs.CV]"},{"key":"e_1_3_2_1_23_1","unstructured":"Haotian Liu Chunyuan Li Qingyang Wu and Yong Jae Lee. 2023. Visual Instruction Tuning."},{"key":"e_1_3_2_1_24_1","unstructured":"Simian Luo Yiqin Tan Suraj Patil Daniel Gu Patrick von Platen Apolin\u00e1rio Passos Longbo Huang Jian Li and Hang Zhao. 2023. LCM-LoRA: A Universal Stable-Diffusion Acceleration Module. arxiv: 2311.05556 [cs.CV]"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3185316"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2012.2214050"},{"key":"e_1_3_2_1_27_1","volume-title":"Making a completely blind\u00e2? image quality analyzer","author":"Mittal Anish","year":"2012","unstructured":"Anish Mittal, Rajiv Soundararajan, and Alan C Bovik. 2012. Making a completely blind\u00e2? image quality analyzer. IEEE Signal processing letters, Vol. 20, 3 (2012), 209--212."},{"key":"e_1_3_2_1_28_1","volume-title":"Blind image quality assessment: From natural scene statistics to perceptual quality","author":"Moorthy Anush Krishna","year":"2011","unstructured":"Anush Krishna Moorthy and Alan Conrad Bovik. 2011. Blind image quality assessment: From natural scene statistics to perceptual quality. IEEE transactions on Image Processing, Vol. 20, 12 (2011), 3350--3364."},{"key":"e_1_3_2_1_29_1","volume-title":"GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. In International Conference on Machine Learning. PMLR, 16784--16804","author":"Nichol Alexander Quinn","year":"2022","unstructured":"Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob Mcgrew, Ilya Sutskever, and Mark Chen. 2022. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. In International Conference on Machine Learning. PMLR, 16784--16804."},{"key":"e_1_3_2_1_31_1","unstructured":"PlaygroundAI. 2023. playground-v2--1024px-aesthetic. https:\/\/playground.com."},{"key":"e_1_3_2_1_32_1","unstructured":"Bowen Qu Haohui Li and Wei Gao. 2024. Bringing Textual Prompt to AI-Generated Image Quality Assessment. arxiv: 2403.18714 [cs.CV]"},{"key":"e_1_3_2_1_33_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. arxiv: 2103.00020 [cs.CV]"},{"key":"e_1_3_2_1_34_1","unstructured":"Aditya Ramesh Prafulla Dhariwal Alex Nichol Casey Chu and Mark Chen. 2022. Hierarchical Text-Conditional Image Generation with CLIP Latents. 2204.06125."},{"key":"e_1_3_2_1_35_1","volume-title":"International Conference on Machine Learning. PMLR, 8821--8831","author":"Ramesh Aditya","year":"2021","unstructured":"Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. 2021. Zero-shot text-to-image generation. In International Conference on Machine Learning. PMLR, 8821--8831."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_2_1_37_1","unstructured":"Robin Rombach Andreas Blattmann and Bj\u00f6rn Ommer. 2022. Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models. 2207.13038."},{"key":"e_1_3_2_1_38_1","volume-title":"Blind image quality assessment: A natural scene statistics approach in the DCT domain","author":"Saad Michele A","year":"2012","unstructured":"Michele A Saad, Alan C Bovik, and Christophe Charrier. 2012. Blind image quality assessment: A natural scene statistics approach in the DCT domain. IEEE transactions on Image Processing, Vol. 21, 8 (2012), 3339--3352."},{"key":"e_1_3_2_1_39_1","unstructured":"Karen Simonyan and Andrew Zisserman. 2015. Very Deep Convolutional Networks for Large-Scale Image Recognition. arxiv: 1409.1556 [cs.CV]"},{"key":"e_1_3_2_1_40_1","volume-title":"The 32nd British Machine Vision Conference.","author":"Su Shaolin","year":"2021","unstructured":"Shaolin Su, Vlad Hosu, Hanhe Lin, Yanning Zhang, and Dietmar Saupe. 2021. Koniq: Boosting no-reference image quality assessment in the wild by jointly predicting image quality and defects. In The 32nd British Machine Vision Conference."},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00372"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2023.3270621"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Christian Szegedy Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke and Andrew Rabinovich. 2014. Going Deeper with Convolutions. arxiv: 1409.4842 [cs.CV]","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i2.25353"},{"key":"e_1_3_2_1_45_1","unstructured":"Haoning Wu Zicheng Zhang Erli Zhang Chaofeng Chen Liang Liao Annan Wang Chunyi Li Wenxiu Sun Qiong Yan Guangtao Zhai et al. 2023. Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision. arxiv: 2309.14181"},{"key":"e_1_3_2_1_46_1","volume-title":"Q-instruct: Improving low-level visual abilities for multi-modality foundation models. arxiv: 2311.06783","author":"Wu Haoning","year":"2023","unstructured":"Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, et al. 2023. Q-instruct: Improving low-level visual abilities for multi-modality foundation models. arxiv: 2311.06783"},{"key":"e_1_3_2_1_47_1","unstructured":"Haoning Wu Zicheng Zhang Weixia Zhang Chaofeng Chen Liang Liao Chunyi Li Yixuan Gao Annan Wang Erli Zhang Wenxiu Sun et al. 2023. Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels. arxiv: 2312.17090"},{"key":"e_1_3_2_1_48_1","unstructured":"Haoning Wu Hanwei Zhu Zicheng Zhang Erli Zhang Chaofeng Chen Liang Liao Chunyi Li Annan Wang Wenxiu Sun Qiong Yan Xiaohong Liu Guangtao Zhai Shiqi Wang and Weisi Lin. 2024. Towards Open-ended Visual Quality Comparison. arXiv preprint arXiv:2402.16641."},{"key":"e_1_3_2_1_49_1","unstructured":"Tianhe Wu Kede Ma Jie Liang Yujiu Yang and Lei Zhang. 2024. A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment. arxiv: 2403.10854 [cs.CV]"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00143"},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW56347.2022.00126"},{"key":"e_1_3_2_1_52_1","unstructured":"Qinghao Ye Haiyang Xu Jiabo Ye Ming Yan Anwen Hu Haowei Liu Qi Qian Ji Zhang Fei Huang and Jingren Zhou. 2023. mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration. arxiv: 2311.04257 [cs.CL]"},{"key":"e_1_3_2_1_53_1","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 22388--22397","author":"Yi Ran","unstructured":"Ran Yi, Haoyuan Tian, Zhihao Gu, Yu-Kun Lai, and Paul L. Rosin. 2023. Towards Artistic Image Aesthetics Assessment: A Large-Scale Dataset and a New Method. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 22388--22397."},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP42928.2021.9506075"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-019-2757-1"},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2015.2426416"},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2018.2886771"},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3096528"},{"key":"e_1_3_2_1_59_1","unstructured":"Zicheng Zhang Haoning Wu Zhongpeng Ji Chunyi Li Erli Zhang Wei Sun Xiaohong Liu Xiongkuo Min Fengyu Sun Shangling Jui et al. 2023. Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models. arxiv: 2312.15300"},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.1109\/TBC.2023.3345656"}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","location":"Melbourne VIC Australia","acronym":"MM '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3681471","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3681471","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T00:57:47Z","timestamp":1750294667000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3681471"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":59,"alternative-id":["10.1145\/3664647.3681471","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3681471","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}