{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T12:06:55Z","timestamp":1768392415930,"version":"3.49.0"},"reference-count":79,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,9,21]],"date-time":"2025-09-21T00:00:00Z","timestamp":1758412800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,9,21]],"date-time":"2025-09-21T00:00:00Z","timestamp":1758412800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002858","name":"China Postdoctoral Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002858","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,9,21]]},"DOI":"10.1109\/mmsp64401.2025.11324217","type":"proceedings-article","created":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T20:55:15Z","timestamp":1768337715000},"page":"54-59","source":"Crossref","is-referenced-by-count":0,"title":["CompBench: Benchmarking and Comparing Image Generation with Large Multimodal Models"],"prefix":"10.1109","author":[{"given":"Jiarui","family":"Wang","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huiyu","family":"Duan","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuke","family":"Xing","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yiling","family":"Xu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guangtao","family":"Zhai","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiongkuo","family":"Min","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"issue":"3","key":"ref1","first-page":"8","article-title":"Improving image generation with better captions","volume":"2","author":"Betker","year":"2023","journal-title":"Computer Science"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01241"},{"key":"ref3","article-title":"Show-o: One single transformer to unify multimodal understanding and generation","author":"Xie","year":"2024"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3758204"},{"key":"ref5","article-title":"Deepseek-vl: Towards real-world vision-language understanding","author":"Lu","year":"2024"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"ref7","article-title":"Expanding performance boundaries of open-source multimodal models with model, data, and test-time scaling","author":"Chen","year":"2024"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3758207"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-99-9119-8_5"},{"key":"ref10","first-page":"15903","article-title":"Imagereward: Learning and evaluating human preferences for text-to-image generation","volume-title":"Proceedings of the Advances in Neural Information Processing Systems (NeurIPS)","volume":"36","author":"Xu"},{"key":"ref11","article-title":"Lmm4lmm: Benchmarking and evaluating large-multimodal image generation with lmms","author":"Wang","year":"2025"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2026.3651009"},{"key":"ref13","article-title":"Love: Benchmarking and evaluating text-to-video generation and video-to-text interpretation","author":"Wang","year":"2025"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICME59968.2025.11209987"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72646-0_21"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01758"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00200"},{"key":"ref18","first-page":"36652","article-title":"Pick-a-pic: An open dataset of user preferences for text-to-image generation","volume-title":"Proceedings of the Advances in Neural Information Processing Systems (NeurIPS)","volume":"36","author":"Kirstain"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICMEW59549.2023.00082"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3319020"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00636"},{"key":"ref22","first-page":"500","article-title":"Methodology for the subjective assessment of the quality of television pictures","author":"Series","year":"2012","journal-title":"Recommendation ITU-R BT"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3220404"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2012.2227726"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.133"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2012.2214050"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.224"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2018.2886771"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00372"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.595"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00538"},{"key":"ref32","article-title":"Llava-onevision: Easy visual task transfer","author":"Li","year":"2024"},{"key":"ref33","article-title":"mplug-owl3: Towards long image-sequence understanding in multi-modal large language models","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR)","author":"Ye"},{"key":"ref34","article-title":"Tdve-assessor: Benchmarking and evaluating the quality of text-driven video editing with lmms","author":"Wang","year":"2025"},{"key":"ref35","article-title":"Internlm-xcomposer: A vision-language large model for advanced text-image comprehension and composition","author":"Zhang","year":"2023"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3755700"},{"key":"ref37","article-title":"Qwen2.5-vl technical report","author":"Bai","year":"2025"},{"key":"ref38","article-title":"Llava-next-interleave: Tackling multi-image, video, and 3d in large multimodal models","author":"Li","year":"2024"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00305"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1267"},{"key":"ref41","first-page":"3","article-title":"Lora: Low-rank adaptation of large language models","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR)","volume":"1","author":"Hu"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2016.2637168"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2651374"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/QoMEX.2016.7498936"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TBC.2018.2816783"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2788206"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2585880"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2713945"},{"key":"ref49","first-page":"12888","article-title":"Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proceedings of the International conference on machine learning (ICML)","author":"Li"},{"key":"ref50","first-page":"25278","article-title":"Laion-5b: An open large-scale dataset for training next generation image-text models","volume-title":"Proceedings of the Advances in Neural Information Processing Systems (NeurIPS)","author":"Schuhmann"},{"key":"ref51","article-title":"Evalmuse-40k: A reliable and fine-grained benchmark with comprehensive human annotations for text-to-image generation model evaluation","author":"Han","year":"2024"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i2.25353"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2023.3270621"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01352"},{"key":"ref55","article-title":"Enhancing the reasoning ability of multimodal large language models via mixed preference optimization","author":"Wang","year":"2024"},{"key":"ref56","first-page":"2024","article-title":"Llama 3.2: Revolutionizing edge ai and vision with open, customizable models","volume":"20","author":"Meta","year":"2024","journal-title":"Meta AI Blog"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01354"},{"key":"ref58","article-title":"Q-align: Teaching lmms for visual scoring via discrete text-defined levels","author":"Wu","year":"2023"},{"key":"ref59","article-title":"Playground v2.5: Three insights towards enhancing aesthetic quality in text-to-image generation","author":"Li","year":"2024"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01467"},{"key":"ref61","article-title":"Flux","year":"2024"},{"key":"ref62","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","author":"Esser"},{"key":"ref63","article-title":"Kolors: Effective training of diffusion model for photorealistic text-to-image synthesis","author":"Team","year":"2024"},{"key":"ref64","first-page":"74","article-title":"Pixart-\u03c3: Weak-to-strong training of diffusion transformer for 4k text-to-image generation","volume-title":"Proceedings of the European Conference on Computer Vision (ECCV)","author":"Chen"},{"key":"ref65","article-title":"Kandinsky 3: Text-to-image synthesis for multifunctional generative framework","author":"Arkhipkin","year":"2024"},{"key":"ref66","article-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis","author":"Podell","year":"2023"},{"key":"ref67","article-title":"Emu3: Next-token prediction is all you need","author":"Wang","year":"2024"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1797"},{"key":"ref69","article-title":"Seed-x: Multimodal models with unified multi-granularity comprehension and generation","author":"Ge","year":"2024"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73004-7_5"},{"key":"ref71","article-title":"Hart: Efficient visual generation with hybrid autoregressive transformer","author":"Tang","year":"2024"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72920-1_22"},{"key":"ref74","article-title":"Ella: Equip diffusion models with llm for enhanced semantic alignment","author":"Hu","year":"2024"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01210"},{"key":"ref76","article-title":"Vila-u: a unified foundation model integrating visual understanding and generation","author":"Wu","year":"2024"},{"key":"ref77","first-page":"16083","article-title":"Any-to-any generation via composable diffusion","volume-title":"Proceedings of the Advances in Neural Information Processing Systems (NeurIPS)","volume":"36","author":"Tang"},{"key":"ref78","article-title":"Autoregressive model beats diffusion: Llama for scalable image generation","author":"Sun","year":"2024"},{"key":"ref79","article-title":"World model on million-length video and language with blockwise ringattention","author":"Liu","year":"2024"}],"event":{"name":"2025 IEEE International Workshop on Multimedia Signal Processing (MMSP)","location":"Beijing, China","start":{"date-parts":[[2025,9,21]]},"end":{"date-parts":[[2025,9,23]]}},"container-title":["2025 IEEE International Workshop on Multimedia Signal Processing (MMSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11324077\/11324018\/11324217.pdf?arnumber=11324217","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T07:01:44Z","timestamp":1768374104000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11324217\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,21]]},"references-count":79,"URL":"https:\/\/doi.org\/10.1109\/mmsp64401.2025.11324217","relation":{},"subject":[],"published":{"date-parts":[[2025,9,21]]}}}