{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,23]],"date-time":"2025-11-23T06:17:43Z","timestamp":1763878663252,"version":"3.28.0"},"reference-count":45,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,7,15]],"date-time":"2024-07-15T00:00:00Z","timestamp":1721001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,7,15]],"date-time":"2024-07-15T00:00:00Z","timestamp":1721001600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003399","name":"Science and Technology Commission of Shanghai Municipality","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003399","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,7,15]]},"DOI":"10.1109\/icme57554.2024.10687711","type":"proceedings-article","created":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T17:24:16Z","timestamp":1727717056000},"page":"1-6","source":"Crossref","is-referenced-by-count":1,"title":["Artistry in Pixels: FVS - A Framework for Evaluating Visual Elegance and Sentiment Resonance in Generated Images"],"prefix":"10.1109","author":[{"given":"Weijie","family":"Li","sequence":"first","affiliation":[{"name":"East China Normal University,Shanghai,China"}]},{"given":"Luwei","family":"Xiao","sequence":"additional","affiliation":[{"name":"East China Normal University,Shanghai,China"}]},{"given":"Xingjiao","family":"Wu","sequence":"additional","affiliation":[{"name":"Fudan University,Shanghai,China"}]},{"given":"Tianlong","family":"Ma","sequence":"additional","affiliation":[{"name":"East China Normal University,Shanghai,China"}]},{"given":"Jiabao","family":"Zhao","sequence":"additional","affiliation":[{"name":"East China Normal University,Shanghai,China"}]},{"given":"Liang","family":"He","sequence":"additional","affiliation":[{"name":"East China Normal University,Shanghai,China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"author":"Ramesh","key":"ref2","article-title":"Hierarchical text-conditional image generation with clip latents"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01370"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-20893-6_7"},{"article-title":"Adapting pretrained vision-language foundational models to medical imaging domains","year":"2022","author":"Chambon","key":"ref5"},{"key":"ref6","article-title":"Geneval: An object-focused framework for evaluating text-to-image alignment","volume":"36","author":"Ghosh","year":"2024","journal-title":"NeurIPS"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00200"},{"key":"ref8","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","volume":"30","author":"Heusel","year":"2017","journal-title":"NeurIPS"},{"key":"ref9","article-title":"Improved techniques for training gans","volume":"29","author":"Salimans","year":"2016","journal-title":"NeurIPS"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.595"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6247954"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2831899"},{"key":"ref13","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"ICML","author":"Radford"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN55064.2022.9892027"},{"key":"ref15","article-title":"Generative adversarial nets","volume":"27","author":"Goodfellow","year":"2014","journal-title":"NeurIPS"},{"key":"ref16","first-page":"8821","article-title":"Zero-shot text-to-image generation","volume-title":"ICML","author":"Ramesh"},{"key":"ref17","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume":"35","author":"Saharia","year":"2022","journal-title":"NeurIPS"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00580"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01556"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00474"},{"article-title":"Image composition assessment with saliency-augmented multi-pattern pooling","volume-title":"BMVC","author":"Zhang","key":"ref24"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01996"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2723009"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i4.25577"},{"key":"ref28","article-title":"Simulacra aesthetic captions","volume-title":"Tech. Rep. Version 1.0, Stability AI","author":"Pressman","year":"2022"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413695"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413834"},{"article-title":"Very deep convolutional networks for large-scale image recognition","volume-title":"ICLR","author":"Simonyan","key":"ref31"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2017.45"},{"article-title":"Roberta: A robustly optimized bert pretraining approach","year":"2019","author":"Liu","key":"ref33"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/S17-2088"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2023.103508"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102304"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00968"},{"article-title":"Coca: Contrastive captioners are image-text foundation models","year":"2022","author":"Yu","key":"ref38"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00556"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.51"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_40"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.5244\/C.28.122"},{"issue":"197-219","key":"ref44","first-page":"2","article-title":"Emotions: A general psychoevolutionary theory","volume":"1984","author":"Plutchik","year":"1984","journal-title":"Approaches to emotion"},{"article-title":"Lora: Low-rank adaptation of large language models","volume-title":"ICLR","author":"Hu","key":"ref45"}],"event":{"name":"2024 IEEE International Conference on Multimedia and Expo (ICME)","start":{"date-parts":[[2024,7,15]]},"location":"Niagara Falls, ON, Canada","end":{"date-parts":[[2024,7,19]]}},"container-title":["2024 IEEE International Conference on Multimedia and Expo (ICME)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10685847\/10687354\/10687711.pdf?arnumber=10687711","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T05:56:36Z","timestamp":1727762196000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10687711\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,7,15]]},"references-count":45,"URL":"https:\/\/doi.org\/10.1109\/icme57554.2024.10687711","relation":{},"subject":[],"published":{"date-parts":[[2024,7,15]]}}}