{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T05:04:39Z","timestamp":1750309479317,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":53,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3685511","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:49Z","timestamp":1729925989000},"page":"11137-11145","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["OpenLEAF: A Novel Benchmark for Open-Domain Interleaved Image-Text Generation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1402-8288","authenticated-orcid":false,"given":"Jie","family":"An","sequence":"first","affiliation":[{"name":"University of Rochester, Rochester, NY, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5808-0889","authenticated-orcid":false,"given":"Zhengyuan","family":"Yang","sequence":"additional","affiliation":[{"name":"Microsoft, Redmond, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0867-8863","authenticated-orcid":false,"given":"Linjie","family":"Li","sequence":"additional","affiliation":[{"name":"Microsoft, Redmond, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3156-4429","authenticated-orcid":false,"given":"Jianfeng","family":"Wang","sequence":"additional","affiliation":[{"name":"Microsoft, Redmond, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8944-1336","authenticated-orcid":false,"given":"Kevin","family":"Lin","sequence":"additional","affiliation":[{"name":"Microsoft, Redmond, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5894-7828","authenticated-orcid":false,"given":"Zicheng","family":"Liu","sequence":"additional","affiliation":[{"name":"AMD, Bellevue, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5705-876X","authenticated-orcid":false,"given":"Lijuan","family":"Wang","sequence":"additional","affiliation":[{"name":"Microsoft, Redmond, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4516-9729","authenticated-orcid":false,"given":"Jiebo","family":"Luo","sequence":"additional","affiliation":[{"name":"University of Rochester, Rochester, NY, USA"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Bring Metric Functions into Diffusion Models. arXiv preprint arXiv:2401.02414","author":"An Jie","year":"2024","unstructured":"Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan Wang, and Jiebo Luo. 2024. Bring Metric Functions into Diffusion Models. arXiv preprint arXiv:2401.02414 (2024)."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Federico Betti Jacopo Staiano Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara and Nicu Sebe. 2023. Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation. In ACM Multimedia. 9306--9312.","DOI":"10.1145\/3581783.3612706"},{"key":"e_1_3_2_1_3_1","volume-title":"Training diffusion models with reinforcement learning. arXiv preprint arXiv:2305.13301","author":"Black Kevin","year":"2023","unstructured":"Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine. 2023. Training diffusion models with reinforcement learning. arXiv preprint arXiv:2305.13301 (2023)."},{"key":"e_1_3_2_1_4_1","volume-title":"Learning to Evaluate the Artness of AI-generated Images. TMM","author":"Chen Junyu","year":"2024","unstructured":"Junyu Chen, Jie An, Hanjia Lyu, Christopher Kanan, and Jiebo Luo. 2024. Learning to Evaluate the Artness of AI-generated Images. TMM (2024)."},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"crossref","unstructured":"Kuan-Ta Chen Chen-Chi Wu Yu-Chun Chang and Chin-Laung Lei. 2009. A crowdsourceable QoE evaluation framework for multimedia content. In ACM Multimedia.","DOI":"10.1145\/1631272.1631339"},{"key":"e_1_3_2_1_6_1","volume-title":"X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models. arXiv preprint arXiv:2305.10843","author":"Chen Yixiong","year":"2023","unstructured":"Yixiong Chen, Li Liu, and Chris Ding. 2023. X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models. arXiv preprint arXiv:2305.10843 (2023)."},{"key":"e_1_3_2_1_7_1","volume-title":"Can Large Language Models Be an Alternative to Human Evaluations? arXiv preprint arXiv:2305.01937","author":"Chiang Cheng-Han","year":"2023","unstructured":"Cheng-Han Chiang and Hung-yi Lee. 2023. Can Large Language Models Be an Alternative to Human Evaluations? arXiv preprint arXiv:2305.01937 (2023)."},{"key":"e_1_3_2_1_8_1","unstructured":"Runpei Dong Chunrui Han Yuang Peng Zekun Qi Zheng Ge Jinrong Yang Liang Zhao Jianjian Sun Hongyu Zhou Haoran Wei et al. 2023. DreamLLM: Synergistic Multimodal Comprehension and Creation. arXiv preprint arXiv:2309.11499 (2023)."},{"key":"e_1_3_2_1_9_1","volume-title":"Gptscore: Evaluate as you desire. arXiv preprint arXiv:2302.04166","author":"Fu Jinlan","year":"2023","unstructured":"Jinlan Fu, See-Kiong Ng, Zhengbao Jiang, and Pengfei Liu. 2023. Gptscore: Evaluate as you desire. arXiv preprint arXiv:2302.04166 (2023)."},{"key":"e_1_3_2_1_10_1","unstructured":"Google. 2023. Bard. https:\/\/bard.google.com. Accessed: 2023-10-09."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01436"},{"key":"e_1_3_2_1_12_1","volume-title":"T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. arXiv preprint arXiv:2307.06350","author":"Huang Kaiyi","year":"2023","unstructured":"Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. 2023. T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. arXiv preprint arXiv:2307.06350 (2023)."},{"key":"e_1_3_2_1_13_1","volume-title":"Domain-Scalable Unpaired Image Translation via Latent Space Anchoring. PAMI","author":"Huang Siyu","year":"2023","unstructured":"Siyu Huang, Jie An, Donglai Wei, Zudi Lin, Jiebo Luo, and Hanspeter Pfister. 2023. Domain-Scalable Unpaired Image Translation via Latent Space Anchoring. PAMI (2023)."},{"key":"e_1_3_2_1_14_1","volume-title":"Generating images with multimodal language models. arXiv preprint arXiv:2305.17216","author":"Koh Jing Yu","year":"2023","unstructured":"Jing Yu Koh, Daniel Fried, and Ruslan Salakhutdinov. 2023. Generating images with multimodal language models. arXiv preprint arXiv:2305.17216 (2023)."},{"key":"e_1_3_2_1_15_1","volume-title":"Multimodal Foundation Models: From Specialists to General-Purpose Assistants. arXiv preprint arXiv:2309.10020","author":"Li Chunyuan","year":"2023","unstructured":"Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, and Jianfeng Gao. 2023. Multimodal Foundation Models: From Specialists to General-Purpose Assistants. arXiv preprint arXiv:2309.10020 (2023)."},{"key":"e_1_3_2_1_16_1","volume-title":"AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment. arXiv preprint arXiv:2306.04717","author":"Li Chunyi","year":"2023","unstructured":"Chunyi Li, Zicheng Zhang, Haoning Wu, Wei Sun, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, and Weisi Lin. 2023. AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment. arXiv preprint arXiv:2306.04717 (2023)."},{"key":"e_1_3_2_1_17_1","volume-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597 (2023)."},{"key":"e_1_3_2_1_18_1","volume-title":"Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML.","author":"Li Junnan","year":"2022","unstructured":"Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML."},{"key":"e_1_3_2_1_19_1","volume-title":"Storygan: A sequential conditional gan for story visualization. In CVPR.","author":"Li Yitong","year":"2019","unstructured":"Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, and Jianfeng Gao. 2019. Storygan: A sequential conditional gan for story visualization. In CVPR."},{"key":"e_1_3_2_1_20_1","volume-title":"Mm-vid: Advancing video understanding with gpt-4v (ision). arXiv preprint arXiv:2310.19773","author":"Lin Kevin","year":"2023","unstructured":"Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, et al. 2023. Mm-vid: Advancing video understanding with gpt-4v (ision). arXiv preprint arXiv:2310.19773 (2023)."},{"key":"e_1_3_2_1_21_1","volume-title":"VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores. arXiv preprint arXiv:2306.01879","author":"Lin Zhiqiu","year":"2023","unstructured":"Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, and Deva Ramanan. 2023. VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores. arXiv preprint arXiv:2306.01879 (2023)."},{"key":"e_1_3_2_1_22_1","volume-title":"Intelligent Grimm-Open-ended Visual Storytelling via Latent Diffusion Models. arXiv preprint arXiv:2306.00973","author":"Liu Chang","year":"2023","unstructured":"Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, and Weidi Xie. 2023. Intelligent Grimm-Open-ended Visual Storytelling via Latent Diffusion Models. arXiv preprint arXiv:2306.00973 (2023)."},{"key":"e_1_3_2_1_23_1","volume-title":"Visual instruction tuning. arXiv preprint arXiv:2304.08485","author":"Liu Haotian","year":"2023","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2023. Visual instruction tuning. arXiv preprint arXiv:2304.08485 (2023)."},{"key":"e_1_3_2_1_24_1","volume-title":"Gpteval: Nlg evaluation using gpt-4 with better human alignment. arXiv preprint arXiv:2303.16634","author":"Liu Yang","year":"2023","unstructured":"Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, and Chenguang Zhu. 2023. Gpteval: Nlg evaluation using gpt-4 with better human alignment. arXiv preprint arXiv:2303.16634 (2023)."},{"key":"e_1_3_2_1_25_1","volume-title":"Xin Eric Wang, and William Yang Wang","author":"Lu Yujie","year":"2023","unstructured":"Yujie Lu, Xianjun Yang, Xiujun Li, Xin Eric Wang, and William Yang Wang. 2023. LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation. arXiv preprint arXiv:2305.11116 (2023)."},{"key":"e_1_3_2_1_26_1","volume-title":"Improving generation and evaluation of visual stories via semantic consistency. arXiv preprint arXiv:2105.10026","author":"Maharana Adyasha","year":"2021","unstructured":"Adyasha Maharana, Darryl Hannan, and Mohit Bansal. 2021. Improving generation and evaluation of visual stories via semantic consistency. arXiv preprint arXiv:2105.10026 (2021)."},{"key":"e_1_3_2_1_27_1","volume-title":"Storydall-e: Adapting pretrained text-to-image transformers for story continuation. In ECCV.","author":"Maharana Adyasha","year":"2022","unstructured":"Adyasha Maharana, Darryl Hannan, and Mohit Bansal. 2022. Storydall-e: Adapting pretrained text-to-image transformers for story continuation. In ECCV."},{"key":"e_1_3_2_1_28_1","volume-title":"Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073","author":"Meng Chenlin","year":"2021","unstructured":"Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. 2021. Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073 (2021)."},{"key":"e_1_3_2_1_29_1","unstructured":"Microsoft 2023. BingChat. https:\/\/www.microsoft.com\/en-us\/edge\/features\/bing-chat. Accessed: 2023-10-09."},{"key":"e_1_3_2_1_30_1","unstructured":"OpenAI. 2023. ChatGPT."},{"key":"e_1_3_2_1_32_1","volume-title":"https:\/\/cdn.openai.com\/papers\/GPTV_System_Card.pdf","author":"System Card AI.","year":"2023","unstructured":"OpenAI. 2023. GPT-4V(ision) System Card. (2023). https:\/\/cdn.openai.com\/papers\/GPTV_System_Card.pdf"},{"key":"e_1_3_2_1_33_1","unstructured":"OpenAI. 2023 d. Improving Image Generation with Better Captions. (2023). https:\/\/cdn.openai.com\/papers\/dall-e-3.pdf"},{"key":"e_1_3_2_1_34_1","volume-title":"Synthesizing coherent story with auto-regressive latent diffusion models. arXiv preprint arXiv:2211.10950","author":"Pan Xichen","year":"2022","unstructured":"Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, and Wenhu Chen. 2022. Synthesizing coherent story with auto-regressive latent diffusion models. arXiv preprint arXiv:2211.10950 (2022)."},{"key":"e_1_3_2_1_35_1","unstructured":"Yingwei Pan Zhaofan Qiu Ting Yao Houqiang Li and Tao Mei. 2017. To create what you tell: Generating videos from captions. In ACM Multimedia."},{"key":"e_1_3_2_1_36_1","volume-title":"SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. arXiv preprint arXiv:2307.01952","author":"Podell Dustin","year":"2023","unstructured":"Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas M\u00fcller, Joe Penna, and Robin Rombach. 2023. SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. arXiv preprint arXiv:2307.01952 (2023)."},{"key":"e_1_3_2_1_37_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In ICML."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Robin Rombach Andreas Blattmann Dominik Lorenz Patrick Esser and Bj\u00f6rn Ommer. 2022. High-resolution image synthesis with latent diffusion models. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_2_1_39_1","volume-title":"Hugginggpt: Solving ai tasks with chatgpt and its friends in huggingface. arXiv preprint arXiv:2303.17580","author":"Shen Yongliang","year":"2023","unstructured":"Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, and Yueting Zhuang. 2023. Hugginggpt: Solving ai tasks with chatgpt and its friends in huggingface. arXiv preprint arXiv:2303.17580 (2023)."},{"key":"e_1_3_2_1_40_1","volume-title":"Generative pretraining in multimodality. arXiv preprint arXiv:2307.05222","author":"Sun Quan","year":"2023","unstructured":"Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. 2023. Generative pretraining in multimodality. arXiv preprint arXiv:2307.05222 (2023)."},{"key":"e_1_3_2_1_41_1","volume-title":"Vipergpt: Visual inference via python execution for reasoning. arXiv preprint arXiv:2303.08128","author":"Sur\u00eds D\u00eddac","year":"2023","unstructured":"D\u00eddac Sur\u00eds, Sachit Menon, and Carl Vondrick. 2023. Vipergpt: Visual inference via python execution for reasoning. arXiv preprint arXiv:2303.08128 (2023)."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"crossref","unstructured":"Antonio Torralba and Alexei A Efros. 2011. Unbiased look at dataset bias. In CVPR.","DOI":"10.1109\/CVPR.2011.5995347"},{"key":"e_1_3_2_1_43_1","volume-title":"Design-bench: Benchmarks for data-driven offline model-based optimization. In ICML.","author":"Trabucco Brandon","year":"2022","unstructured":"Brandon Trabucco, Xinyang Geng, Aviral Kumar, and Sergey Levine. 2022. Design-bench: Benchmarks for data-driven offline model-based optimization. In ICML."},{"key":"e_1_3_2_1_44_1","volume-title":"Visual chatgpt: Talking, drawing and editing with visual foundation models. arXiv preprint arXiv:2303.04671","author":"Wu Chenfei","year":"2023","unstructured":"Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, and Nan Duan. 2023. Visual chatgpt: Talking, drawing and editing with visual foundation models. arXiv preprint arXiv:2303.04671 (2023)."},{"key":"e_1_3_2_1_45_1","volume-title":"Human preference score v2: A solid benchmark for evaluating human preferences of text-to-image synthesis. arXiv preprint arXiv:2306.09341","author":"Wu Xiaoshi","year":"2023","unstructured":"Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, and Hongsheng Li. 2023. Human preference score v2: A solid benchmark for evaluating human preferences of text-to-image synthesis. arXiv preprint arXiv:2306.09341 (2023)."},{"key":"e_1_3_2_1_46_1","volume-title":"The Dawn of LMMs: Preliminary Explorations with GPT-4V (ision). arXiv preprint arXiv:2309.17421","author":"Yang Zhengyuan","year":"2023","unstructured":"Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, and Lijuan Wang. 2023. The Dawn of LMMs: Preliminary Explorations with GPT-4V (ision). arXiv preprint arXiv:2309.17421 (2023)."},{"key":"e_1_3_2_1_47_1","volume-title":"MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action. arXiv preprint arXiv:2303.11381","author":"Zhengyuan","year":"2023","unstructured":"Zhengyuan Yang*, Linjie Li*, Jianfeng Wang*, Kevin Lin*, Ehsan Azarnasab*, Faisal Ahmed*, Zicheng Liu, Ce Liu, Michael Zeng, and Lijuan Wang. 2023. MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action. arXiv preprint arXiv:2303.11381 (2023)."},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"crossref","unstructured":"Dan Zeng Han Liu Hui Lin and Shiming Ge. 2020. Talking face generation with expression-tailored generative adversarial network. In ACM Multimedia.","DOI":"10.1145\/3394171.3413844"},{"key":"e_1_3_2_1_49_1","volume-title":"Understanding deep learning (still) requires rethinking generalization. Commun. ACM","author":"Zhang Chiyuan","year":"2021","unstructured":"Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. 2021. Understanding deep learning (still) requires rethinking generalization. Commun. ACM (2021)."},{"key":"e_1_3_2_1_50_1","volume-title":"Adding conditional control to text-to-image diffusion models. arXiv preprint arXiv:2302.05543","author":"Zhang Lvmin","year":"2023","unstructured":"Lvmin Zhang and Maneesh Agrawala. 2023. Adding conditional control to text-to-image diffusion models. arXiv preprint arXiv:2302.05543 (2023)."},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"crossref","unstructured":"Xulu Zhang Wengyu Zhang Xiaoyong Wei Jinlin Wu Zhaoxiang Zhang Zhen Lei and Qing Li. 2024. Generative active learning for image synthesis personalization. In ACM Multimedia.","DOI":"10.1145\/3664647.3680773"},{"key":"e_1_3_2_1_52_1","volume-title":"Sur-adapter: Enhancing text-to-image pre-trained diffusion models with large language models. In ACM Multimedia.","author":"Zhong Shanshan","year":"2023","unstructured":"Shanshan Zhong, Zhongzhan Huang, Weushao Wen, Jinghui Qin, and Liang Lin. 2023. Sur-adapter: Enhancing text-to-image pre-trained diffusion models with large language models. In ACM Multimedia."},{"key":"e_1_3_2_1_53_1","volume-title":"StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434","author":"Zhou Yupeng","year":"2024","unstructured":"Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, and Qibin Hou. 2024. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434 (2024)."},{"key":"e_1_3_2_1_54_1","volume-title":"Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models. arXiv preprint arXiv:2310.13473","author":"Zhu Mingwei","year":"2023","unstructured":"Mingwei Zhu, Leigang Sha, Yu Shu, Kangjia Zhao, Tiancheng Zhao, and Jianwei Yin. 2023. Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models. arXiv preprint arXiv:2310.13473 (2023)."}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Melbourne VIC Australia","acronym":"MM '24"},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3685511","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3685511","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:28Z","timestamp":1750295848000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3685511"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":53,"alternative-id":["10.1145\/3664647.3685511","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3685511","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}