{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T07:11:45Z","timestamp":1761894705427,"version":"build-2065373602"},"reference-count":40,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/icme59968.2025.11210229","type":"proceedings-article","created":{"date-parts":[[2025,10,30]],"date-time":"2025-10-30T17:57:42Z","timestamp":1761847062000},"page":"1-6","source":"Crossref","is-referenced-by-count":0,"title":["Dialogue Director: Bridging the Gap in Dialogue Visualization for Multimodal Storytelling"],"prefix":"10.1109","author":[{"given":"Min","family":"Zhang","sequence":"first","affiliation":[{"name":"Xiamen University,School of Film,Xiamen,China"}]},{"given":"Zilin","family":"Wang","sequence":"additional","affiliation":[{"name":"Xiamen University,School of Film,Xiamen,China"}]},{"given":"Liyan","family":"Chen","sequence":"additional","affiliation":[{"name":"Xiamen University,School of Film,Xiamen,China"}]},{"given":"Kunhong","family":"Liu","sequence":"additional","affiliation":[{"name":"Xiamen University,School of Film,Xiamen,China"}]},{"given":"Juncong","family":"Lin","sequence":"additional","affiliation":[{"name":"Xiamen University,School of Informatics,Xiamen,China"}]}],"member":"263","reference":[{"article-title":"Video generation models as world simulators","year":"2024","author":"Brooks","key":"ref1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICME57554.2024.10688206"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICMEW63481.2024.10645369"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICME57554.2024.10687813"},{"volume-title":"The technique of film editing","year":"2010","author":"Reisz","key":"ref5"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00649"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58520-4_2"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.346"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.543"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01241"},{"article-title":"Ensembling diffusion models via adaptive feature aggregation","year":"2024","author":"Wang","key":"ref11"},{"article-title":"V-express: Conditional dropout for progressive training of portrait video generation","year":"2024","author":"Wang","key":"ref12"},{"article-title":"Ic-light github page","year":"2024","author":"Zhang","key":"ref13"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3754448"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i4.32386"},{"article-title":"Storymaker: Towards holistic consistent characters in text-to-image generation","year":"2024","author":"Zhou","key":"ref16"},{"key":"ref17","article-title":"Storydiffusion: Consistent self-attention for long-range image and video generation","author":"Zhou","year":"2024","journal-title":"NeuralIPS"},{"key":"ref18","first-page":"24824","article-title":"Chain-of-thought prompting elicits reasoning in large language models","author":"Wei","year":"2024","journal-title":"NeuralIPS"},{"key":"ref19","first-page":"9459","article-title":"Retrieval-augmented generation for knowledge-intensive nlp tasks","volume":"33","author":"Lewis","year":"2020","journal-title":"NeuralIPS"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"article-title":"Advancing pose-guided image synthesis with progressive conditional diffusion models","year":"2023","author":"Shen","key":"ref21"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICME57554.2024.10687416"},{"key":"ref23","article-title":"Imagpose: A unified conditional framework for pose-guided person generation","author":"Shen","year":"2024","journal-title":"NeuralIPS"},{"article-title":"Mastering text-to-image diffusion: Recaptioning, planning, and generating with multimodal llms","volume-title":"ICML","author":"Yang","key":"ref24"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i7.32729"},{"key":"ref26","article-title":"Layoutgpt: Compositional visual planning and generation with large language models","volume-title":"NeurIPS","volume":"36","author":"Feng"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618184"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687688"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00290"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i7.32728"},{"article-title":"Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models","year":"2023","author":"Ye","key":"ref31"},{"article-title":"In-context lora for diffusion transformers","year":"2024","author":"Huang","key":"ref32"},{"article-title":"Mv-adapter: Multi-view consistent image generation made easy","year":"2024","author":"Huang","key":"ref33"},{"article-title":"Tencent hunyuan3d-1.0: A unified framework for text-to-3d and image-to-3d generation","year":"2024","author":"Yang","key":"ref34"},{"year":"2024","key":"ref35","article-title":"Chatgpt (version 4)"},{"volume-title":"Dream creation: Virtual 3d or e-commerce scene key visual poster or blind box ip display c4d super visual","year":"2024","key":"ref36"},{"issue":"3","key":"ref37","doi-asserted-by":"crossref","first-page":"209","DOI":"10.1109\/LSP.2012.2227726","article-title":"Making a","volume":"20","author":"Mittal","year":"2013","journal-title":"IEEE Signal processing letters"},{"key":"ref38","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford"},{"volume-title":"Dall\u2022e 3: Text-to-image generation","year":"2024","key":"ref39"},{"key":"ref40","article-title":"Before sunset","author":"Linklater","year":"2004","journal-title":"Warner Independent Pictures"}],"event":{"name":"2025 IEEE International Conference on Multimedia and Expo (ICME)","start":{"date-parts":[[2025,6,30]]},"location":"Nantes, France","end":{"date-parts":[[2025,7,4]]}},"container-title":["2025 IEEE International Conference on Multimedia and Expo (ICME)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11208895\/11208897\/11210229.pdf?arnumber=11210229","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T05:33:53Z","timestamp":1761888833000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11210229\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":40,"URL":"https:\/\/doi.org\/10.1109\/icme59968.2025.11210229","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}