{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T03:31:18Z","timestamp":1777865478966,"version":"3.51.4"},"reference-count":80,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["IIS-2211550"],"award-info":[{"award-number":["IIS-2211550"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.01115","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"11991-12001","source":"Crossref","is-referenced-by-count":0,"title":["Ditailistener: Controllable High Fidelity Listener Video Generation with Diffusion"],"prefix":"10.1109","author":[{"given":"Maksim","family":"Siniukov","sequence":"first","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Di","family":"Chang","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Minh","family":"Tran","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongkun","family":"Gong","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ashutosh","family":"Chaubey","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mohammad","family":"Soleymani","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3340555.3353725"},{"key":"ref2","article-title":"wav2vec 2.0: A framework for selfsupervised learning of speech representations","author":"Baevski","year":"2020","journal-title":"arXiv preprint"},{"key":"ref3","author":"Blattmann","year":"2023","journal-title":"Stable video diffusion: Scaling latent video diffusion models to large datasets"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/1891903.1891910"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02062"},{"key":"ref6","author":"Chang","year":"2024","journal-title":"Magicpose: Realistic human poses and facial expressions retargeting with identity-aware diffusion"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i3.32241"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00743"},{"key":"ref9","article-title":"Hallo2: Long-duration and high-resolution audio-driven portrait image animation","author":"Cui","year":"2024","journal-title":"arXiv preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01967"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/vl\/N19-142"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547838"},{"key":"ref13","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","volume-title":"Forty-first international conference on machine learning","author":"Esser","year":"2024"},{"issue":"8","key":"ref14","volume":"40","author":"Feng","year":"2021","journal-title":"Learning an animatable detailed 3D face model from in-thewild images. ACM Transactions on Graphics, (Proc. SIGGRAPH)"},{"key":"ref15","author":"Geng","year":"2023","journal-title":"Affective faces for goal-driven dyadic communication"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/11821830_2"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-74997-4_12"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-67401-8_18"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00995"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00151"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72946-1_19"},{"key":"ref22","article-title":"Animatediff: Animate your personalized text-to-image diffusion models without specific tuning","author":"Guo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref23","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","author":"Heusel","year":"2017","journal-title":"arXiv preprint"},{"key":"ref24","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"NeurIPS"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2010.579"},{"key":"ref26","article-title":"Animate anyone: Consistent and controllable image-to-video synthesis for character animation","volume-title":"arXiv preprint","author":"Hu","year":"2023"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-23974-8_8"},{"key":"ref28","article-title":"Learning non-verbal behavior for a social robot from youtube videos","author":"Jonell","year":"2019","journal-title":"ICDL- EpiRob Workshop on Naturalistic Non-Verbal and Affective Human-Robot Interactions, Oslo, Norway"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3383652.3423911"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680994"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612123"},{"key":"ref32","author":"Liu","year":"2023","journal-title":"One-2\u20133-45: Any single image to 3 d mesh in 45 seconds without per-shape optimization"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00853"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681198"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00234"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687587"},{"key":"ref37","volume-title":"Learning2listen","author":"Ng"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01975"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00925"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413532"},{"issue":"140","key":"ref41","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"Journal of Machine Learning Research"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01350"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52688.2022.01042"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref45","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume":"35","author":"Saharia","year":"2022","journal-title":"NeurIPS"},{"key":"ref46","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020","journal-title":"arXiv preprint"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01905"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/FG59268.2024.10581935"},{"key":"ref49","article-title":"Score-based generative modeling through stochastic differential equations","author":"Song","year":"2020","journal-title":"arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-025-02481-9"},{"key":"ref51","author":"Team","year":"2024","journal-title":"Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73010-8_15"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72913-3_27"},{"key":"ref54","author":"Unterthiner","journal-title":"Fvd: A new metric for video generation"},{"key":"ref55","first-page":"6309","article-title":"Neural discrete representation learning","volume-title":"Neural discrete representation learning","author":"Oord","year":"2017"},{"key":"ref56","article-title":"V-express: Conditional dropout for progressive training of portrait video generation","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-91578-9_8"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2003.819861"},{"key":"ref59","volume-title":"Aniportrait: Audio-driven synthesis of photorealistic portrait animation","author":"Wei","year":"2024"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.2.270"},{"key":"ref61","article-title":"Easyanimate: A high-performance long video generation method based on transformer architecture","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref62","author":"Xu","year":"2024","journal-title":"Easyanimate: A high-performance long video generation method based on transformer architecture"},{"key":"ref63","article-title":"Hallo: Hierarchical audio-driven visual synthesis for portrait image animation","volume-title":"arXiv preprint","author":"Xu","year":"2024"},{"key":"ref64","article-title":"Vasa-1: Lifelike audio-driven talking faces generated in real time","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00147"},{"key":"ref66","article-title":"Ipadapter: Text compatible image prompt adapter for text-toimage diffusion models","author":"Ye","year":"2023","journal-title":"arXiv preprint"},{"key":"ref67","first-page":"137","article-title":"Responsive listening head synthesis with 3 dmm and dual-stream prediction network","volume-title":"Proceedings of the 1st International Workshop on Multime-dia Content Generation and Evaluation: New Methods and Practice","author":"Yu","year":"2023"},{"key":"ref68","article-title":"Dream-talk: diffusion-based realistic emotional audio-driven method for single image talking face generation","author":"Zhang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref69","author":"Zhang","year":"2023","journal-title":"[major update] reference-only control \u2022 mikubill\/sd-webui-controlnet \u2022 discussion #1236"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687618"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00068"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00836"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3551580"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00416"},{"key":"ref76","first-page":"2022","author":"Zhou","year":"2022","journal-title":"Vico-x: Multimodal conversation dataset"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19839-7_8"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2025.3562651"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1145\/3414685.3417774"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00997"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11445449.pdf?arnumber=11445449","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T06:38:52Z","timestamp":1777531132000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11445449\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":80,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.01115","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}