{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T10:02:24Z","timestamp":1777888944871,"version":"3.51.4"},"reference-count":71,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00941","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"10097-10107","source":"Crossref","is-referenced-by-count":0,"title":["RapVerse: Coherent Vocals and Whole-Body Motion Generation from Text"],"prefix":"10.1109","author":[{"given":"Jiaben","family":"Chen","sequence":"first","affiliation":[{"name":"UMass Amherst"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xin","family":"Yan","sequence":"additional","affiliation":[{"name":"Wuhan University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yihang","family":"Chen","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Siyuan","family":"Cen","sequence":"additional","affiliation":[{"name":"UMass Amherst"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zixin","family":"Wang","sequence":"additional","affiliation":[{"name":"UMass Amherst"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qinwei","family":"Ma","sequence":"additional","affiliation":[{"name":"Tsinghua University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haoyu","family":"Zhen","sequence":"additional","affiliation":[{"name":"UMass Amherst"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kaizhi","family":"Qian","sequence":"additional","affiliation":[{"name":"MIT-IBM Watson AI Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lie","family":"Lu","sequence":"additional","affiliation":[{"name":"Dolby Laboratories"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chuang","family":"Gan","sequence":"additional","affiliation":[{"name":"UMass Amherst"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Musiclm: Generating music from text","author":"Agostinelli","year":"2023","journal-title":"arXiv preprint"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2019.00084"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3592458"},{"key":"ref4","article-title":"Adding multi-modal controls to whole-body human motion generation","author":"Bian","year":"2024","journal-title":"arXiv preprint"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.143"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00702"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01726"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01034"},{"key":"ref9","article-title":"Jukebox: A generative model for music","author":"Dhariwal","year":"2020","journal-title":"arXiv preprint"},{"key":"ref10","article-title":"End-to-end adversarial text-tospeech","author":"Donahue","year":"2020","journal-title":"arXiv preprint"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2013.6694316"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2010.2052239"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3267851.3267898"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00143"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00361"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00509"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19833-5_34"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3472306.3478335"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-acl.16"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472652"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.21105\/joss.02154"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.21105\/joss.02154"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414460"},{"key":"ref24","article-title":"Noise2music: Textconditioned music generation with diffusion models","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475437"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.52202\/075280-0880"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2002.5743729"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i7.25996"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2023.3294712"},{"key":"ref30","article-title":"Metaphors We Live By","author":"Lakoff","year":"1980","journal-title":"University of Chicago Press, 2003 edition, 1980"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01315"},{"key":"ref32","article-title":"Motion-x: A largescale 3d expressive whole-body human motion dataset","volume":"36","author":"Lin","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref33","article-title":"Emage: Towards unified holistic co-speech gesture generation via masked audio gesture modeling","author":"Liu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i10.21350"},{"key":"ref35","article-title":"Humantomato: Text-aligned whole-body motion generation","author":"Lu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342027"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00554"},{"key":"ref38","first-page":"7748","article-title":"Meta-stylespeech: Multi-speaker adaptive text-tospeech generation","volume-title":"International Conference on Machine Learning","author":"Min","year":"2021"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1250\/ast.42.140"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1609.03499"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01123"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20047-2_28"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1089\/big.2016.0028"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-475"},{"key":"ref45","first-page":"28492","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"International Conference on Machine Learning","author":"Radford","year":"2023"},{"issue":"140","key":"ref46","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"Journal of machine learning research"},{"key":"ref47","article-title":"Yolov3: An incremental improvement","author":"Redmon","year":"2018","journal-title":"arXiv preprint"},{"key":"ref48","article-title":"Fastspeech: Fast, robust and controllable text to speech","volume":"32","author":"Ren","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref49","article-title":"Fastspeech 2: Fast and high-quality end-to-end text to speech","author":"Ren","year":"2020","journal-title":"arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/3394486.3403249"},{"key":"ref51","article-title":"Mo ${ }^{\\wedge}$ usai: Text-to-music generation with longcontext latent diffusion","author":"Schneider","year":"2023","journal-title":"arXiv preprint"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2021.07.002"},{"key":"ref53","article-title":"Difftalk: Crafting diffusion models for generalized talking head synthesis","author":"Shen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-58750-9_28"},{"key":"ref55","article-title":"Jvs-music: Japanese multispeaker singingvoice corpus","author":"Tamaru","year":"2020","journal-title":"arXiv preprint"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073699"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58536-5_24"},{"key":"ref58","article-title":"Human motion diffusion model","author":"Tevet","year":"2022","journal-title":"arXiv preprint"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682804"},{"key":"ref60","article-title":"Neural discrete representation learning","volume":"30","author":"Van Den Oord","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-48"},{"key":"ref62","article-title":"Multiface: A dataset for neural face rendering","author":"Wuu","year":"2022","journal-title":"arXiv preprint"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01229"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/SLT48900.2021.9383551"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00053"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.01415"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.52202\/068431-0501"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3355414"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00836"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i17.29932"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-454"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11445880.pdf?arnumber=11445880","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:03:11Z","timestamp":1777611791000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11445880\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":71,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00941","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}