{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T09:57:28Z","timestamp":1777888648115,"version":"3.51.4"},"reference-count":99,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.01118","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"12023-12033","source":"Crossref","is-referenced-by-count":0,"title":["EgoMusic-Driven Human Dance Motion Estimation with Skeleton Mamba"],"prefix":"10.1109","author":[{"given":"Quang","family":"Nguyen","sequence":"first","affiliation":[{"name":"FPT Software AI Center"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nhat","family":"Le","sequence":"additional","affiliation":[{"name":"The University of Western Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Baoru","family":"Huang","sequence":"additional","affiliation":[{"name":"University of Liverpool"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Minh Nhat","family":"Vu","sequence":"additional","affiliation":[{"name":"TU Wien"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chengcheng","family":"Tang","sequence":"additional","affiliation":[{"name":"Meta"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Van","family":"Nguyen","sequence":"additional","affiliation":[{"name":"FPT Software AI Center"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ngan","family":"Le","sequence":"additional","affiliation":[{"name":"University of Arkansas"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Thieu","family":"Vo","sequence":"additional","affiliation":[{"name":"National University of Singapore"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anh","family":"Nguyen","sequence":"additional","affiliation":[{"name":"University of Liverpool"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20068-7_1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547797"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3637528.3672044"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TIM.2023.3293564"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1038\/scientificamerican0708-78"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00603"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/tlt.2010.27"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01726"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00941"},{"key":"ref10","article-title":"Transformers are SSMs: Generalized models and efficient algorithms through structured state space duality","author":"Dao","year":"2024","journal-title":"ICML"},{"key":"ref11","article-title":"Jukebox: A generative model for music","author":"Dhariwal","year":"2020","journal-title":"arXiv"},{"key":"ref12","article-title":"Diffusion models beat gans on image synthesis","author":"Dhariwal","year":"2021","journal-title":"NeurIPS"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3470482.3479633"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00298"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.compeleceng.2022.108310"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/tvcg.2011.73"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01834"},{"key":"ref18","article-title":"Mamba: Linear-time sequence modeling with selective state spaces","author":"Gu","year":"2023","journal-title":"arXiv"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00509"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/s12650-021-00783-x"},{"key":"ref21","volume-title":"To dance is human: A theory of nonverbal communication","author":"Hanna","year":"1987"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref23","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020","journal-title":"NeurIPS"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72664-4_9"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01083"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.01607"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/icassp43922.2022.9747838"},{"key":"ref28","article-title":"Beatit: Beat-synchronized multi-condition 3d dance generation","author":"Huang","year":"2024","journal-title":"arXiv"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.373"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01082"},{"key":"ref31","article-title":"The kinetics human action video dataset","author":"Kay","year":"2017","journal-title":"arXiv"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00014"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1016\/j.chb.2023.107827"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3613904.3642145"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3551626.3564936"},{"key":"ref36","article-title":"The dancing species: how moving together in time helps make us human","author":"LaMothe","year":"2019","journal-title":"Aeon, June"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00838"},{"key":"ref38","article-title":"Meteor: Mamba-based traversal of rationale for large language and vision models","author":"Lee","year":"2024","journal-title":"NeuRIPS"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-012-1288-5"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i2.20014"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01644"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73347-5_14"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01315"},{"key":"ref44","article-title":"Mamband: Selective state space modeling for multi-dimensional data","author":"Li","year":"2025","journal-title":"ECCV"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/SMC53992.2023.10394203"},{"key":"ref46","article-title":"Pointmamba: A simple state space model for point cloud analysis","author":"Liang","year":"2024","journal-title":"NeurIPS"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2019.2916873"},{"key":"ref48","article-title":"Point mamba: A novel point cloud backbone based on state space model with octree-based ordering strategy","author":"Liu","year":"2024","journal-title":"arXiv"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01049"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3242551"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00022"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/3596711.3596800"},{"key":"ref53","article-title":"Dynamics-regulated kinematic policy for egocentric pose estimation","author":"Luo","year":"2021","journal-title":"NeurIPS"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2021.3098744"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICIEV.2019.8858524"},{"key":"ref56","article-title":"librosa: Audio and music signal analysis in python","author":"Brian","year":"2015","journal-title":"SciPy"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00119"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00991"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-68796-0_50"},{"key":"ref61","article-title":"Smcd: High realism motion style transfer via mamba-based diffusion","author":"Qian","year":"2024","journal-title":"arXiv"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1016\/j.measen.2024.101055"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1016\/j.micpro.2022.104651"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/s00371-023-03068-6"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.115"},{"key":"ref66","article-title":"Decoupled spatial-temporal attention network for skeleton-based action-gesture recognition","author":"Shi","year":"2020","journal-title":"ACCV"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01077"},{"key":"ref68","article-title":"The replica dataset: A digital replica of indoor spaces","author":"Straub","year":"2019","journal-title":"arXiv"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2981989"},{"key":"ref70","article-title":"Habitat 2.0: Training home assistants to rearrange their habitat","author":"Szot","year":"2021","journal-title":"NeurIPS"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58536-5_24"},{"key":"ref72","article-title":"Human motion diffusion model","author":"Tevet","year":"2023","journal-title":"ICLR"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00782"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00457"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00051"},{"key":"ref76","article-title":"Attention is all you need","author":"Vaswani","year":"2017","journal-title":"NeurIPS"},{"key":"ref77","article-title":"Graphmamba: Towards long-range graph sequence modeling with selective state spaces","author":"Wang","year":"2024","journal-title":"arXiv"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00080"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01130"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01252"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00928"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00891"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/tip.2025.3624601"},{"key":"ref84","article-title":"Mamba-unet: Unet-like pure visual mamba for medical image segmentation","author":"Wang","year":"2024","journal-title":"arXiv"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/tvcg.2019.2898650"},{"key":"ref86","article-title":"Vitpose: Simple vision transformer baselines for human pose estimation","author":"Xu","year":"2022","journal-title":"NeurIPS"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00787"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12328"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.01018"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00072"},{"key":"ref91","article-title":"Voxel mamba: Group-free state space models for point cloud based 3d object detection","author":"Zhang","year":"2024","journal-title":"NeuRIPS"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2024.3355414"},{"key":"ref93","article-title":"Infinimotion: Mamba boosts memory in transformer for arbitrary long motion generation","author":"Zhang","year":"2024","journal-title":"arXiv"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73232-4_15"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72986-7_22"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01017"},{"key":"ref97","article-title":"Vision mamba: Efficient visual representation learning with bidirectional state space model","author":"Zhu","year":"2024","journal-title":"arXiv"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01385"},{"key":"ref99","article-title":"Music2dance: Music-driven dance generation using wavenet","author":"Zhuang","year":"2020","journal-title":"arXiv"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11444538.pdf?arnumber=11444538","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T04:52:49Z","timestamp":1777611169000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11444538\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":99,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.01118","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}