{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T15:47:28Z","timestamp":1775144848526,"version":"3.50.1"},"reference-count":24,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,4,6]]},"DOI":"10.1109\/icassp49660.2025.10888008","type":"proceedings-article","created":{"date-parts":[[2025,3,12]],"date-time":"2025-03-12T13:56:59Z","timestamp":1741787819000},"page":"1-5","source":"Crossref","is-referenced-by-count":1,"title":["NAT3DSound: 3D Spatial Sound Field Synthesis with Multi-Modal Non-Autoregressive Transformer"],"prefix":"10.1109","author":[{"given":"Fuming","family":"You","sequence":"first","affiliation":[{"name":"Zhejiang University"}]},{"given":"Rongjie","family":"Huang","sequence":"additional","affiliation":[{"name":"Zhejiang University"}]},{"given":"Boyang","family":"Zhang","sequence":"additional","affiliation":[{"name":"Zhejiang University"}]},{"given":"Yongqi","family":"Wang","sequence":"additional","affiliation":[{"name":"Zhejiang University"}]},{"given":"Zhiqing","family":"Hong","sequence":"additional","affiliation":[{"name":"Zhejiang University"}]},{"given":"Zhimeng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Zhejiang University"}]},{"given":"Zhou","family":"Zhao","sequence":"additional","affiliation":[{"name":"Zhejiang University"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Common voice: A massively-multilingual speech corpus","author":"Ardila","year":"2019"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/taslp.2023.3288409"},{"key":"ref3","article-title":"Muse: Text-to-image generation via masked generative transformers","author":"Chang","year":"2023"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01103"},{"key":"ref5","article-title":"High fidelity neural audio compression","author":"D\u00e9fossez","year":"2022"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2019.00041"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1633"},{"key":"ref8","article-title":"High-fidelity audio compression with improved rvqgan","author":"Kumar","year":"2023"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3197517.3201391"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2019.8803494"},{"key":"ref11","first-page":"31","article-title":"Self-supervised generation of spatial audio for 360 video","author":"Morgado","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref12","article-title":"Wavenet: A generative model for raw audio","author":"van den Oord","year":"2016"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"ref14","first-page":"1","article-title":"3d spatial soundfield recording over large regions","volume-title":"IWAENC 2012; International Workshop on Acoustic Signal Enhancement","author":"Samarasinghe"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3298850"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-1452"},{"key":"ref17","volume-title":"Fourier acoustics","author":"Williams","year":"1999"},{"key":"ref18","article-title":"Sounding bodies: Modeling 3d spatial sound of humans using body pose and audio","volume-title":"Thirty-seventh Conference on Neural Information Processing Systems","author":"Xudong"},{"key":"ref19","volume-title":"Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit (version 0.92)","author":"Yamagishi","year":"2019"},{"key":"ref20","article-title":"Uniaudio: An audio foundation model toward universal audio generation","author":"Yang","year":"2023"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00995"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3129994"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58610-2_4"},{"key":"ref24","article-title":"Masked audio generation using a single non-autoregressive transformer","author":"Ziv","year":"2024"}],"event":{"name":"ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Hyderabad, India","start":{"date-parts":[[2025,4,6]]},"end":{"date-parts":[[2025,4,11]]}},"container-title":["ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10887540\/10887541\/10888008.pdf?arnumber=10888008","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T05:26:11Z","timestamp":1774416371000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10888008\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,6]]},"references-count":24,"URL":"https:\/\/doi.org\/10.1109\/icassp49660.2025.10888008","relation":{},"subject":[],"published":{"date-parts":[[2025,4,6]]}}}