{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,7]],"date-time":"2026-07-07T15:51:10Z","timestamp":1783439470245,"version":"3.54.6"},"reference-count":27,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100017090","name":"Sony","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100017090","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002551","name":"Seoul National University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002551","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002551","name":"Seoul National University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002551","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,4,6]]},"DOI":"10.1109\/icassp49660.2025.10889508","type":"proceedings-article","created":{"date-parts":[[2025,3,12]],"date-time":"2025-03-12T17:15:19Z","timestamp":1741799719000},"page":"1-5","source":"Crossref","is-referenced-by-count":4,"title":["Variable Bitrate Residual Vector Quantization for Audio Coding"],"prefix":"10.1109","author":[{"given":"Yunkee","family":"Chae","sequence":"first","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Woosung","family":"Choi","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuhta","family":"Takida","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Junghyun","family":"Koo","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yukara","family":"Ikemiya","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhi","family":"Zhong","sequence":"additional","affiliation":[{"name":"Sony Group Corporation,Tokyo,Japan"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kin Wai","family":"Cheuk","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Marco A.","family":"Mart\u00ednez-Ram\u00edrez","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kyogu","family":"Lee","sequence":"additional","affiliation":[{"name":"IPAI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wei-Hsiang","family":"Liao","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuki","family":"Mitsufuji","sequence":"additional","affiliation":[{"name":"Sony AI"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1987.1169405"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3129994"},{"key":"ref3","article-title":"High fidelity neural audio compression","author":"D\u00e9fossez","year":"2022"},{"key":"ref4","article-title":"High-fidelity audio compression with improved rvqgan","volume":"36","author":"Kumar","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref5","article-title":"Generic coding of moving pictures and associated audio information -part 7: Advanced audio coding (aac)","year":"2006","journal-title":"ISO\/IEC 13818-7"},{"key":"ref6","article-title":"Variable-rate discrete representation learning","author":"Dieleman","year":"2021"},{"key":"ref7","article-title":"Variable bitrate discrete neural representations via causal self-attention","volume-title":"2nd Pre-registration workshop (NeurIPS 2021), Remote","author":"Li"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095451"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2010.57"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00339"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00462"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.2983926"},{"key":"ref14","first-page":"13 146","article-title":"Selective compression learning of latent representations for variable-rate image compression","volume":"35","author":"Lee","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"1","key":"ref15","first-page":"1929","article-title":"Dropout: a simple way to prevent neural networks from over-fitting","volume":"15","author":"Srivastava","year":"2014","journal-title":"The journal of machine learning research"},{"key":"ref16","article-title":"Vector-quantized image modeling with improved vqgan","author":"Yu","year":"2021"},{"key":"ref17","article-title":"Weight normalization: A simple reparameterization to accelerate training of deep neural networks","volume":"29","author":"Salimans","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref18","first-page":"1583","article-title":"Neural networks fail to learn periodic functions and how to fix it","volume":"33","author":"Ziyin","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/QoMEX48832.2020.9123150"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683855"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2014.2379648"},{"key":"ref22","article-title":"Common voice: A massively-multilingual speech corpus","author":"Ardila","year":"2019"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.7488\/ds\/2645"},{"key":"ref24","doi-asserted-by":"crossref","DOI":"10.1109\/ICASSP43922.2022.9747230","article-title":"Icassp 2022 deep noise suppression challenge","author":"Dubey","year":"2022"},{"key":"ref25","article-title":"The musdb18 corpus for music separation","author":"Rafii","year":"2017"},{"key":"ref26","article-title":"The mtg-jamendo dataset for automatic music tagging","volume-title":"International Conference on Machine Learning (ICML)","author":"Bogdanov"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952261"}],"event":{"name":"ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Hyderabad, India","start":{"date-parts":[[2025,4,6]]},"end":{"date-parts":[[2025,4,11]]}},"container-title":["ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10887540\/10887541\/10889508.pdf?arnumber=10889508","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T05:26:28Z","timestamp":1774416388000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10889508\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,6]]},"references-count":27,"URL":"https:\/\/doi.org\/10.1109\/icassp49660.2025.10889508","relation":{},"subject":[],"published":{"date-parts":[[2025,4,6]]}}}