{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T20:34:16Z","timestamp":1776890056443,"version":"3.51.2"},"reference-count":49,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100017090","name":"Sony","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100017090","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,4,6]]},"DOI":"10.1109\/icassp49660.2025.10890049","type":"proceedings-article","created":{"date-parts":[[2025,3,12]],"date-time":"2025-03-12T17:15:19Z","timestamp":1741799719000},"page":"1-5","source":"Crossref","is-referenced-by-count":1,"title":["Music2Latent2: Audio Compression with Summary Embeddings and Autoregressive Decoding"],"prefix":"10.1109","author":[{"given":"Marco","family":"Pasini","sequence":"first","affiliation":[{"name":"Queen Mary University,London,UK"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stefan","family":"Lattner","sequence":"additional","affiliation":[{"name":"Sony Computer Science Laboratories,Paris,France"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gy\u00f6rgy","family":"Fazekas","sequence":"additional","affiliation":[{"name":"Queen Mary University,London,UK"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Musika! Fast Infinite Waveform Music Generation","volume-title":"Proceedings of the 23rd International Society for Music Information Retrieval Conference, ISMIR 2022, Bengaluru, India, December 4-8, 2022","author":"Pasini"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446400"},{"key":"ref3","article-title":"Fast timing-conditioned latent audio diffusion","author":"Evans","year":"2024"},{"key":"ref4","article-title":"Long-form music generation with latent diffusion","author":"Evans","year":"2024"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49660.2025.10888461"},{"key":"ref6","article-title":"Mo\u00fbsai: Text-to-Music Generation with Long-Context Latent Diffusion","author":"Schneider","year":"2023"},{"key":"ref7","article-title":"Music2latent: Consistency autoencoders for latent audio compression","author":"Pasini","year":"2024"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3129994"},{"key":"ref9","article-title":"High Fidelity Neural Audio Compression","author":"D\u00e9fossez","year":"2022"},{"key":"ref10","article-title":"High-Fidelity Audio Compression with Improved RVQGAN","author":"Kumar","year":"2023"},{"key":"ref11","article-title":"Simple and Controllable Music Generation","author":"Copet","year":"2023"},{"key":"ref12","article-title":"Jukebox: A generative model for music","author":"Dhariwal","year":"2020"},{"key":"ref13","article-title":"MusicLM: Generating Music From Text","author":"Agostinelli","year":"2023"},{"key":"ref14","article-title":"An image is worth 32 tokens for reconstruction and generation","author":"Yu","year":"2024"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/960128.806879"},{"key":"ref16","article-title":"Improved techniques for training consistency models","author":"Song","year":"2023"},{"key":"ref17","article-title":"Latent consistency models: Synthesizing high-resolution images with few-step inference","author":"Luo","year":"2023"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612061"},{"key":"ref19","article-title":"Denoising Diffusion Implicit Models","volume-title":"9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021","author":"Song"},{"key":"ref20","article-title":"Generative modeling by estimating gradients of the data distribution","volume-title":"Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada","author":"Song"},{"key":"ref21","article-title":"Score-based generative modeling through stochastic differential equations","author":"Song","year":"2020"},{"key":"ref22","article-title":"Improved techniques for training score-based generative models","volume-title":"Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual","author":"Song"},{"key":"ref23","article-title":"DRUMGAN: synthesis of drum sounds with timbral feature conditioning using generative adversarial networks","volume-title":"Proceedings of the 21th International Society for Music Information Retrieval Conference (ISMIR)","author":"Nistal"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.23919\/Eusipco47968.2020.9287799"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2023.3285241"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/83.551699"},{"key":"ref29","article-title":"Rolling diffusion models","volume-title":"Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024","author":"Ruhe"},{"key":"ref30","article-title":"Diffusion forcing: Next-token prediction meets full-sequence diffusion","author":"Chen","year":"2024"},{"key":"ref31","article-title":"Attention is all you need","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems 30"},{"key":"ref32","article-title":"On the variance of the adaptive learning rate and beyond","volume-title":"8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020","author":"Liu"},{"key":"ref33","article-title":"The mtg-jamendo dataset for automatic music tagging","volume-title":"Machine Learning for Music Discovery Workshop, International Conference on Machine Learning (ICML 2019)","author":"Bogdanov"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747230"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2219"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.23919\/eusipco63174.2024.10714935"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095969"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683855"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1186\/s13636-015-0054-9"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TBC.2017.2704421"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/QoMEX48832.2020.9123150"},{"key":"ref42","article-title":"A systematic comparison of music similarity adaptation approaches","volume-title":"Proceedings of the 13th International Society for Music Information Retrieval Conference, ISMIR 2012, Mosteiro S. Bento Da Vit\u00f3ria, Porto, Portugal, October 8-12, 2012","author":"Wolff"},{"key":"ref43","article-title":"Beatport edm key dataset","author":"Faraldo","year":"2018"},{"key":"ref44","article-title":"TinySOL: an audio dataset of isolated musical notes","author":"Emanuele","year":"2020"},{"key":"ref45","article-title":"musicnn: Pre-trained convolutional neural networks for music audio tagging","author":"Pons","year":"2019"},{"key":"ref46","article-title":"Contrastive learning of musical representations","volume-title":"Proceedings of the 22nd International Society for Music Information Retrieval Conference, ISMIR 2021, Online, November 7-12, 2021","author":"Spijkervet"},{"key":"ref47","article-title":"Mert: Acoustic music understanding model with large-scale self-supervised training","author":"Li","year":"2023"},{"key":"ref48","article-title":"Beyond Benchmarks: A Toolkit for Music Audio Representation Evaluation","volume-title":"Ph.D. dissertation","author":"Plachouras","year":"2023"},{"key":"ref49","article-title":"mir_ref: A representation evaluation framework for music information retrieval tasks","volume-title":"37th Conference on Neural Information Processing Systems (NeurIPS), Machine Learning for Audio Workshop","author":"Plachouras"}],"event":{"name":"ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Hyderabad, India","start":{"date-parts":[[2025,4,6]]},"end":{"date-parts":[[2025,4,11]]}},"container-title":["ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10887540\/10887541\/10890049.pdf?arnumber=10890049","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T05:26:16Z","timestamp":1774416376000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10890049\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,6]]},"references-count":49,"URL":"https:\/\/doi.org\/10.1109\/icassp49660.2025.10890049","relation":{},"subject":[],"published":{"date-parts":[[2025,4,6]]}}}