{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T19:53:11Z","timestamp":1776887591487,"version":"3.51.2"},"reference-count":37,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,4,6]]},"DOI":"10.1109\/icassp49660.2025.10890708","type":"proceedings-article","created":{"date-parts":[[2025,3,12]],"date-time":"2025-03-12T13:52:43Z","timestamp":1741787563000},"page":"1-5","source":"Crossref","is-referenced-by-count":2,"title":["Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer"],"prefix":"10.1109","author":[{"given":"Michele","family":"Mancusi","sequence":"first","affiliation":[{"name":"Sony Europe B.V.,Stuttgart,Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yurii","family":"Halychanskyi","sequence":"additional","affiliation":[{"name":"University of Illinois Urbana-Champaign,Urbana,IL,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kin Wai","family":"Cheuk","sequence":"additional","affiliation":[{"name":"Sony Al,Tokyo,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Eloi","family":"Moliner","sequence":"additional","affiliation":[{"name":"Aalto University,Acoustics Lab, DICE,Espoo,Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chieh-Hsin","family":"Lai","sequence":"additional","affiliation":[{"name":"Sony Al,Tokyo,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stefan","family":"Uhlich","sequence":"additional","affiliation":[{"name":"Sony Europe B.V.,Stuttgart,Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Junghyun","family":"Koo","sequence":"additional","affiliation":[{"name":"Sony Al,Tokyo,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Marco A.","family":"Mart\u00ednez-Ram\u00edrez","sequence":"additional","affiliation":[{"name":"Sony Al,Tokyo,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei-Hsiang","family":"Liao","sequence":"additional","affiliation":[{"name":"Sony Al,Tokyo,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Giorgio","family":"Fabbro","sequence":"additional","affiliation":[{"name":"Sony Europe B.V.,Stuttgart,Germany"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuki","family":"Mitsufuji","sequence":"additional","affiliation":[{"name":"Sony Al,Tokyo,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","first-page":"808","article-title":"Conditional deep hierarchical variational autoencoder for voice conversion","volume-title":"2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)","author":"Akuzawa"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414235"},{"key":"ref3","article-title":"Vector-quantized timbre representation","author":"Bitton","year":"2020"},{"key":"ref4","article-title":"Modulated variational auto-encoders for many-to-many musical timbre transfer","author":"Bitton","year":"2018"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/458"},{"key":"ref6","article-title":"Dismix: Disentangling mixtures of musical instruments for source-level pitch and timbre manipulation","author":"Luo","year":"2024"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10447564"},{"key":"ref8","article-title":"Timbretron: A wavenet (cyclegan (cqt (audio))) pipeline for musical timbre transfer","author":"Huang","year":"2018"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2018.8639535"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096233"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN55064.2022.9892107"},{"key":"ref12","article-title":"Melgan: Generative adversarial networks for conditional waveform synthesis","volume":"32","author":"Kumar","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref13","article-title":"Dual diffusion implicit bridges for image-to-image translation","volume-title":"ICLR","author":"Su"},{"key":"ref14","article-title":"Denoising diffusion bridge models","volume-title":"ICLR","author":"Zhou"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00706"},{"key":"ref16","article-title":"Freestyle: Free lunch for text-guided style transfer using diffusion models","author":"He","year":"2024"},{"key":"ref17","article-title":"Simple and controllable music generation","volume":"36","author":"Copet","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref18","article-title":"Instruct-musicgen: Unlocking text-to-music editing for music language models via instruction tuning","author":"Zhang","year":"2024"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2024\/864"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2024\/851"},{"key":"ref21","article-title":"Zero-shot unsupervised and text-based audio editing using ddpm inversion","author":"Manor","year":"2024"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095637"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/IWAENC61483.2024.10693958"},{"key":"ref24","article-title":"Simplified diffusion schr\\","author":"Tang","year":"2024"},{"key":"ref25","first-page":"17695","article-title":"Diffusion schr\u00f6dinger bridge with applications to score-based generative modeling","volume":"34","author":"De Bortoli","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref26","article-title":"Diffusion schr\u00f6dinger bridge matching","volume":"36","author":"Shi","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10094854"},{"key":"ref28","first-page":"26565","article-title":"Elucidating the design space of diffusion-based generative models","volume":"35","author":"Karras","year":"2022","journal-title":"Advances in neural information processing systems"},{"key":"ref29","article-title":"Score-based generative modeling through stochastic differential equations","volume-title":"ICLR","author":"Song"},{"key":"ref30","article-title":"High fidelity neural audio compression","author":"D\u00e9fossez","year":"2022"},{"key":"ref31","article-title":"The chamber ensemble generator: Limitless high-quality mir data via generative modeling","author":"Wu","year":"2022"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746549"},{"key":"ref33","first-page":"257","article-title":"Timbre transfer using image-to-image denoising diffusion implicit models","volume-title":"Proceedings of the 24th International Society for Music Information Retrieval Conference, Milan, Italy, November 5-9, 2023","author":"Comanducci"},{"key":"ref34","article-title":"Adapting frechet audio distance for generative music evaluation","volume-title":"Proc. IEEE ICASSP 2024","author":"Azalea","year":"2024"},{"key":"ref35","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/tit.2025.3557050"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4020-2100-8_6"}],"event":{"name":"ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Hyderabad, India","start":{"date-parts":[[2025,4,6]]},"end":{"date-parts":[[2025,4,11]]}},"container-title":["ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10887540\/10887541\/10890708.pdf?arnumber=10890708","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T05:20:45Z","timestamp":1774416045000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10890708\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,6]]},"references-count":37,"URL":"https:\/\/doi.org\/10.1109\/icassp49660.2025.10890708","relation":{},"subject":[],"published":{"date-parts":[[2025,4,6]]}}}