{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T06:23:47Z","timestamp":1774419827329,"version":"3.50.1"},"reference-count":34,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,4,6]]},"DOI":"10.1109\/icassp49660.2025.10888898","type":"proceedings-article","created":{"date-parts":[[2025,3,12]],"date-time":"2025-03-12T17:15:02Z","timestamp":1741799702000},"page":"1-5","source":"Crossref","is-referenced-by-count":0,"title":["FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates"],"prefix":"10.1109","author":[{"given":"Nicola","family":"Pia","sequence":"first","affiliation":[{"name":"Fraunhofer IIS,Erlangen,Germany"}]},{"given":"Martin","family":"Strauss","sequence":"additional","affiliation":[{"name":"International Audio Laboratories Erlangen,Erlangen,Germany"}]},{"given":"Markus","family":"Multrus","sequence":"additional","affiliation":[{"name":"Fraunhofer IIS,Erlangen,Germany"}]},{"given":"Bernd","family":"Edler","sequence":"additional","affiliation":[{"name":"International Audio Laboratories Erlangen,Erlangen,Germany"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICC.1990.117117"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461487"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054347"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462529"},{"key":"ref5","first-page":"3406","article-title":"A Real-Time Wideband Neural Vocoder at 1.6 kb\/s Using LPCNet","volume-title":"20th Annual Conference of the International Speech Communication Association (INTERSPEECH)","author":"Valin"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA52581.2021.9632750"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1816"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3129994"},{"key":"ref9","article-title":"Neural Discrete Representation Learning","volume":"30","author":"van den Oord","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref10","article-title":"High Fidelity Neural Audio Compression","author":"D\u00e9fossez","year":"2023","journal-title":"Transactions on Machine Learning Research"},{"key":"ref11","first-page":"27980","article-title":"High-Fidelity Audio Compression with Improved RVQGAN","volume":"36","author":"Kumar","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref12","first-page":"1583","article-title":"Neural Networks Fail to Learn Periodic Functions and How to Fix It","volume":"33","author":"Ziyin","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746296"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-430"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10447523"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446556"},{"key":"ref17","first-page":"1526","article-title":"From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion","volume":"36","author":"San Roman","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref18","doi-asserted-by":"crossref","DOI":"10.1109\/JSTSP.2024.3506286","article-title":"SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound","author":"Liu","year":"2024"},{"key":"ref19","article-title":"Flow Matching for Generative Modeling","volume-title":"International Conference on Learning Representations (ICLR)","author":"Lipman"},{"key":"ref20","article-title":"Scaling Rectified Flow Transformers for High-Resolution Image Synthesis","author":"Esser","year":"2024"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10448291"},{"key":"ref22","first-page":"74 213","article-title":"P-Flow: A Fast and Data-Efficient Zero-Shot TTS through Speech Prompting","author":"Kim","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref23","article-title":"Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale","author":"Le","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref24","article-title":"BigVGAN: A Universal Neural Vocoder with Large-Scale Training","volume-title":"International Conference on Learning Representations (ICLR)","author":"Lee"},{"key":"ref25","doi-asserted-by":"crossref","DOI":"10.5244\/C.34.191","article-title":"Mish: A self regularized non-monotonic activation function","author":"Misra","year":"2020"},{"key":"ref26","first-page":"8599","article-title":"Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech","volume-title":"Proceedings of the 38th International Conference on Machine Learning, ser. Proceedings of Machine Learning Research","volume":"139","author":"Popov"},{"key":"ref27","article-title":"Classifier-Free Diffusion Guidance","volume-title":"NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications","author":"Ho"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2441"},{"key":"ref29","article-title":"Codebase: BigVGAN: A Universal Neural Vocoder with Large-Scale Training","author":"Lee","year":"2023"},{"key":"ref30","article-title":"Recommendation ITU-T P.808 Subjective evaluation of speech quality with a crowdsourcing approach","year":"2021"},{"key":"ref31","article-title":"Recommendation ITU-R BS.1534-3 Method for the subjective assessment of intermediate quality level of audio systems","year":"2015"},{"key":"ref32","article-title":"Simple and Controllable Music Generation","volume-title":"Thirtyseventh Conference on Neural Information Processing Systems","author":"Copet"},{"key":"ref33","article-title":"Codebase: Descript Audio Codec (.dac): High-Fidelity Audio Compression with Improved RVQGAN","author":"Kumar","year":"2023"},{"key":"ref34","first-page":"956","article-title":"The ISO\/MPEG Unified Speech and Audio Coding Standard\u2014Consistent High Quality for All Content Types and at All Bit Rates","volume":"61","author":"Lecomte","year":"2013","journal-title":"Journal of the Audio Engineering Society"}],"event":{"name":"ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Hyderabad, India","start":{"date-parts":[[2025,4,6]]},"end":{"date-parts":[[2025,4,11]]}},"container-title":["ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10887540\/10887541\/10888898.pdf?arnumber=10888898","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T05:24:55Z","timestamp":1774416295000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10888898\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,6]]},"references-count":34,"URL":"https:\/\/doi.org\/10.1109\/icassp49660.2025.10888898","relation":{},"subject":[],"published":{"date-parts":[[2025,4,6]]}}}