{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T19:21:54Z","timestamp":1776885714715,"version":"3.51.2"},"reference-count":51,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T00:00:00Z","timestamp":1760227200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T00:00:00Z","timestamp":1760227200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,12]]},"DOI":"10.1109\/waspaa66052.2025.11230941","type":"proceedings-article","created":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T18:46:47Z","timestamp":1763146007000},"page":"1-5","source":"Crossref","is-referenced-by-count":3,"title":["Fast Text-to-Audio Generation with Adversarial Post-Training"],"prefix":"10.1109","author":[{"given":"Zachary","family":"Novack","sequence":"first","affiliation":[{"name":"UC &#x2013; San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zach","family":"Evans","sequence":"additional","affiliation":[{"name":"Stability AI"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zack","family":"Zukowski","sequence":"additional","affiliation":[{"name":"Stability AI"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Josiah","family":"Taylor","sequence":"additional","affiliation":[{"name":"Stability AI"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"CJ","family":"Carr","sequence":"additional","affiliation":[{"name":"Stability AI"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Julian","family":"Parker","sequence":"additional","affiliation":[{"name":"Stability AI"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Adnan","family":"Al-Sinan","sequence":"additional","affiliation":[{"name":"Arm"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gian Marco","family":"Iodice","sequence":"additional","affiliation":[{"name":"Arm"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Julian","family":"McAuley","sequence":"additional","affiliation":[{"name":"UC &#x2013; San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Taylor","family":"Berg-Kirkpatrick","sequence":"additional","affiliation":[{"name":"UC &#x2013; San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jordi","family":"Pons","sequence":"additional","affiliation":[{"name":"Stability AI"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Simple and controllable music generation","author":"Copet","year":"2023","journal-title":"NeurIPS"},{"key":"ref2","article-title":"Fast timing-conditioned latent audio diffusion","volume-title":"ICML","author":"Evans"},{"key":"ref3","article-title":"Long-form music generation with latent diffusion","author":"Evans","year":"2024"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49660.2025.10888461"},{"key":"ref5","article-title":"Denoising diffusion implicit models","volume-title":"ICLR","author":"Song"},{"key":"ref6","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","volume-title":"ICML","author":"Esser"},{"key":"ref7","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020","journal-title":"NeurIPS"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00632"},{"key":"ref9","article-title":"Improved distribution matching distillation for fast image synthesis","author":"Yin","year":"2024"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687625"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73016-0_6"},{"key":"ref12","article-title":"Hyper-SD: Trajectory segmented consistency model for efficient image synthesis","author":"Ren","year":"2024"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2668"},{"key":"ref14","article-title":"Consistency models","volume-title":"ICML","author":"Song"},{"key":"ref15","article-title":"Simplifying, stabilizing and scaling continuous-time consistency models","author":"Lu","year":"2024"},{"key":"ref16","article-title":"Sana-sprint: One-step diffusion with continuous-time consistency distillation","author":"Chen","year":"2025"},{"key":"ref17","article-title":"Consistency trajectory models: Learning probability flow ODE trajectory of diffusion","volume-title":"ICLR","author":"Kim"},{"key":"ref18","article-title":"Presto! distilling steps and layers for accelerating music generation","volume-title":"ICLR","author":"Novack"},{"key":"ref19","article-title":"One-step diffusion models with f-divergence distribution matching","author":"Xu","year":"2025"},{"key":"ref20","article-title":"Flow straight and fast: Learning to generate and transfer data with rectified flow","author":"Liu","year":"2022"},{"key":"ref21","article-title":"Progressive distillation for fast sampling of diffusion models","author":"Salimans","year":"2022"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73390-1_25"},{"key":"ref23","article-title":"CFG++: Manifold-constrained classifier free guidance for diffusion models","author":"Chung","year":"2024"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00783"},{"key":"ref25","article-title":"Diffusion adversarial post-training for one-step video generation","author":"Lin","year":"2025"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-1333"},{"key":"ref27","article-title":"Soundctm: Uniting score-based and consistency models for text-to-sound generation","author":"Saito","year":"2024"},{"key":"ref28","article-title":"Improving musical accompaniment co-creation via diffusion transformers","author":"Nistal","year":"2024"},{"key":"ref29","article-title":"DITTO-2: Distilled diffusion inference-time t-optimization for music generation","volume-title":"ISMIR","author":"Novack"},{"key":"ref30","article-title":"The gan is dead; long live the gan! a modern baseline gan","volume-title":"ICML Workshop on Structured Probabilistic Inference and Generative Modeling","author":"Huang"},{"key":"ref31","article-title":"The relativistic discriminator: a key element missing from standard gan","author":"Jolicoeur-Martineau","year":"2018"},{"key":"ref32","article-title":"One step diffusion via shortcut models","author":"Frans","year":"2024"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095969"},{"key":"ref34","article-title":"Noise-contrastive estimation: A new estimation principle for unnormalized statistical models","volume-title":"AISTATS","author":"Gutmann"},{"key":"ref35","article-title":"Fine-tuning language models from human preferences","author":"Ziegler","year":"2019"},{"key":"ref36","article-title":"Direct preference optimization: Your language model is secretly a reward model","author":"Rafailov","year":"2023","journal-title":"NeurIPS"},{"key":"ref37","article-title":"Deepseekmath: Pushing the limits of mathematical reasoning in open language models","author":"Shao","year":"2024"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.2307\/2334029"},{"issue":"140","key":"ref39","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"Journal of machine learning research"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.379"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01261-8_1"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2017.12.012"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682475"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2022-227"},{"key":"ref45","article-title":"Distilling diversity and control in diffusion models","author":"Gandikota","year":"2025"},{"key":"ref46","article-title":"Diff-a-riff: Musical accompaniment co-creation via latent diffusion models","author":"Nistal","year":"2024"},{"key":"ref47","article-title":"Audiocaps: Generating captions for audios in the wild","volume-title":"NAACL","author":"Kim"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.5334\/jors.187"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096847"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746530"},{"key":"ref51","article-title":"Consistency models made easy","author":"Geng","year":"2024"}],"event":{"name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","location":"Tahoe City, CA, USA","start":{"date-parts":[[2025,10,12]]},"end":{"date-parts":[[2025,10,15]]}},"container-title":["2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11230875\/11230917\/11230941.pdf?arnumber=11230941","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:41:07Z","timestamp":1763192467000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11230941\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,12]]},"references-count":51,"URL":"https:\/\/doi.org\/10.1109\/waspaa66052.2025.11230941","relation":{},"subject":[],"published":{"date-parts":[[2025,10,12]]}}}