{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,5,29]],"date-time":"2025-05-29T04:01:44Z","timestamp":1748491304937,"version":"3.41.0"},"reference-count":38,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T00:00:00Z","timestamp":1743897600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,4,6]]},"DOI":"10.1109\/icasspw65056.2025.11011113","type":"proceedings-article","created":{"date-parts":[[2025,5,27]],"date-time":"2025-05-27T17:05:14Z","timestamp":1748365514000},"page":"1-5","source":"Crossref","is-referenced-by-count":0,"title":["Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification"],"prefix":"10.1109","author":[{"given":"Francesca","family":"Ronchini","sequence":"first","affiliation":[{"name":"Politecnico di Milano,Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB),Milano"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ho-Hsiang","family":"Wu","sequence":"additional","affiliation":[{"name":"Bosch Center for Artificial Intelligence,Pittsburgh,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei-Cheng","family":"Lin","sequence":"additional","affiliation":[{"name":"Bosch Center for Artificial Intelligence,Pittsburgh,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fabio","family":"Antonacci","sequence":"additional","affiliation":[{"name":"Politecnico di Milano,Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB),Milano"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"article-title":"Audioldm: Text-to-audio generation with latent diffusion models","year":"2023","author":"Liu","key":"ref1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2024.3399607"},{"article-title":"Audiogen: Textually guided audio generation","year":"2022","author":"Kreuk","key":"ref3"},{"key":"ref4","article-title":"Tango 2: Aligning diffusion-based text-to-audio generative models through direct preference optimization","author":"Majumder","year":"2024","journal-title":"ACM Multimedia 2024"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612348"},{"article-title":"Make-an-audio: Text-to-audio generation with prompt-enhanced diffusion models","volume-title":"International Conference on Machine Learning","author":"Huang","key":"ref6"},{"article-title":"Make-an-audio 2: Temporal-enhanced text-to-audio generation","year":"2023","author":"Huang","key":"ref7"},{"article-title":"Fast timing-conditioned latent audio diffusion","year":"2024","author":"Evans","key":"ref8"},{"article-title":"Long-form music generation with latent diffusion","year":"2024","author":"Evans","key":"ref9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3411495.3421355"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3658644.3670285"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-021-11817-9"},{"article-title":"Foundation models for music: A survey","year":"2024","author":"Ma","key":"ref13"},{"article-title":"Description and discussion on dcase2020 challenge task2: Unsupervised anomalous sound detection for machine condition monitoring","year":"2020","author":"Koizumi","key":"ref14"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/3439950"},{"key":"ref16","doi-asserted-by":"crossref","DOI":"10.31219\/osf.io\/zcvs3","article-title":"The impact of non-target events in synthetic soundscapes for sound event detection","author":"Ronchini","year":"2021"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2022.3233468"},{"article-title":"Dcase 2024 task 4: Sound event detection with heterogeneous data and missing labels","year":"2024","author":"Cornell","key":"ref18"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.33682\/006b-jx26"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10097117"},{"article-title":"Challenge on sound scene synthesis: Evaluating text-to-audio generation","year":"2024","author":"Lee","key":"ref21"},{"article-title":"Synthetic training set generation using text-to-audio models for environmental sound classification","volume-title":"Proceedings of the Detection and Classification of Acoustic Scenes and Events 2024 Workshop (DCASE2024)","author":"Ronchini","key":"ref22"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.21437\/SynData4GenAI.2024-2"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CBMI62980.2024.10859229"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-1350"},{"article-title":"Gpt-4 technical report","year":"2023","author":"Achiam","key":"ref26"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2020.3030497"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2020-1219"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.121902"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9052990"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49660.2025.10888461"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.iswa.2022.200115"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.3390\/s22228608"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-33-4073-2_4"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/2733373.2806390"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2655045"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-024-18740-9"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2999388"}],"event":{"name":"2025 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)","start":{"date-parts":[[2025,4,6]]},"location":"Hyderabad, India","end":{"date-parts":[[2025,4,11]]}},"container-title":["2025 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11010992\/11010997\/11011113.pdf?arnumber=11011113","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,28]],"date-time":"2025-05-28T04:52:15Z","timestamp":1748407935000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11011113\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,6]]},"references-count":38,"URL":"https:\/\/doi.org\/10.1109\/icasspw65056.2025.11011113","relation":{},"subject":[],"published":{"date-parts":[[2025,4,6]]}}}