{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T12:50:59Z","timestamp":1761396659200,"version":"3.28.0"},"reference-count":34,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,9,4]],"date-time":"2023-09-04T00:00:00Z","timestamp":1693785600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,9,4]],"date-time":"2023-09-04T00:00:00Z","timestamp":1693785600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100004543","name":"China Scholarship Council (CSC)","doi-asserted-by":"publisher","award":["202208060240"],"award-info":[{"award-number":["202208060240"]}],"id":[{"id":"10.13039\/501100004543","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,9,4]]},"DOI":"10.23919\/eusipco58844.2023.10289975","type":"proceedings-article","created":{"date-parts":[[2023,11,1]],"date-time":"2023-11-01T17:55:44Z","timestamp":1698861344000},"page":"765-769","source":"Crossref","is-referenced-by-count":5,"title":["Leveraging Pre-Trained AudioLDM for Sound Generation: A Benchmark Study"],"prefix":"10.23919","author":[{"given":"Yi","family":"Yuan","sequence":"first","affiliation":[{"name":"University of Surrey,Centre for Vision, Speech and Signal Processing (CVSSP),UK"}]},{"given":"Haohe","family":"Liu","sequence":"additional","affiliation":[{"name":"University of Surrey,Centre for Vision, Speech and Signal Processing (CVSSP),UK"}]},{"given":"Jinhua","family":"Liang","sequence":"additional","affiliation":[{"name":"Queen Mary University of London,Centre for Digital Music (C4DM)"}]},{"given":"Xubo","family":"Liu","sequence":"additional","affiliation":[{"name":"University of Surrey,Centre for Vision, Speech and Signal Processing (CVSSP),UK"}]},{"given":"Mark D.","family":"Plumbley","sequence":"additional","affiliation":[{"name":"University of Surrey,Centre for Vision, Speech and Signal Processing (CVSSP),UK"}]},{"given":"Wenwu","family":"Wang","sequence":"additional","affiliation":[{"name":"University of Surrey,Centre for Vision, Speech and Signal Processing (CVSSP),UK"}]}],"member":"263","reference":[{"key":"ref13","article-title":"Few-Shot Table-to- Text Generation with Prompt Planning and Knowledge Memorization","author":"guo","year":"2023","journal-title":"ArXiv Preprint"},{"key":"ref12","first-page":"201","article-title":"Why does unsuper-vised pre-training help deep learning?","volume":"9","author":"erhan","year":"0","journal-title":"Proceedings of the International Conference on Artificial Intelligence and Statistics"},{"key":"ref34","article-title":"PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition","author":"kong","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref15","article-title":"BART: Denoising Sequence-to- Sequence Pre-training for Natural Language Generation, Translation, and Comprehension","author":"lewis","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.23919\/EUSIPCO55093.2022.9909761"},{"key":"ref31","article-title":"GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium","author":"heusel","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref30","article-title":"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer","author":"raffel","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref11","first-page":"2712","article-title":"Using pre-training can improve model robustness and uncertainty","volume":"97","author":"hendrycks","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref33","article-title":"Very Deep Convolutional Networks for Large-Scale Image Recognition","author":"simonyan","year":"2014","journal-title":"ArXiv Preprint"},{"key":"ref10","article-title":"Make-An-Audio: Text- To-Audio Generation with Prompt-Enhanced Diffusion Models","author":"huang","year":"2023","journal-title":"ArXiv Preprint"},{"key":"ref32","article-title":"Denoising diffusion probabilistic models","author":"ho","year":"0","journal-title":"Conference on Neural Information Processing Systems"},{"key":"ref2","article-title":"AudioGen: Textually Guided Audio Generation","author":"kreuk","year":"2022","journal-title":"ArXiv Preprint"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/MLSP52302.2021.9596430"},{"key":"ref17","article-title":"Adapting Pre-trained Vision Transformers from 2D to 3D through Weight Inflation Improves Medical Image Segmentation","author":"zhang","year":"2023","journal-title":"ar Xiv preprint"},{"key":"ref16","article-title":"Semantic- Guided Image Augmentation with Pre-trained Models","author":"li","year":"2023","journal-title":"ArXiv Preprint"},{"key":"ref19","article-title":"Language- based audio retrieval with pre-trained models","author":"mei","year":"2022","journal-title":"Tech Rep DCASE2016 Challenge"},{"key":"ref18","article-title":"Self-Supervised In-Domain Rep-resentation Learning for Remote Sensing Image Scene Classification","author":"ghanbarzade","year":"2023","journal-title":"ArXiv Preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/2733373.2806390"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2655045"},{"key":"ref26","article-title":"Frechet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms","author":"kilgour","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref25","article-title":"Improved Techniques for Training GAN s","author":"salimans","year":"2016","journal-title":"ar Xiv preprint"},{"key":"ref20","article-title":"On Met- ric Learning for Audio-Text Cross-Modal Retrieval","author":"mei","year":"2022","journal-title":"ar Xiv preprint"},{"key":"ref22","first-page":"776","article-title":"AudioSet: An ontology and human-labeled dataset for audio events","author":"gemmeke","year":"0","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing"},{"key":"ref21","article-title":"AudioCaps: Generating captions for audios in the wild","author":"kim","year":"2019","journal-title":"NAACL-HLT"},{"key":"ref28","article-title":"Neural Discrete Representation Learning","author":"van den oord","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref27","first-page":"925","article-title":"Acoustic scene generation with conditional samplernn","author":"kong","year":"0","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing"},{"key":"ref29","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"radford","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref8","article-title":"Diffsound: Discrete Diffusion Model for Text-to-sound Generation","author":"yang","year":"2022","journal-title":"ArXiv Preprint"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-11017"},{"key":"ref9","article-title":"AudioLDM: Text-to-Audio Generation with Latent Diffusion Models","author":"liu","year":"2023","journal-title":"ArXiv Preprint"},{"key":"ref4","article-title":"Taming Visually Guided Sound Generation","author":"iashin","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref3","article-title":"N aturalspeech: End-to-end text to speech synthesis with human-level quality","author":"tan","year":"2022","journal-title":"ArXiv Preprint"},{"key":"ref6","article-title":"AutoFoley: Artificial Synthesis of Syn-chronized Sound Tracks for Silent Videos with Deep Learning","author":"ghose","year":"2020","journal-title":"ar Xiv preprint"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-10894"}],"event":{"name":"2023 31st European Signal Processing Conference (EUSIPCO)","start":{"date-parts":[[2023,9,4]]},"location":"Helsinki, Finland","end":{"date-parts":[[2023,9,8]]}},"container-title":["2023 31st European Signal Processing Conference (EUSIPCO)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10289698\/10289713\/10289975.pdf?arnumber=10289975","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,1]],"date-time":"2023-11-01T22:37:20Z","timestamp":1698878240000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10289975\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,9,4]]},"references-count":34,"URL":"https:\/\/doi.org\/10.23919\/eusipco58844.2023.10289975","relation":{},"subject":[],"published":{"date-parts":[[2023,9,4]]}}}