{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:37:34Z","timestamp":1763192254830,"version":"3.45.0"},"reference-count":42,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T00:00:00Z","timestamp":1760227200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,12]],"date-time":"2025-10-12T00:00:00Z","timestamp":1760227200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,12]]},"DOI":"10.1109\/waspaa66052.2025.11230953","type":"proceedings-article","created":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T18:46:47Z","timestamp":1763146007000},"page":"1-5","source":"Crossref","is-referenced-by-count":0,"title":["Can Large Language Models Predict Audio Effects Parameters from Natural Language?"],"prefix":"10.1109","author":[{"given":"Seungheon","family":"Doh","sequence":"first","affiliation":[{"name":"KAIST,South Korea"}]},{"given":"Junghyun","family":"Koo","sequence":"additional","affiliation":[{"name":"Sony AI,Japan"}]},{"given":"Marco A.","family":"Mart\u00ednez-Ram\u00edrez","sequence":"additional","affiliation":[{"name":"Sony AI,Japan"}]},{"given":"Wei-Hsiang","family":"Liao","sequence":"additional","affiliation":[{"name":"Sony AI,Japan"}]},{"given":"Juhan","family":"Nam","sequence":"additional","affiliation":[{"name":"KAIST,South Korea"}]},{"given":"Yuki","family":"Mitsufuji","sequence":"additional","affiliation":[{"name":"Sony AI,Japan"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.17743\/jaes.2022.0023"},{"key":"ref2","article-title":"Weighted-function-based rapid mapping of descriptors to audio processing parameters","author":"Sabin","year":"2011","journal-title":"Journal of the Audio Engineering Society"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2967238"},{"article-title":"Social-EQ: Crowdsourcing an equalization descriptor map","volume-title":"Proc. ISMIR","author":"Cartwright","key":"ref4"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654876"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2967207"},{"article-title":"The mix evaluation dataset","volume-title":"20th Int. Conf. on Digital Audio Effects (DAFx-17)","author":"De Man","key":"ref7"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.17743\/jaes.2022.0047"},{"key":"ref9","article-title":"Word based end-to-end real time neural audio effects for equalisation","volume-title":"Audio Engineering Society Convention 155","author":"Balasubramaniam","year":"2023"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49660.2025.10890334"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095889"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.17743\/jaes.2022.0025"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA52581.2021.9632680"},{"article-title":"GPT-4 technical report","year":"2023","author":"Achiam","key":"ref14"},{"article-title":"Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context","year":"2024","author":"Georgiev","key":"ref15"},{"article-title":"The Llama 3 herd of models","year":"2024","author":"Grattafiori","key":"ref16"},{"article-title":"Emergent abilities of large language models","year":"2022","author":"Wei","key":"ref17"},{"article-title":"LP-MusicCaps: LLM-based pseudo music captioning","volume-title":"Proc. ISMIR","author":"Doh","key":"ref18"},{"article-title":"LLark: A multi-modal foundation model for music","year":"2023","author":"Gardner","key":"ref19"},{"article-title":"SALMONN: Towards generic hearing abilities for large language models","volume-title":"Proc. ICLR","author":"Tang","key":"ref20"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10447027"},{"article-title":"OpenMU: Your swiss army knife for music understanding","year":"2024","author":"Zhao","key":"ref22"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446380"},{"article-title":"Augment, drop & swap: Improving diversity in llm captions for efficient music-text representation learning","year":"2024","author":"Manco","key":"ref24"},{"article-title":"Music discovery dialogue generation using human intent analysis and large language models","volume-title":"Proc. ISMIR","author":"Doh","key":"ref25"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.133"},{"article-title":"TALKPLAY: Multimodal music recommendation with large language models","year":"2025","author":"Doh","key":"ref27"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.373"},{"article-title":"Language models are few-shot learners","volume-title":"Advances in neural information processing systems","author":"Brown","key":"ref29"},{"article-title":"Code Llama: Open foundation models for code","year":"2023","author":"Roziere","key":"ref30"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1121\/1.1909343"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.17743\/jaes.2016.0037"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952132"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095969"},{"article-title":"ST-ITO: Controlling audio effects for style transfer with inference-time optimization","volume-title":"Proc. ISMIR","author":"Steinmetz","key":"ref35"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096458"},{"article-title":"Mistral 7b","year":"2023","author":"Jiang","key":"ref37"},{"key":"ref38","article-title":"A kernel two-sample test","author":"Gretton","year":"2012","journal-title":"The Journal of Machine Learning Research"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00889"},{"article-title":"KAD: No more FAD! An effective and efficient evaluation metric for audio generation","year":"2025","author":"Chung","key":"ref40"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.3390\/app6050129"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2012.2189567"}],"event":{"name":"2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)","start":{"date-parts":[[2025,10,12]]},"location":"Tahoe City, CA, USA","end":{"date-parts":[[2025,10,15]]}},"container-title":["2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11230875\/11230917\/11230953.pdf?arnumber=11230953","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:32:34Z","timestamp":1763191954000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11230953\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,12]]},"references-count":42,"URL":"https:\/\/doi.org\/10.1109\/waspaa66052.2025.11230953","relation":{},"subject":[],"published":{"date-parts":[[2025,10,12]]}}}