{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T07:32:12Z","timestamp":1761895932463,"version":"build-2065373602"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/icme59968.2025.11210185","type":"proceedings-article","created":{"date-parts":[[2025,10,30]],"date-time":"2025-10-30T17:57:42Z","timestamp":1761847062000},"page":"1-6","source":"Crossref","is-referenced-by-count":0,"title":["UniSep: Universal Target Audio Separation with Language Models at Scale"],"prefix":"10.1109","author":[{"given":"Yuanyuan","family":"Wang","sequence":"first","affiliation":[{"name":"The Chinese University of Hong Kong,China"}]},{"given":"Hangting","family":"Chen","sequence":"additional","affiliation":[{"name":"Audio and Speech Signal Processing Oteam,Tencent AI Lab,China"}]},{"given":"Dongchao","family":"Yang","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong,China"}]},{"given":"Weiqin","family":"Li","sequence":"additional","affiliation":[{"name":"Tsinghua University,Shenzhen International Graduate School,Shenzhen,China"}]},{"given":"Dan","family":"Luo","sequence":"additional","affiliation":[{"name":"Tsinghua University,Shenzhen International Graduate School,Shenzhen,China"}]},{"given":"Guangzhi","family":"Li","sequence":"additional","affiliation":[{"name":"Audio and Speech Signal Processing Oteam,Tencent AI Lab,China"}]},{"given":"Shan","family":"Yang","sequence":"additional","affiliation":[{"name":"Audio and Speech Signal Processing Oteam,Tencent AI Lab,China"}]},{"given":"Zhiyong","family":"Wu","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong,China"}]},{"given":"Helen","family":"Meng","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong,China"}]},{"given":"Xixin","family":"Wu","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong,China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2580946"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683007"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2018.2842159"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2019.2915167"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA.2019.8937253"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053921"},{"key":"ref7","first-page":"3846","article-title":"Unsupervised sound separation using mixture invariant training","volume":"33","author":"Wisdom","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10447291"},{"article-title":"Music source separation in the waveform domain","year":"2019","author":"D\u00e9fossez","key":"ref9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096956"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/icassp48485.2024.10446601"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414774"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i4.20366"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3129994"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2023.3288409"},{"article-title":"Uniaudio: An audio foundation model toward universal audio generation","year":"2023","author":"Yang","key":"ref16"},{"article-title":"Improving language understanding by generative pre-training","year":"2018","author":"Radford","key":"ref17"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9052942"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952261"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2826"},{"article-title":"Musdb18-a corpus for music separation","year":"2017","author":"Rafii","key":"ref21"},{"article-title":"Librimix: An open-source dataset for generalizable speech separation","year":"2020","author":"Cosentino","key":"ref22"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2019.2922820"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2019-1101"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414878"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1186\/s13636-015-0054-9"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/QoMEX48832.2020.9123150"},{"article-title":"High-fidelity audio compression with improved rvqgan","year":"2023","author":"Kumar","key":"ref29"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-2069"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2024.3497586"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49660.2025.10890066"},{"article-title":"Universal source separation with weakly labelled data","year":"2023","author":"Kong","key":"ref33"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-10894"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2022-10894"},{"issue":"140","key":"ref36","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"Journal of Machine Learning Research"}],"event":{"name":"2025 IEEE International Conference on Multimedia and Expo (ICME)","start":{"date-parts":[[2025,6,30]]},"location":"Nantes, France","end":{"date-parts":[[2025,7,4]]}},"container-title":["2025 IEEE International Conference on Multimedia and Expo (ICME)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11208895\/11208897\/11210185.pdf?arnumber=11210185","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T06:02:47Z","timestamp":1761890567000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11210185\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/icme59968.2025.11210185","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}