{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T19:46:38Z","timestamp":1776887198302,"version":"3.51.2"},"reference-count":34,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,12,3]],"date-time":"2024-12-03T00:00:00Z","timestamp":1733184000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,12,3]],"date-time":"2024-12-03T00:00:00Z","timestamp":1733184000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,12,3]]},"DOI":"10.1109\/apsipaasc63619.2025.10849259","type":"proceedings-article","created":{"date-parts":[[2025,1,27]],"date-time":"2025-01-27T18:37:05Z","timestamp":1738003025000},"page":"1-6","source":"Crossref","is-referenced-by-count":5,"title":["EMO-Codec: An In-Depth Look at Emotion Preservation Capacity of Legacy and Neural Codec Models with Subjective and Objective Evaluations"],"prefix":"10.1109","author":[{"given":"Wenze","family":"Ren","sequence":"first","affiliation":[{"name":"National Taiwan University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yi-Cheng","family":"Lin","sequence":"additional","affiliation":[{"name":"National Taiwan University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huang-Cheng","family":"Chou","sequence":"additional","affiliation":[{"name":"National Tsinghua University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haibin","family":"Wu","sequence":"additional","affiliation":[{"name":"National Taiwan University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yi-Chiao","family":"Wu","sequence":"additional","affiliation":[{"name":"National Taiwan University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chi-Chun","family":"Lee","sequence":"additional","affiliation":[{"name":"National Tsinghua University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hung-Yi","family":"Lee","sequence":"additional","affiliation":[{"name":"National Taiwan University,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hsin-Min","family":"Wang","sequence":"additional","affiliation":[{"name":"Academia Sinica,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu","family":"Tsao","sequence":"additional","affiliation":[{"name":"Academia Sinica,Taiwan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Llama 2: Open Foundation and Fine-Tuned Chat Models, 2023","author":"Touvron"},{"key":"ref2","article-title":"Neural codec language models are zero-shot text to speech synthesizers","author":"Wang","year":"2023"},{"key":"ref3","article-title":"Uniaudio: An audio foundation model toward universal audio generation","author":"Yang","year":"2023"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/icassp48485.2024.10448257"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/COMPSAC54236.2022.00257"},{"key":"ref6","article-title":"Towards audio language modeling \u2013 an overview, 2024","author":"Wu"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414901"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.616"},{"key":"ref9","article-title":"Emotion Intelligibility within Codec-Compressed and Reduced Bandwidth Speech","volume-title":"Speech Communication; 12. ITG Symposium","author":"Siegert"},{"key":"ref10","article-title":"\u201cHigh on Emotion\u201d? How Audio Codecs Interfere With the Perceived Charisma and Emotional States of Men and Women","author":"Niebuhr","year":"2022","journal-title":"33. Konferenz Elektronische Sprachsignalverarbeitung, ESSV 2022"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICSPCS.2016.7843353"},{"key":"ref12","first-page":"1","article-title":"Audio Compression and its Impact on Emotion Recognition in Affective Computing","author":"Lotz","year":"2017","journal-title":"Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2017"},{"key":"ref13","article-title":"High-fidelity audio compression with improved RVQGAN","author":"Kumar","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref14","article-title":"Hifi-codec: Group-residual vector quantization for high fidelity audio codec","author":"Yang","year":"2023"},{"key":"ref15","article-title":"Speechtokenizer: Unified speech tokenizer for speech large language models","author":"Zhang","year":"2023"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3263585"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747870"},{"key":"ref18","article-title":"High Fidelity Neural Audio Compression","author":"D\u00e9fossez","year":"2022"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096509"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/icassp48485.2024.10447523"},{"key":"ref21","article-title":"Bigvgan: A universal neural vocoder with large-scale training","author":"Lee","year":"2022"},{"key":"ref22","article-title":"Soundstream: An end-to-end neural audio codec, 2021","author":"Zeghidour"},{"key":"ref23","article-title":"Iso-mpeg-1 audio: A generic standard for coding of high-: Quality digital audio","author":"Brandenburg","year":"1994"},{"key":"ref24","volume-title":"High-quality, low-delay music coding in the opus codec, 2016","author":"Valin"},{"key":"ref25","first-page":"789","article-title":"Iso\/iecmpeg-2 advanced audio coding","volume-title":"Journal of The Audio Engineering Society","volume":"45","author":"Bosi","year":"1997"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/slt61566.2024.10832296"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/taffc.2024.3411290"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.308"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2021-1775"},{"key":"ref30","article-title":"Decoupled Weight Decay Regularization","volume-title":"International Conference on Learning Representations","author":"Loshchilov"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00949"},{"key":"ref32","article-title":"Macro f1 and macro f1","author":"Opitz","year":"2019"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.21437\/SMM.2019-3"},{"key":"ref34","article-title":"Itu-t p.835, subjective test methodology for evaluating speech communication systems that include noise suppression algorithm","year":"2003","journal-title":"International Telecommunication Union"}],"event":{"name":"2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)","location":"Macau, Macao","start":{"date-parts":[[2024,12,3]]},"end":{"date-parts":[[2024,12,6]]}},"container-title":["2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10848542\/10848533\/10849259.pdf?arnumber=10849259","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,28]],"date-time":"2025-01-28T06:10:47Z","timestamp":1738044647000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10849259\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,3]]},"references-count":34,"URL":"https:\/\/doi.org\/10.1109\/apsipaasc63619.2025.10849259","relation":{},"subject":[],"published":{"date-parts":[[2024,12,3]]}}}