{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T07:10:54Z","timestamp":1775200254113,"version":"3.50.1"},"reference-count":24,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T00:00:00Z","timestamp":1764979200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T00:00:00Z","timestamp":1764979200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,6]]},"DOI":"10.1109\/asru65441.2025.11434766","type":"proceedings-article","created":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T19:48:04Z","timestamp":1775159284000},"page":"1-7","source":"Crossref","is-referenced-by-count":0,"title":["Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model"],"prefix":"10.1109","author":[{"given":"Haibin","family":"Wu","sequence":"first","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuxuan","family":"Hu","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ruchao","family":"Fan","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaofei","family":"Wang","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kenichi","family":"Kumatani","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bo","family":"Ren","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianwei","family":"Yu","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Heng","family":"Lu","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lijuan","family":"Wang","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yao","family":"Qian","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jinyu","family":"Li","sequence":"additional","affiliation":[{"name":"Microsoft,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"On the landscape of spoken language models: A comprehensive survey","author":"Arora","year":"2025","journal-title":"arXiv preprint arXiv:2504.08528"},{"key":"ref2","article-title":"Moshi: a speechtext foundation model for real-time dialogue","author":"D\u00e9fossez","year":"2024","journal-title":"arXiv preprint arXiv:2410.00037"},{"key":"ref3","article-title":"Wavchat: A survey of spoken dialogue models","author":"Ji","year":"2024","journal-title":"arXiv preprint arXiv:2411.13577"},{"key":"ref4","article-title":"Towards audio language modeling-an overview","author":"Wu","year":"2024","journal-title":"arXiv preprint arXiv:2402.13236"},{"key":"ref5","article-title":"A survey on speech large language models","author":"Peng","year":"2024","journal-title":"arXiv preprint arXiv:2410.18908"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2025.3643619"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/SLT61566.2024.10832289"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.616"},{"key":"ref9","article-title":"DASB\u2014discrete audio and speech benchmark","author":"Mousavi","year":"2024","journal-title":"arXiv preprint arXiv:2406.14294"},{"key":"ref10","first-page":"30","article-title":"SpiRit-LM: Interleaved spoken and written language model","volume":"13","author":"Nguyen","year":"2025","journal-title":"tacl"},{"key":"ref11","article-title":"GLM-4-Voice: Towards intelligent and human-like end-to-end spoken chatbot","author":"Zeng","year":"2024","journal-title":"arXiv preprint arXiv:2412.02612"},{"key":"ref12","article-title":"Kimiaudio technical report","volume-title":"arXiv preprint arXiv:2504.18425","author":"Ding","year":"2025"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.115"},{"key":"ref14","article-title":"Minmo: A multimodal large language model for seamless voice interaction","author":"Chen","year":"2025","journal-title":"arXiv preprint arXiv:2501.06282"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.912"},{"key":"ref16","article-title":"Scaling speech-text pre-training with synthetic interleaved data","author":"Zeng","year":"2024","journal-title":"arXiv preprint arXiv:2411.17607"},{"key":"ref17","article-title":"Phi-4-mini technical report: Compact yet powerful multimodal language models via mixture-of-loras","volume-title":"arXiv preprint arXiv:2503.01743","year":"2025"},{"key":"ref18","article-title":"Cosyvoice 2: Scalable streaming speech synthesis with large language models","volume-title":"arXiv preprint arXiv:2412.10117","author":"Du","year":"2024"},{"issue":"2","key":"ref19","first-page":"3","article-title":"Lora: Low-rank adaptation of large language models","volume":"1","author":"Hu","year":"2022","journal-title":"ICLR"},{"key":"ref20","article-title":"Spoken question answering and speech continuation using spectrogrampowered LLM","volume-title":"The Twelfth International Conference on Learning Representations","author":"Nachmani"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-1147"},{"key":"ref22","first-page":"1533","article-title":"Semantic parsing on Freebase from question-answer pairs","volume-title":"Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing","author":"Berant"},{"key":"ref23","first-page":"28492","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"International conference on machine learning","author":"Radford"},{"key":"ref24","volume-title":"Hello gpt-4o","year":"2024"}],"event":{"name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,12,6]]},"end":{"date-parts":[[2025,12,10]]}},"container-title":["2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11434577\/11433836\/11434766.pdf?arnumber=11434766","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T04:59:31Z","timestamp":1775192371000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11434766\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,6]]},"references-count":24,"URL":"https:\/\/doi.org\/10.1109\/asru65441.2025.11434766","relation":{},"subject":[],"published":{"date-parts":[[2025,12,6]]}}}