{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T18:06:52Z","timestamp":1776881212416,"version":"3.51.2"},"reference-count":45,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T00:00:00Z","timestamp":1764979200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T00:00:00Z","timestamp":1764979200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,6]]},"DOI":"10.1109\/asru65441.2025.11434630","type":"proceedings-article","created":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T19:48:04Z","timestamp":1775159284000},"page":"1-7","source":"Crossref","is-referenced-by-count":1,"title":["Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling"],"prefix":"10.1109","author":[{"given":"Ju-Chieh","family":"Chou","sequence":"first","affiliation":[{"name":"Toyota Technological Institute at Chicago IL,USA"}]},{"given":"Jiawei","family":"Zhou","sequence":"additional","affiliation":[{"name":"Stony Brook University,NY,USA"}]},{"given":"Karen","family":"Livescu","sequence":"additional","affiliation":[{"name":"Toyota Technological Institute at Chicago IL,USA"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Textually pretrained speech language models","volume-title":"Proc. NeurIPS","author":"Hassid"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00430"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2023.3288409"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.593"},{"key":"ref5","article-title":"Flow matching for generative modeling","volume-title":"Proc. ICLR","author":"Lipman"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3129994"},{"key":"ref7","article-title":"Moshi: A speech-text foundation model for real-time dialogue","author":"D\u00e9fossez","year":"2024","journal-title":"arXiv preprint arXiv:2410.00037"},{"key":"ref8","article-title":"SpeechTokenizer: Unified speech tokenizer for speech language models","volume-title":"Proc. ICLR","author":"Zhang"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3122291"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-475"},{"key":"ref11","article-title":"High fidelity neural audio compression","author":"D\u00e9fossez","year":"2022","journal-title":"arXiv preprint arXiv:2210.13438"},{"key":"ref12","article-title":"On the landscape of spoken language models: A comprehensive survey","author":"Arora","year":"2025","journal-title":"arXiv preprint arXiv:2504.08528"},{"key":"ref13","article-title":"SALMONN: Towards generic hearing abilities for large language models","volume-title":"Proc. ICLR","author":"Tang"},{"key":"ref14","article-title":"Qwen-Audio: Advancing universal audio understanding via unified large-scale audio-language models","author":"Chu","year":"2023","journal-title":"arXiv preprint arXiv:2311.07919"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.438"},{"key":"ref16","article-title":"SpiritLM: Interleaved spoken and written language model","author":"Nguyen","year":"2025","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref17","article-title":"Mini-Omni: Language models can hear, talk while thinking in streaming","author":"Xie","year":"2024","journal-title":"arXiv preprint arXiv:2408.16725"},{"key":"ref18","article-title":"Flow straight and fast: Learning to generate and transfer data with rectified flow","volume-title":"Proc. ICLR","author":"Liu"},{"key":"ref19","article-title":"Generative modeling by estimating gradients of the data distribution","volume-title":"Proc. NeurIPS","author":"Song"},{"key":"ref20","article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. NeurIPS","author":"Ho"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/icassp48485.2024.10448291"},{"key":"ref22","article-title":"UniWav: Towards unified pre-training for speech representation learning and generation","volume-title":"Proc. ICLR","author":"Liu"},{"key":"ref23","article-title":"Generative pre-training for speech with flow matching","volume-title":"Proc. ICLR","author":"Liu"},{"key":"ref24","article-title":"Voicebox: Textguided multilingual universal speech generation at scale","volume-title":"Proc. NeurIPS","author":"Le"},{"key":"ref25","article-title":"Continuous speech tokens makes LLMs robust multi-modality learners","author":"Yuan","year":"2024","journal-title":"arXiv preprint arXiv:2412.04917"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2826"},{"key":"ref27","article-title":"The People\u2019s Speech: A large-scale diverse English speech recognition dataset for commercial usage","volume-title":"Proc. NeurIPS Datasets and Benchmarks Track","author":"Galvez"},{"key":"ref28","article-title":"OpenELM: An efficient language model family with open-source training and inference framework","author":"Mehta","year":"2024","journal-title":"arXiv preprint arXiv:2404.14619"},{"key":"ref29","article-title":"Autoregressive image generation without vector quantization","volume-title":"Proc. NeurIPS","author":"Li"},{"key":"ref30","article-title":"8-bit optimizers via block-wise quantization","volume-title":"Proc. ICLR","author":"Dettmers"},{"key":"ref31","article-title":"Classifier-free diffusion guidance","volume-title":"NeurIPS Workshop on Deep Generative Models and Downstream","author":"Ho"},{"key":"ref32","article-title":"The curious case of neural text degeneration","volume-title":"Proc. ICLR","author":"Holtzman"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU57964.2023.10389648"},{"key":"ref34","article-title":"The Zero Resource Speech Benchmark 2021: Metrics and baselines for unsupervised spoken language modeling","volume-title":"NeurIPS Workshop on Self-Supervised Learning for Speech and Audio Processing","author":"Nguyen"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49660.2025.10888561"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"ref37","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"Proc. ICML","author":"Radford"},{"key":"ref38","article-title":"The Llama 3 herd of models","author":"Grattafiori","year":"2024","journal-title":"arXiv preprint arXiv:2407.21783"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.631"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2022.3188113"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/SLT61566.2024.10832365"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.931"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-419"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10447112"},{"key":"ref45","article-title":"An empirical analysis of compute-optimal large language model training","volume-title":"Proc. NeurIPS","author":"Hoffmann"}],"event":{"name":"2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,12,6]]},"end":{"date-parts":[[2025,12,10]]}},"container-title":["2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11434577\/11433836\/11434630.pdf?arnumber=11434630","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T04:57:33Z","timestamp":1775192253000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11434630\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,6]]},"references-count":45,"URL":"https:\/\/doi.org\/10.1109\/asru65441.2025.11434630","relation":{},"subject":[],"published":{"date-parts":[[2025,12,6]]}}}