{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,10]],"date-time":"2026-07-10T19:30:18Z","timestamp":1783711818062,"version":"3.55.0"},"reference-count":40,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,12,16]],"date-time":"2023-12-16T00:00:00Z","timestamp":1702684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,12,16]],"date-time":"2023-12-16T00:00:00Z","timestamp":1702684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,12,16]]},"DOI":"10.1109\/asru57964.2023.10389703","type":"proceedings-article","created":{"date-parts":[[2024,1,19]],"date-time":"2024-01-19T18:38:40Z","timestamp":1705689520000},"page":"1-8","source":"Crossref","is-referenced-by-count":31,"title":["SLM: Bridge the Thin Gap Between Speech and Text Foundation Models"],"prefix":"10.1109","author":[{"given":"Mingqiu","family":"Wang","sequence":"first","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wei","family":"Han","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Izhak","family":"Shafran","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zelin","family":"Wu","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chung-Cheng","family":"Chiu","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuan","family":"Cao","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nanxin","family":"Chen","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hagen","family":"Soltau","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Paul K.","family":"Rubenstein","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lukas","family":"Zilka","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dian","family":"Yu","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Golan","family":"Pundak","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nikhil","family":"Siddhartha","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Johan","family":"Schalkwyk","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yonghui","family":"Wu","sequence":"additional","affiliation":[{"name":"Google Deepmind"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Gpt-4 technical report","year":"2023"},{"key":"ref2","article-title":"Palm 2 technical report","volume-title":"arXiv","author":"Anil","year":"2023"},{"key":"ref3","article-title":"Google usm: Scaling automatic speech recognition beyond 100 languages","author":"Zhang","year":"2023","journal-title":"arXiv"},{"key":"ref4","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"in Proc. ICML","author":"Radford"},{"key":"ref5","article-title":"Speechto-text adapter and speech-to-entity retriever augmented llms for speech understanding","author":"Wang","year":"2023","journal-title":"arXiv"},{"key":"ref6","article-title":"Parameter-efficient transfer learning for nlp","volume-title":"in Proc. ICML","author":"Houlsby"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-1037"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.1055"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3122291"},{"key":"ref10","article-title":"Audiopalm: A large language model that can speak and listen","author":"Rubenstein","year":"2023","journal-title":"arXiv"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/taslp.2023.3288409"},{"key":"ref12","article-title":"Pengi: An audio language model for audio tasks","author":"Deshmukh","year":"2023","journal-title":"arXiv preprint"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01457"},{"key":"ref14","article-title":"Listen, think, and understand","author":"Gong","year":"2023","journal-title":"arXiv"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2023-852"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2021-2027"},{"key":"ref17","article-title":"Stanford alpaca: An instruction-following llama model","author":"Taori","year":"2023"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-1757"},{"key":"ref19","article-title":"Non-attentive tacotron: Robust and controllable neural tts synthesis including unsupervised duration modeling","author":"Shen","year":"2020","journal-title":"arXiv"},{"key":"ref20","article-title":"Self-supervised learning with random-projection quantizer for speech recognition","volume-title":"in Proc. ICML","author":"Chiu"},{"key":"ref21","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","author":"Raffel","year":"2020","journal-title":"The Journal of Machine Learning Research"},{"key":"ref22","article-title":"Crosslingual generalization through multitask finetuning","author":"Muennighoff","year":"2022","journal-title":"arXiv"},{"key":"ref23","article-title":"mt5: A massively multilingual pretrained text-to-text transformer","author":"Xue","year":"2020","journal-title":"arXiv"},{"key":"ref24","article-title":"Speechstew: Simply mix all available speech recognition data to train one large neural network","author":"Chan","year":"2021","journal-title":"arXiv"},{"key":"ref25","article-title":"Voxpopuli: A large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation","author":"ChanghanWang","year":"2021","journal-title":"arXiv"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/slt54892.2023.10023141"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2004-668"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/w18-6319"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/SLT54892.2023.10023323"},{"key":"ref31","article-title":"mslam: Massively multilingual joint pre-training for speech and text","author":"Bapna","year":"2022","journal-title":"arXiv"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-10937"},{"key":"ref33","article-title":"Mu2 slam: Multitask, multilingual speech and language models","volume-title":"in Proc. ICML","author":"Cheng"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00276"},{"key":"ref35","article-title":"Lora: Low-rank adaptation of large language models","author":"Hu","year":"2021","journal-title":"arXiv"},{"key":"ref36","article-title":"Flamingo: a visual language model for few-shot learning","volume-title":"Proc. Neurips","author":"Alayrac"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.630"},{"key":"ref38","article-title":"Scaling instruction-finetuned language models","author":"Chung","year":"2022","journal-title":"arXiv"},{"key":"ref39","doi-asserted-by":"crossref","DOI":"10.1007\/3-540-33486-6_6","article-title":"A neural probabilistic language model","volume-title":"Proc. Neurips","author":"Bengio"},{"key":"ref40","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv"}],"event":{"name":"2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","location":"Taipei, Taiwan","start":{"date-parts":[[2023,12,16]]},"end":{"date-parts":[[2023,12,20]]}},"container-title":["2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10388490\/10389614\/10389703.pdf?arnumber=10389703","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,23]],"date-time":"2024-01-23T16:36:19Z","timestamp":1706027779000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10389703\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,12,16]]},"references-count":40,"URL":"https:\/\/doi.org\/10.1109\/asru57964.2023.10389703","relation":{},"subject":[],"published":{"date-parts":[[2023,12,16]]}}}