{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,21]],"date-time":"2025-11-21T11:31:32Z","timestamp":1763724692000,"version":"3.28.0"},"reference-count":32,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,6,4]],"date-time":"2023-06-04T00:00:00Z","timestamp":1685836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,6,4]],"date-time":"2023-06-04T00:00:00Z","timestamp":1685836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,6,4]]},"DOI":"10.1109\/icassp49357.2023.10094588","type":"proceedings-article","created":{"date-parts":[[2023,5,5]],"date-time":"2023-05-05T17:28:30Z","timestamp":1683307710000},"page":"1-5","source":"Crossref","is-referenced-by-count":6,"title":["Variable Attention Masking for Configurable Transformer Transducer Speech Recognition"],"prefix":"10.1109","author":[{"given":"Pawel","family":"Swietojanski","sequence":"first","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stefan","family":"Braun","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dogan","family":"Can","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Thiago Fraga","family":"Da Silva","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Arnab","family":"Ghoshal","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Takaaki","family":"Hori","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Roger","family":"Hsiao","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Henry","family":"Mason","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Erik","family":"McDermott","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Honza","family":"Silovsky","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ruchir","family":"Travadi","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaodan","family":"Zhuang","sequence":"additional","affiliation":[{"name":"Apple"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414560"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-720"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-1983"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413535"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413803"},{"key":"ref30","article-title":"Acoustic modelling with cd-ctcsmbr lstm rnns","author":"senior","year":"2021","journal-title":"Proc ASRU"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413692"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-1693"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-322"},{"key":"ref2","article-title":"Attention is all you need","volume":"30","author":"vaswani","year":"2021","journal-title":"Proc NIPS"},{"key":"ref1","article-title":"Recent advances in end-to-end automatic speech recognition","volume":"abs 2111 1690","author":"li","year":"2021","journal-title":"ArXiv"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054476"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2361"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU46091.2019.9003749"},{"key":"ref18","first-page":"7884","article-title":"Synchronous transformers for endto-end speech recognition","author":"tian","year":"2020","journal-title":"Proc ICASSP"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/OJSP.2020.3045349"},{"key":"ref23","first-page":"2978","article-title":"Transformer-XL: Attentive language models beyond a fixed-length context","author":"dai","year":"2021","journal-title":"Proc ACL"},{"key":"ref26","first-page":"448","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","volume":"37","author":"ioffe","year":"2021","journal-title":"Proc ICML"},{"key":"ref25","article-title":"Layer normalization","volume":"abs 1607 6450","author":"ba","year":"2016","journal-title":"CoRR"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1972"},{"key":"ref22","article-title":"Relative positional encoding for speech recognition and direct translation","author":"pham","year":"2021","journal-title":"Proc INTERSPEECH"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-3015"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-206"},{"key":"ref27","first-page":"7049","article-title":"Rnn-transducer with stateless prediction network","author":"ghodsi","year":"2021","journal-title":"Proc ICASSP"},{"key":"ref29","first-page":"16079","article-title":"Cape: Encoding relative positions with continuous augmented positional embeddings","volume":"34","author":"likhomanenko","year":"2021","journal-title":"Proc NeurIPS"},{"key":"ref8","article-title":"Transformer transducer: One model unifying streaming and non-streaming speech recognition","author":"tripathi","year":"2020","journal-title":"arXiv preprint arXiv 2010 08923"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-10551"},{"key":"ref9","article-title":"Dual-mode asr: Unify and improve streaming asr with full-context modeling","author":"yu","year":"2020","journal-title":"arXiv preprint arXiv 2010 09084"},{"key":"ref4","article-title":"Sequence transduction with recurrent neural networks","author":"graves","year":"2012","journal-title":"arXiv preprint arXiv 1211 3711"},{"key":"ref3","first-page":"7829","article-title":"Transformer Transducer: A streamable speech recognition model with transformer encoders and RNN-T loss","author":"zhang","year":"2021","journal-title":"Proc ICASSP"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414607"},{"key":"ref5","article-title":"Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets","author":"graves","year":"2021","journal-title":"Proc ICML"}],"event":{"name":"ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2023,6,4]]},"location":"Rhodes Island, Greece","end":{"date-parts":[[2023,6,10]]}},"container-title":["ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10094559\/10094560\/10094588.pdf?arnumber=10094588","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,20]],"date-time":"2023-11-20T18:56:51Z","timestamp":1700506611000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10094588\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,4]]},"references-count":32,"URL":"https:\/\/doi.org\/10.1109\/icassp49357.2023.10094588","relation":{},"subject":[],"published":{"date-parts":[[2023,6,4]]}}}