{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T15:29:47Z","timestamp":1775230187536,"version":"3.50.1"},"reference-count":24,"publisher":"IEEE","license":[{"start":{"date-parts":[[2019,12,1]],"date-time":"2019-12-01T00:00:00Z","timestamp":1575158400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,12,1]],"date-time":"2019-12-01T00:00:00Z","timestamp":1575158400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,12,1]],"date-time":"2019-12-01T00:00:00Z","timestamp":1575158400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019,12]]},"DOI":"10.1109\/asru46091.2019.9003854","type":"proceedings-article","created":{"date-parts":[[2020,2,21]],"date-time":"2020-02-21T07:01:33Z","timestamp":1582268493000},"page":"889-896","source":"Crossref","is-referenced-by-count":52,"title":["A Comparison of End-to-End Models for Long-Form Speech Recognition"],"prefix":"10.1109","author":[{"given":"Chung-Cheng","family":"Chiu","sequence":"first","affiliation":[]},{"given":"Wei","family":"Han","sequence":"additional","affiliation":[]},{"given":"Yu","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Ruoming","family":"Pang","sequence":"additional","affiliation":[]},{"given":"Sergey","family":"Kishchenko","sequence":"additional","affiliation":[]},{"given":"Patrick","family":"Nguyen","sequence":"additional","affiliation":[]},{"given":"Arun","family":"Narayanan","sequence":"additional","affiliation":[]},{"given":"Hank","family":"Liao","sequence":"additional","affiliation":[]},{"given":"Shuyuan","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Anjuli","family":"Kannan","sequence":"additional","affiliation":[]},{"given":"Rohit","family":"Prabhavalkar","sequence":"additional","affiliation":[]},{"given":"Zhifeng","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Tara","family":"Sainath","sequence":"additional","affiliation":[]},{"given":"Yonghui","family":"Wu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref10","article-title":"A Comparison of Sequence-to-sequence Models for Speech Recognition","author":"prabhavalkar","year":"2017","journal-title":"Proc INTERSPEECH"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953077"},{"key":"ref12","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2017-1566","article-title":"Neural speech recognizer: Acoustic-to-word lstm model for large vocabulary speech recognition","author":"soltau","year":"2017","journal-title":"Proc Interspeech 2017"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref14","article-title":"Large scale deep neural network acoustic modeling with semi -supervised training data for youtube video transcription","author":"mcdermott","year":"2013","journal-title":"2013 IEEE Workshop on Automatic Speech Recognition and Understanding"},{"key":"ref15","first-page":"2837","article-title":"Online and linear-time attention by enforcing monotonic alignments","volume":"70","author":"raffel","year":"2017","journal-title":"Proceedings of the 34th International Conference on Machine Learning"},{"key":"ref16","article-title":"Monotonic chunkwise attention","author":"chiu","year":"2018","journal-title":"International Conference on Learning Representations"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1126"},{"key":"ref18","author":"graves","year":"2013","journal-title":"Generating Sequences with Recurrent Neural Networks"},{"key":"ref19","author":"tjandra","year":"2017","journal-title":"Local monotonic attention mechanism for end-to-end speech and language processing"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"ref3","article-title":"Sequence transduction with recurrent neural networks","volume":"abs 1211 3711","author":"graves","year":"2012","journal-title":"CoRR"},{"key":"ref6","article-title":"Listen, attend and spell","volume":"abs 1508 1211","author":"chan","year":"2015","journal-title":"CoRR"},{"key":"ref5","article-title":"Towards End-to-End Speech Recognition with Recurrent Neural Networks","author":"graves","year":"2014","journal-title":"Proc ICML"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472618"},{"key":"ref7","article-title":"Attention-Based Models for Speech Recognition","author":"chorowski","year":"2015","journal-title":"Proc NIPS"},{"key":"ref2","article-title":"Streaming end-to-end speech recognition for mobile devices","author":"yanzhang","year":"2019","journal-title":"ICASSP 2019 &#x2013; 2019 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462105"},{"key":"ref9","article-title":"Exploring Neural Transducers for End-to-End Speech Recognition","author":"battenberg","year":"2017","journal-title":"Proc ASRU"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2018.8639610"},{"key":"ref22","author":"shen","year":"2019","journal-title":"Lingvo a Modular and Scalable Framework for Sequence-to-Sequence Modeling"},{"key":"ref21","article-title":"Compression of end-to-end models","author":"tara","year":"2018","journal-title":"Interspeech 2018"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2018.8639690"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2017.8268944"}],"event":{"name":"2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","location":"SG, Singapore","start":{"date-parts":[[2019,12,14]]},"end":{"date-parts":[[2019,12,18]]}},"container-title":["2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8985378\/9003727\/09003854.pdf?arnumber=9003854","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,18]],"date-time":"2022-07-18T14:49:25Z","timestamp":1658155765000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9003854\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,12]]},"references-count":24,"URL":"https:\/\/doi.org\/10.1109\/asru46091.2019.9003854","relation":{},"subject":[],"published":{"date-parts":[[2019,12]]}}}