{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,4,10]],"date-time":"2025-04-10T18:44:33Z","timestamp":1744310673647,"version":"3.28.0"},"reference-count":36,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,4]]},"DOI":"10.1109\/icassp.2018.8462439","type":"proceedings-article","created":{"date-parts":[[2018,9,21]],"date-time":"2018-09-21T22:24:48Z","timestamp":1537568688000},"page":"5774-5778","source":"Crossref","is-referenced-by-count":22,"title":["End-to-end Multimodal Speech Recognition"],"prefix":"10.1109","author":[{"given":"Shruti","family":"Palaskar","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ramon","family":"Sanabria","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Florian","family":"Metze","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref33","article-title":"OpenNMT: Open-Source Toolkit for Neural Machine Translation","author":"klein","year":"0","journal-title":"Ar Xiv e-prints"},{"journal-title":"Towards better decoding and language model integration in sequence to sequence models","year":"0","author":"chorowski","key":"ref32"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553380"},{"key":"ref30","first-page":"4835","article-title":"Joint etc-attention based end-to-end speech recognition using multi-task learning","author":"kim","year":"2017","journal-title":"Proc ICASSP"},{"key":"ref36","article-title":"Speech recognition for medical conversations","volume":"abs 1711 7274","author":"chiu","year":"2017","journal-title":"CoRR"},{"key":"ref35","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2017-1683","article-title":"Comparison of decoding strategies for ctc acoustic models","author":"zenkel","year":"2017","journal-title":"Proc INTERSPEECH"},{"key":"ref34","article-title":"Towards end-to-end speech recognition with recurrent neural networks","author":"graves","year":"2014","journal-title":"Proc ICML"},{"key":"ref10","article-title":"A time delay neural network architecture for efficient modeling of long temporal contexts","author":"peddinti","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472692"},{"key":"ref12","article-title":"Distance-aware DNNs for robust speech recognition","author":"miao","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/6046.865479"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1993.319179"},{"key":"ref15","first-page":"165","article-title":"Hierarchical discriminant features for audio-visual lvcsr","volume":"1","author":"potamianos","year":"2001","journal-title":"Proc ICASSP"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/35.41402"},{"key":"ref17","first-page":"1097","article-title":"Imagenet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Proc NIPS"},{"key":"ref18","first-page":"487","article-title":"Learning deep features for scene recognition using places database","author":"zhou","year":"2014","journal-title":"Proc NIPS"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"journal-title":"End-to-end continuous speech recognition using attention-based recurrent nn First results","year":"2014","author":"chorowski","key":"ref28"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707758"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2014.7078568"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref6","article-title":"I-vector-based speaker adaptation of deep neural networks for french broadcast audio transcription","author":"gupta","year":"2014","journal-title":"Proc ICASSP"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D15-1166"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707705"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2457612"},{"key":"ref7","article-title":"Improving dnn speaker independence with i-vector inputs","author":"senior","year":"2014","journal-title":"Proc ICASSP"},{"key":"ref2","first-page":"5020","article-title":"Visual features for context-aware speech recognition","author":"gupta","year":"2017","journal-title":"Proc ICASSP"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/29.21701"},{"key":"ref1","first-page":"3414","article-title":"Open-domain audio-visual speech recognition: A deep learning approach","author":"miao","year":"2016","journal-title":"Proc Inter-speech"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178778"},{"key":"ref22","article-title":"A neural probabilistic language model","author":"bengio","year":"2003","journal-title":"JMLR"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2015.7404790"},{"key":"ref24","article-title":"Sequence to sequence learning with neural networks","author":"sutskever","year":"2014","journal-title":"Proc NIPS"},{"journal-title":"First-pass large vocabulary continuous speech recognition using bidirectional recurrent dnns","year":"2014","author":"hannun","key":"ref23"},{"journal-title":"Listen attend and spell","year":"2015","author":"chan","key":"ref26"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472618"}],"event":{"name":"ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2018,4,15]]},"location":"Calgary, AB","end":{"date-parts":[[2018,4,20]]}},"container-title":["2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8450881\/8461260\/08462439.pdf?arnumber=8462439","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,8,24]],"date-time":"2020-08-24T05:18:57Z","timestamp":1598246337000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8462439\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,4]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/icassp.2018.8462439","relation":{},"subject":[],"published":{"date-parts":[[2018,4]]}}}