{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,18]],"date-time":"2026-07-18T00:44:47Z","timestamp":1784335487034,"version":"3.55.0"},"reference-count":28,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,4]]},"DOI":"10.1109\/icassp.2018.8462656","type":"proceedings-article","created":{"date-parts":[[2018,9,21]],"date-time":"2018-09-21T22:24:48Z","timestamp":1537568688000},"page":"5759-5763","source":"Crossref","is-referenced-by-count":16,"title":["Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection"],"prefix":"10.1109","author":[{"given":"Taku","family":"Kala","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Takahiro","family":"Shinozaki","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref10","article-title":"Playing atari with deep reinforcement learning","author":"mnih","year":"2013","journal-title":"NIPS Deep Learning Workshop"},{"key":"ref11","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","author":"sutton","year":"1999","journal-title":"Proceedings of the 12th International Conference on Neural Information Processing Systems"},{"key":"ref12","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","volume":"48","author":"mnih","year":"2016","journal-title":"Proceedings of The 33rd International Conference on Machine Learning Maria Florina Balcan and Kilian Q Weinberger Eds"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2011.6163976"},{"key":"ref14","first-page":"2007","article-title":"Learning from real users: rating dialogue success with neural networks for reinforcement learning in spoken dialogue systems","author":"su","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TAAI.2010.29"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952122"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2032618"},{"key":"ref18","first-page":"1985","article-title":"On-line incremental adaptation based on reinforcement learning for robust speech recognition","author":"nishida","year":"2004","journal-title":"Proc INTERSPEECH"},{"key":"ref19","first-page":"357","article-title":"Confidence-measure-driven unsupervised incremental adaptation for HMM-based speech recognition","volume":"1","author":"charlet","year":"2001","journal-title":"Proc leASSP"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707741"},{"key":"ref4","doi-asserted-by":"crossref","first-page":"291","DOI":"10.1109\/89.279278","article-title":"Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains","volume":"2","author":"gauvain","year":"1994","journal-title":"IEEE Transactions on Speech and Audio Processing"},{"key":"ref27","article-title":"The Kaldi speech recognition toolkit","author":"povey","year":"2011","journal-title":"Proc ASRU"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1006\/csla.1995.0010"},{"key":"ref6","article-title":"Adap-tation of context-dependent deep neural networks for automatic speech recognition","author":"yao","year":"2012","journal-title":"Proc of the IEEE Workshop on Spoken Language Technology (SLT)"},{"key":"ref5","first-page":"2430","article-title":"A study on deep neural network acoustic model adaptation for robust far-field speech recognition","author":"mirsamadi","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/BF00992698"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/37.126844"},{"key":"ref2","first-page":"2397","article-title":"Podcastle: A web 2.0 approach to speech recognition research","author":"goto","year":"2007","journal-title":"Proc INTERSPEECH"},{"key":"ref9","article-title":"On-line q-learning using connectionist systems","author":"rummery","year":"1994","journal-title":"Tech Rep"},{"key":"ref1","first-page":"2617","article-title":"Automatic transcription for a web 2.0 service to search podcasts","author":"ogata","year":"2007","journal-title":"Proc INTERSPEECH"},{"key":"ref20","first-page":"949","article-title":"Natural evolution strategies","volume":"15","author":"wierstra","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref22","doi-asserted-by":"crossref","first-page":"229","DOI":"10.1007\/BF00992696","article-title":"Simple statistical gradient-following algorithms for connectionist reinforcement learning","volume":"8","author":"williams","year":"1992","journal-title":"Machine Learning"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1162\/106365603321828970"},{"key":"ref24","doi-asserted-by":"crossref","first-page":"484","DOI":"10.1038\/nature16961","article-title":"Mastering the game of Go with deep neural networks and tree search","volume":"529","author":"silver","year":"2016","journal-title":"Natture"},{"key":"ref23","first-page":"1088","article-title":"Beam sampling for the infinite hidden Markov model","author":"jurgen van","year":"2008","journal-title":"Proceedings of the 25th International Conference on Machine Learning"},{"key":"ref26","first-page":"244","article-title":"A Japanese national project on spontaneous speech corpus and processing technology","author":"furui","year":"2000","journal-title":"Proc ASR'00"},{"key":"ref25","first-page":"2345","article-title":"Sequence-discriminative training of deep neural networks","author":"vesely","year":"2013","journal-title":"Proc INTERSPEECH"}],"event":{"name":"ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Calgary, AB","start":{"date-parts":[[2018,4,15]]},"end":{"date-parts":[[2018,4,20]]}},"container-title":["2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8450881\/8461260\/08462656.pdf?arnumber=8462656","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,8,24]],"date-time":"2020-08-24T00:55:57Z","timestamp":1598230557000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8462656\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,4]]},"references-count":28,"URL":"https:\/\/doi.org\/10.1109\/icassp.2018.8462656","relation":{},"subject":[],"published":{"date-parts":[[2018,4]]}}}