{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T21:40:13Z","timestamp":1760132413366,"version":"3.37.3"},"reference-count":55,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"12","license":[{"start":{"date-parts":[[2016,12,1]],"date-time":"2016-12-01T00:00:00Z","timestamp":1480550400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100002347","name":"Federal Ministry of Education and Research","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002347","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100000780","name":"European Commission","doi-asserted-by":"publisher","award":["AAL-2013-6-144"],"award-info":[{"award-number":["AAL-2013-6-144"]}],"id":[{"id":"10.13039\/501100000780","id-type":"DOI","asserted-by":"publisher"}]},{"name":"KANTATE","award":["V4ARB029"],"award-info":[{"award-number":["V4ARB029"]}]},{"name":"DFG SFB\/TRR 31"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2016,12]]},"DOI":"10.1109\/taslp.2016.2615239","type":"journal-article","created":{"date-parts":[[2016,10,4]],"date-time":"2016-10-04T15:17:17Z","timestamp":1475594237000},"page":"2439-2452","source":"Crossref","is-referenced-by-count":11,"title":["Integration of Optimized Modulation Filter Sets Into Deep Neural Networks for Automatic Speech Recognition"],"prefix":"10.1109","volume":"24","author":[{"given":"Niko","family":"Moritz","sequence":"first","affiliation":[]},{"given":"Birger","family":"Kollmeier","sequence":"additional","affiliation":[]},{"given":"Jorn","family":"Anemuller","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","first-page":"81","article-title":"WSJCAM0: A British English speech corpus for large vocabulary continuous speech recognition","author":"robinson","year":"0","journal-title":"Proc Int Conf Acoust Speech Signal Process"},{"article-title":"DSR front end LVCSR evaluation AU\/384\/02","year":"2002","author":"pariha","key":"ref38"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1121\/1.420344"},{"key":"ref32","doi-asserted-by":"crossref","first-page":"1799","DOI":"10.1152\/jn.1988.60.6.1799","article-title":"Periodicity coding in the inferior colliculus of the cat. I. Neuronal mechanisms","volume":"60","author":"langner","year":"1988","journal-title":"J Neurophysiol"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1121\/1.397751"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1121\/1.397956"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.3115\/1075527.1075614"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6637622"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1121\/1.2229005"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2304637"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2109382"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1121\/1.3699200"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1121\/1.383531"},{"key":"ref2","article-title":"Auditory filters and excitation patterns as representations of frequency resolution","author":"patternson","year":"1986","journal-title":"Frequency Selectivity in Hearing"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1121\/1.1908963"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1999.758119"},{"key":"ref22","first-page":"361","article-title":"Multi-resolution RASTA filtering for TANDEM-based ASR","author":"hermansky","year":"0","journal-title":"Proc INTERSPEECH"},{"article-title":"Phoneme recognition based on long temporal context","year":"2009","author":"schwarz","key":"ref21"},{"key":"ref24","first-page":"2573","article-title":"Localized spectro-temporal features for automatic speech recognition","author":"kleinschmidt","year":"0","journal-title":"Proc EUROSPEECH"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639013"},{"key":"ref26","doi-asserted-by":"crossref","first-page":"456","DOI":"10.1152\/jn.00851.2002","article-title":"Gabor analysis of auditory midbrain receptive fields: Spectro-temporal and binaural composition","volume":"90","author":"qui","year":"2003","journal-title":"J Neurophysiol"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/BF00336731"},{"key":"ref50","first-page":"2345","article-title":"Sequence-discriminative training of deep neural networks","author":"vesel\u00fd","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/89.902277"},{"key":"ref55","first-page":"1","article-title":"Learning the speech front-end with raw waveform CLDNNs","author":"sainath","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178847"},{"key":"ref53","first-page":"980","article-title":"Acoustic modeling with deep neural networks using raw time signals for LVCSR","author":"t\u00fcske","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707746"},{"key":"ref10","first-page":"409","article-title":"Data-driven design of RASTA-like filters","author":"van vuuren","year":"0","journal-title":"Proc EUROSPEECH"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/78.277799"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2005.1566470"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288824"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2003.1318451"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1121\/1.3504658"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00032-6"},{"key":"ref16","first-page":"24","article-title":"Insights into spoken language gleaned from phonetic transcription of the switchboard corpus","author":"greenberg","year":"0","journal-title":"Proc Int Conf Spoken Lang Process"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1121\/1.408546"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2003.1318474"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2011.5947602"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/BF02478259"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2545928"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pcbi.1000302"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2456420"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/89.326616"},{"key":"ref7","first-page":"1079","article-title":"On the importance of various modulation frequencies for speech recognition","author":"kanedera","year":"0","journal-title":"Proc EUROSPEECH"},{"key":"ref49","first-page":"409","article-title":"Boostrap estimates for confidence intervals in ASR performance evaluation","author":"bisnai","year":"0","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICSLP.1996.607213"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853589"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2134090"},{"key":"ref48","first-page":"3007","article-title":"Speaker adaptation of DNN-based ASR with i-vectors: Does it actually adapt models to speakers?","author":"rouvier","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref47","article-title":"Baseline WSJ acoustic models for HTK and Sphinx: Training recipes and recognition experiments","author":"vertanen","year":"2006","journal-title":"Tech Rep"},{"year":"2009","author":"young","key":"ref42"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"ref44","first-page":"153","article-title":"Greedy layer-wise training of deep networks","volume":"19","author":"bengio","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref43","first-page":"1","article-title":"The Kaldi speech recognition toolkit","author":"povey","year":"0","journal-title":"Proc IEEE Workshop on Automatic Speech Recognition and Understanding"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/7571201\/07582478.pdf?arnumber=7582478","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T11:39:07Z","timestamp":1641987547000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7582478\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,12]]},"references-count":55,"journal-issue":{"issue":"12"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2016.2615239","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"type":"print","value":"2329-9290"},{"type":"electronic","value":"2329-9304"}],"subject":[],"published":{"date-parts":[[2016,12]]}}}