{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T21:14:16Z","timestamp":1740172456774,"version":"3.37.3"},"reference-count":86,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100000266","name":"Engineering and Physical Sciences Research Council","doi-asserted-by":"publisher","award":["EP\/R012067\/1"],"award-info":[{"award-number":["EP\/R012067\/1"]}],"id":[{"id":"10.13039\/501100000266","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/taslp.2021.3104193","type":"journal-article","created":{"date-parts":[[2021,8,11]],"date-time":"2021-08-11T20:19:41Z","timestamp":1628713181000},"page":"2850-2863","source":"Crossref","is-referenced-by-count":7,"title":["Learning Waveform-Based Acoustic Models Using Deep Variational Convolutional Neural Networks"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4728-9644","authenticated-orcid":false,"given":"Dino","family":"Oglic","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5128-5099","authenticated-orcid":false,"given":"Zoran","family":"Cvetkovic","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Peter","family":"Sollich","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"article-title":"CSR-I (WSJ0) Complete LDC93S6A","year":"1993","author":"garofolo","key":"ref73"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2017.2762739"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853588"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2016.7846241"},{"key":"ref76","first-page":"1673","article-title":"Deep scattering power spectrum features for robust speech recognition","author":"joy","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU46091.2019.9003974"},{"key":"ref74","first-page":"1","article-title":"Multiscale octave convolutions for robust speech recognition","author":"rownicka","year":"0","journal-title":"Proc IEEE Workshop Autom Speech Recog and Understanding"},{"journal-title":"Handbook of Mathematical Functions with Formulas Graphs and Mathematical Tables","year":"1972","author":"abramowitz","key":"ref39"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1870"},{"key":"ref38","first-page":"2498","article-title":"Variational dropout sparsifies deep neural networks","author":"molchanov","year":"0","journal-title":"Proc 34th Int Conf Mach Learn"},{"key":"ref78","first-page":"3214","article-title":"A time delay neural network architecture for efficient modeling of long temporal contexts","author":"peddinti","year":"0","journal-title":"Proc 16th Annu Conf Int Speech Commun Assoc"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-595"},{"key":"ref33","first-page":"4601","article-title":"Learning filter widths of spectral decompositions with wavelets","author":"khan","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"article-title":"Layer normalization","year":"2016","author":"ba","key":"ref32"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1214\/aoms\/1177704472"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1561\/2000000004","article-title":"The application of hidden Markov models in speech recognition","volume":"1","author":"gales","year":"2008","journal-title":"Foundations Trends Signal Process"},{"key":"ref37","first-page":"2575","article-title":"Variational dropout and the local reparameterization trick","author":"kingma","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref36","first-page":"2","article-title":"Exponential families for conditional random fields","author":"altun","year":"0","journal-title":"Proc 20th Conf Uncertainty Artif Intell"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRev.106.620"},{"article-title":"Regularisation of neural networks by enforcing Lipschitz continuity","year":"2018","author":"gouk","key":"ref34"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-2414"},{"key":"ref62","first-page":"93","article-title":"The DARPA speech recognition research database: Specifications and status","author":"fisher","year":"0","journal-title":"Proc DARPA Workshop Speech Recognit"},{"article-title":"Fully convolutional speech recognition","year":"2018","author":"zeghidour","key":"ref61"},{"article-title":"Aurora Working Group: DSR Front End LVCSR Evaluation AU\/384\/02","year":"2002","author":"parihar","key":"ref63"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2014.2326991"},{"key":"ref64","first-page":"238","article-title":"Recognition and interpretation of meetings: AMI and AMIDA","author":"renals","year":"0","journal-title":"Proc IEEE Workshop Autom Speech Recog and Understanding"},{"journal-title":"Deep Learning","year":"2016","author":"goodfellow","key":"ref27"},{"key":"ref65","first-page":"1","article-title":"The Kaldi speech recognition toolkit","author":"povey","year":"0","journal-title":"Proc IEEE Workshop Autom Speech Recog and Understanding"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.2307\/2332510"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1002\/cpa.21413"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.2307\/3001968"},{"key":"ref68","first-page":"1","article-title":"Statistical comparisons of classifiers over multiple data sets","volume":"7","author":"dem\u0161ar","year":"2006","journal-title":"J Mach Learn Res"},{"article-title":"The PyTorch-Kaldi speech recognition toolkit","year":"2018","author":"ravanelli","key":"ref69"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pcbi.1002942"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1121\/1.4747008"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683066"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2454"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2602884"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-1495"},{"article-title":"Speech and speaker recognition from raw waveform with SincNet","year":"2018","author":"ravanelli","key":"ref23"},{"key":"ref26","first-page":"2","article-title":"Provable robustness against all adversarial $l_p$-perturbations for $p\\geq 1$","author":"croce","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1098\/rsta.2015.0203"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178847"},{"key":"ref51","first-page":"890","article-title":"Acoustic modeling with deep neural networks using raw time signal for LVCSR","author":"t\u00fcske","year":"0","journal-title":"Proc 15th Annu Conf Int Speech Commun"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462015"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1257"},{"key":"ref57","first-page":"1766","article-title":"Estimating phoneme class conditional probabilities from raw speech signal using convolutional neural networks","author":"palaz","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2019.2913965"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682520"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682667"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682487"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2004.828640"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2090657"},{"key":"ref11","first-page":"1","article-title":"Learning the speech front-end with raw waveform CLDNNs","author":"sainath","year":"0","journal-title":"Proc 16th Annu Conf Int Speech Commun Assoc"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-0-387-21738-3"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-256"},{"key":"ref13","doi-asserted-by":"crossref","DOI":"10.1017\/CBO9780511804779","author":"barber","year":"2012","journal-title":"Bayesian Reasoning and Machine Learning"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1038\/nature14541"},{"key":"ref15","first-page":"1613","article-title":"Weight uncertainty in neural network","author":"blundell","year":"0","journal-title":"Proc 32nd Int Conf Mach Learn"},{"key":"ref82","first-page":"26","article-title":"Lecture 6.5-RmsProp: Divide the gradient by a running average of its recent magnitude","volume":"4","author":"tieleman","year":"0","journal-title":"COURSERA Neural Netw Mach Learn"},{"key":"ref16","first-page":"603","article-title":"Bayesian back-propagation","volume":"5","author":"buntine","year":"1991","journal-title":"Complex Systems"},{"key":"ref81","first-page":"1","article-title":"Try depth instead of weight correlations: Mean field is a less restrictive assumption for variational inference in deep networks","author":"farquhar","year":"0","journal-title":"Proc 4th Workshop Bayesian Deep Learn"},{"key":"ref17","article-title":"Practical variational inference for neural networks","author":"graves","year":"0","journal-title":"Proc Adv Neural Inf Process Syst 24"},{"key":"ref84","article-title":"Incorporating Nesterov momentum into Adam","author":"dozat","year":"2016","journal-title":"International Conference on Learning Representations Workshops Track"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1017\/ATSIP.2012.6"},{"key":"ref83","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref19","article-title":"Bayesian acoustic modeling for spontaneous speech recognition","author":"watanabe","year":"2003","journal-title":"ISCA & IEEE Workshop on Spontaneous Speech Process and Recognit"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-79"},{"key":"ref4","article-title":"An experimental automatic word-recognition system","author":"bridle","year":"1974","journal-title":"JSRU"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461871"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2005.10.005"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1980.1163420"},{"key":"ref85","first-page":"3738","article-title":"Ladder variational autoencoders","author":"s\u00f8nderby","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1999.758138"},{"key":"ref86","first-page":"2121","article-title":"Kernel approximation methods for speech recognition","volume":"20","author":"may","year":"2019","journal-title":"J Mach Learn Res"},{"key":"ref7","first-page":"1485","article-title":"Phoneme confusions in human and automatic speech recognition","author":"meyer","year":"0","journal-title":"Proc 8th Annu Conf Int Speech Commun Assoc"},{"article-title":"Speech recognition front end without information loss","year":"2015","author":"ager","key":"ref49"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ISIT.2011.6034260"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1080\/01621459.1988.10478694"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.2307\/2290777"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/3206.001.0001"},{"journal-title":"Information Theory and Statistics","year":"1959","author":"kullback","key":"ref47"},{"key":"ref42","first-page":"1929","article-title":"Dropout: A simple way to prevent NNs from overfitting","volume":"15","author":"srivastava","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1137\/120869845"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.2307\/3315687"},{"key":"ref43","first-page":"2019","article-title":"Variational bayesian dropout: Pitfalls and fixes","author":"hron","year":"0","journal-title":"Proc 35th Int Conf Mach Learn"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/9289074\/09511850.pdf?arnumber=9511850","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,7]],"date-time":"2023-01-07T04:56:08Z","timestamp":1673067368000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9511850\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":86,"URL":"https:\/\/doi.org\/10.1109\/taslp.2021.3104193","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"type":"print","value":"2329-9290"},{"type":"electronic","value":"2329-9304"}],"subject":[],"published":{"date-parts":[[2021]]}}}