{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T02:00:56Z","timestamp":1780711256409,"version":"3.54.1"},"reference-count":33,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015,4]]},"DOI":"10.1109\/icassp.2015.7178827","type":"proceedings-article","created":{"date-parts":[[2015,8,12]],"date-time":"2015-08-12T22:45:43Z","timestamp":1439419543000},"page":"4525-4529","source":"Crossref","is-referenced-by-count":17,"title":["Combination of two-dimensional cochleogram and spectrogram features for deep learning-based ASR"],"prefix":"10.1109","author":[{"given":"Andros","family":"Tjandra","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sakriani","family":"Sakti","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Graham","family":"Neubig","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tomoki","family":"Toda","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mirna","family":"Adriani","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Satoshi","family":"Nakamura","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854669"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2000.862024"},{"key":"ref31","article-title":"Stream combination before and\/or after the acoustic model","author":"ellis","year":"2000","journal-title":"Tech Rep ICES Tech Rep"},{"key":"ref30","first-page":"649","article-title":"Gammatone features and feature combination for large vocabulary speech recognition","author":"schl\u00fcter ilja bezrukov","year":"2007","journal-title":"ICASSP"},{"key":"ref10","first-page":"4277","article-title":"Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition","volume":"2012","author":"ossama","year":"0","journal-title":"ICASSP"},{"key":"ref11","article-title":"Deep convolutional neural networks using heterogeneous pooling for trading-off acoustic invariance with phonetic confusion","author":"li","year":"2013","journal-title":"ICASSP"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854051"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1561\/2200000006"},{"key":"ref14","first-page":"3371","article-title":"Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion","volume":"11","author":"pascal","year":"2010","journal-title":"The Journal of Machine Learning Research"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1162\/neco.2006.18.7.1527"},{"key":"ref16","article-title":"Improving neural networks by preventing co-adaptation of feature detectors","author":"geoffrey","year":"2012","journal-title":"CoRR"},{"key":"ref17","first-page":"1097","article-title":"Imagenet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Advances in neural information processing systems"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/0378-5955(90)90170-T"},{"key":"ref19","article-title":"The Kaldi speech recognition toolkit","author":"povey","year":"2011","journal-title":"IEEE ASRU"},{"key":"ref28","doi-asserted-by":"crossref","first-page":"1277","DOI":"10.21437\/Interspeech.2011-105","article-title":"Multi-stream bandpass modulation features for robust speech recognition","author":"nemala","year":"2011","journal-title":"InterSpeech"},{"key":"ref4","first-page":"8604","article-title":"Recent advances in deep learning for speech research at mi-crosoft","author":"li","year":"2013","journal-title":"ICASSP"},{"key":"ref27","first-page":"1065","article-title":"Robust speech recognition using a voiced-unvoiced feature","author":"zolnay","year":"2001","journal-title":"ICSLP"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2109382"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639061"},{"key":"ref29","first-page":"3704","article-title":"A bag-of-features approach to acoustic event detection","author":"grzeszick","year":"2014","journal-title":"ICASSP"},{"key":"ref5","first-page":"305","article-title":"Auditory features based on Gammatone filters for robust speech recognition","author":"qi","year":"2013","journal-title":"IEEE ISCAS"},{"key":"ref8","article-title":"Convolutional networks for images, speech, and time series","volume":"3361","author":"lecun","year":"1995","journal-title":"The Handbook of Brain Theory and Neural Networks"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/29.21701"},{"key":"ref2","first-page":"4273","article-title":"Under-standing how deep belief networks perform acoustic modelling","author":"mohamed","year":"2012","journal-title":"ICASSP"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/89.365379"},{"key":"ref20","article-title":"Kaldi+PDNN: Building DNN-based ASR systems with kaldi and PDNN","author":"miao","year":"2014","journal-title":"CoRR"},{"key":"ref22","doi-asserted-by":"crossref","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","article-title":"Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups","volume":"29","author":"geoffrey","year":"2012","journal-title":"IEEE Signal Processing Magazine"},{"key":"ref21","doi-asserted-by":"crossref","DOI":"10.25080\/Majora-92bf1922-003","article-title":"Theano: a CPU and GPU math expression compiler","author":"bergstra","year":"2010","journal-title":"SciPy"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1986.1164788"},{"key":"ref23","first-page":"836","article-title":"DBN based multi-stream models for speech","author":"zhang","year":"2003","journal-title":"ICASSP"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2001.940785"},{"key":"ref25","author":"li","year":"2005","journal-title":"Combination and generation of parallel feature streams for improved speech recognition"}],"event":{"name":"ICASSP 2015 - 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"South Brisbane, Queensland, Australia","start":{"date-parts":[[2015,4,19]]},"end":{"date-parts":[[2015,4,24]]}},"container-title":["2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7158221\/7177909\/07178827.pdf?arnumber=7178827","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,20]],"date-time":"2022-05-20T09:40:14Z","timestamp":1653039614000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7178827\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,4]]},"references-count":33,"URL":"https:\/\/doi.org\/10.1109\/icassp.2015.7178827","relation":{},"subject":[],"published":{"date-parts":[[2015,4]]}}}