{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T21:11:51Z","timestamp":1781644311727,"version":"3.54.5"},"reference-count":22,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2015,9,14]],"date-time":"2015-09-14T00:00:00Z","timestamp":1442188800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2015,12]]},"DOI":"10.1186\/s13636-015-0069-2","type":"journal-article","created":{"date-parts":[[2015,9,14]],"date-time":"2015-09-14T10:23:28Z","timestamp":1442226208000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":62,"title":["Exploiting spectro-temporal locality in deep learning based acoustic event detection"],"prefix":"10.1186","volume":"2015","author":[{"given":"Miquel","family":"Espi","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Masakiyo","family":"Fujimoto","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Keisuke","family":"Kinoshita","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tomohiro","family":"Nakatani","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2015,9,14]]},"reference":[{"issue":"2","key":"69_CR1","doi-asserted-by":"publisher","first-page":"499","DOI":"10.1109\/TASL.2011.2164527","volume":"20","author":"T Hori","year":"2012","unstructured":"T Hori, S Araki, T Yoshioka, M Fujimoto, S Watanabe, T Oba, A Ogawa, K Otsuka, D Mikami, K Kinoshita, T Nakatani, A Nakamura, J Yamato, Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera. IEEE Trans. Audio Speech Lang. Process. 20(2), 499\u2013513 (2012).","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"69_CR2","doi-asserted-by":"crossref","unstructured":"A Ozerov, A Liutkus, R Badeau, G Richard, in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2011 IEEE Workshop On. Informed source separation: source coding meets source separation (IEEE, 2011), pp. 257\u2013260, doi: 10.1109\/ASPAA.2011.6082285 .","DOI":"10.1109\/ASPAA.2011.6082285"},{"issue":"3-4","key":"69_CR3","doi-asserted-by":"publisher","first-page":"389","DOI":"10.1007\/s10579-007-9054-4","volume":"41","author":"D Mostefa","year":"2007","unstructured":"D Mostefa, N Moreau, K Choukri, G Potamianos, S Chu, A Tyagi, J Casas, J Turmo, L Cristoforetti, F Tobia, A Pnevmatikakis, V Mylonakis, F Talantzis, S Burger, R Stiefelhagen, K Bernardin, C Rochet, The CHIL audiovisual corpus for lecture and meeting analysis inside smart rooms. Lang. Resour. Eval. 41(3-4), 389\u2013407 (2007).","journal-title":"Lang. Resour. Eval."},{"key":"69_CR4","doi-asserted-by":"crossref","unstructured":"D Giannoulis, E Benetos, D Stowell, M Rossignol, M Lagrange, MD Plumbley, in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop On. Detection and classification of acoustic scenes and events: an IEEE AASP challenge, (2013), pp. 1\u20134, doi: 10.1109\/WASPAA.2013.6701819 .","DOI":"10.1109\/WASPAA.2013.6701819"},{"key":"69_CR5","unstructured":"K Imoto, S Shimauchi, H Uematsu, H Ohmuro, in INTERSPEECH\u20192013. User activity estimation method based on probabilistic generative model of acoustic event sequence with user activity and its subordinate categories, (2013), pp. 2609\u20132613."},{"key":"69_CR6","doi-asserted-by":"crossref","unstructured":"C Canton-Ferrer, T Butko, C Segura, X Giro, C Nadeu, J Hernando, JR Casas, in IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPR). Audiovisual event detection towards scene understanding, (2009), pp. 81\u201388, doi: 10.1109\/CVPRW.2009.5204264 .","DOI":"10.1109\/CVPRW.2009.5204264"},{"key":"69_CR7","doi-asserted-by":"crossref","unstructured":"X Lu, Y Tsao, S Matsuda, in IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). Sparse representation based on a bag of spectral exemplars for acoustic event detection, (2014), pp. 6255\u20136259, doi: 10.1109\/ICASSP.2014.6854807 .","DOI":"10.1109\/ICASSP.2014.6854807"},{"key":"69_CR8","doi-asserted-by":"crossref","unstructured":"M Espi, Y Fujimoto, M Kubo, T Nakatani, in HSCMA. Spectrogram patch based acoustic event detection and classification in overlapping speech scenarios, (2014), pp. 117\u2013121, doi: 10.1109\/HSCMA.2014.6843263 .","DOI":"10.1109\/HSCMA.2014.6843263"},{"issue":"12","key":"69_CR9","doi-asserted-by":"publisher","first-page":"1543","DOI":"10.1016\/j.patrec.2010.02.005","volume":"31","author":"X Zhuang","year":"2010","unstructured":"X Zhuang, X Zhou, MA Hasegawa-Johnson, TS Huang, Real-world acoustic event detection. Pattern. Recogn. Lett. 31(12), 1543\u201351 (2010).","journal-title":"Pattern. Recogn. Lett."},{"key":"69_CR10","doi-asserted-by":"crossref","unstructured":"M Espi, M Fujimoto, D Saito, N Ono, S Sagayama, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). A tandem connectionist model using combination of multi-scale spectro-temporal features for acoustic event detection, (2012), pp. 4293\u20134296, doi: 10.1109\/ICASSP.2012.6288868 .","DOI":"10.1109\/ICASSP.2012.6288868"},{"key":"69_CR11","unstructured":"S-Y Chang, N Morgan, in INTERPEECH\u20192014. Robust cnn-based speech recognition with gabor filter kernels, (2014), pp. 905\u2013909."},{"key":"69_CR12","doi-asserted-by":"crossref","unstructured":"H Zhang, I McLoughlin, S Yan, in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference On. Robust sound event recognition using convolutional neural networks, (2015), pp. 559\u2013563, doi: 10.1109\/ICASSP.2015.7178031 .","DOI":"10.1109\/ICASSP.2015.7178031"},{"issue":"11","key":"69_CR13","doi-asserted-by":"publisher","first-page":"2278","DOI":"10.1109\/5.726791","volume":"86","author":"Y LeCun","year":"1998","unstructured":"Y LeCun, L Bottou, Y Bengio, P Haffner, Gradient-based learning applied to document recognition. Proc. IEEE. 86(11), 2278\u2013324 (1998).","journal-title":"Proc. IEEE"},{"key":"69_CR14","doi-asserted-by":"crossref","unstructured":"TN Sainath, B Kingsbury, G Saon, H Soltau, A-r Mohamed, G Dahl, B Ramabhadran, Deep convolutional neural networks for large-scale speech tasks. Neural. Netw. 0 (2014). doi: 10.1016\/j.neunet.2014.08.005 .","DOI":"10.1016\/j.neunet.2014.08.005"},{"issue":"1","key":"69_CR15","first-page":"926","volume":"9","author":"G Hinton","year":"2010","unstructured":"G Hinton, A practical guide to training restricted boltzmann machines. Momentum. 9(1), 926 (2010).","journal-title":"Momentum"},{"issue":"1","key":"69_CR16","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1109\/TASL.2011.2109382","volume":"20","author":"A Mohamed","year":"2012","unstructured":"A Mohamed, GE Dahl, GE Hinton, Acoustic modeling using deep belief networks. IEEE Trans. Audio, Speech, Lang. Process. 20(1), 14\u201322 (2012).","journal-title":"IEEE Trans. Audio, Speech, Lang. Process."},{"key":"69_CR17","doi-asserted-by":"crossref","unstructured":"PY Simard, D Steinkraus, JC Platt, in 2013 12th International Conference on Document Analysis and Recognition, 2. Best practices for convolutional neural networks applied to visual document analysis (IEEE Computer Society, 2003), pp. 958\u2013958, doi: 10.1109\/ICDAR.2003.1227801 .","DOI":"10.1109\/ICDAR.2003.1227801"},{"key":"69_CR18","doi-asserted-by":"crossref","unstructured":"S Thomas, S Ganapathy, G Saon, H Soltau, in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference On. Analyzing convolutional neural networks for speech activity detection in mismatched acoustic conditions, (2014), pp. 2519\u20132523, doi: 10.1109\/ICASSP.2014.6854054 .","DOI":"10.1109\/ICASSP.2014.6854054"},{"key":"69_CR19","unstructured":"O Gencoglu, T Virtanen, H Huttunen, in EUSIPCO. Recognition of acoustic events using deep neural networks, (2014), pp. 506\u2013510."},{"key":"69_CR20","doi-asserted-by":"crossref","unstructured":"T Heittola, A Mesaros, A Eronen, T Virtanen, Context-dependent sound event detection. EURASIP J. Audio, Speech Music Process (2013). doi: 10.1186\/1687-4722-2013-1 .","DOI":"10.1186\/1687-4722-2013-1"},{"key":"69_CR21","unstructured":"HG Hirsch, D Pearce, AURORA-4. http:\/\/aurora.hsnr.de\/aurora-4.html Access on: September 10th, 2015."},{"key":"69_CR22","doi-asserted-by":"crossref","unstructured":"J Bergstra, O Breuleux, F Bastien, P Lamblin, R Pascanu, G Desjardins, J Turian, D Warde-Farley, Y Bengio, in Python for Scientific Computing Conference (SciPy), 4. Theano: a CPU and GPU math expression compiler (Oral Presentation, 2010), p. 3.","DOI":"10.25080\/Majora-92bf1922-003"}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0069-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-015-0069-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0069-2","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0069-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,9,8]],"date-time":"2020-09-08T08:03:43Z","timestamp":1599552223000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-015-0069-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,9,14]]},"references-count":22,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2015,12]]}},"alternative-id":["69"],"URL":"https:\/\/doi.org\/10.1186\/s13636-015-0069-2","relation":{},"ISSN":["1687-4722"],"issn-type":[{"value":"1687-4722","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,9,14]]},"article-number":"26"}}