{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,27]],"date-time":"2026-03-27T16:10:18Z","timestamp":1774627818832,"version":"3.50.1"},"reference-count":38,"publisher":"Springer Science and Business Media LLC","issue":"11-12","license":[{"start":{"date-parts":[[2020,1,3]],"date-time":"2020-01-03T00:00:00Z","timestamp":1578009600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2020,1,3]],"date-time":"2020-01-03T00:00:00Z","timestamp":1578009600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2020,3]]},"DOI":"10.1007\/s11042-019-08279-5","type":"journal-article","created":{"date-parts":[[2020,1,3]],"date-time":"2020-01-03T03:03:01Z","timestamp":1578020581000},"page":"7911-7926","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":18,"title":["Analysis and classification of acoustic scenes with wavelet transform-based mel-scaled features"],"prefix":"10.1007","volume":"79","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8945-9576","authenticated-orcid":false,"given":"Shefali","family":"Waldekar","sequence":"first","affiliation":[]},{"given":"Goutam","family":"Saha","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2020,1,3]]},"reference":[{"issue":"2","key":"8279_CR1","doi-asserted-by":"publisher","first-page":"881","DOI":"10.1121\/1.2750160","volume":"122","author":"JJ Aucouturier","year":"2007","unstructured":"Aucouturier JJ, D\u00e9fr\u00e9ville B, Pachet F (2007) The bag-of-frames approach to audio pattern recognition: a sufficient model for urban soundscapes but not for polyphonic music. J Acoustic Soc Amer 122(2):881\u2013891","journal-title":"J Acoustic Soc Amer"},{"issue":"3","key":"8279_CR2","doi-asserted-by":"publisher","first-page":"16","DOI":"10.1109\/MSP.2014.2326181","volume":"32","author":"D Barchiesi","year":"2015","unstructured":"Barchiesi D, Giannoulis D, Stowell D, Plumbley MD (2015) Acoustic scene classification: classifying environments from the sounds they produce. IEEE Signal Proc Mag 32(3):16\u201334","journal-title":"IEEE Signal Proc Mag"},{"issue":"6","key":"8279_CR3","doi-asserted-by":"publisher","first-page":"1216","DOI":"10.1109\/TASLP.2017.2690570","volume":"25","author":"V Bisot","year":"2017","unstructured":"Bisot V, Serizel R, Essid S, Richard G (2017) Feature learning with matrix factorization applied to acoustic scene classification. IEEE\/ACM Trans Audio, Speech, Language Process 25(6):1216\u20131229","journal-title":"IEEE\/ACM Trans Audio, Speech, Language Process"},{"issue":"4","key":"8279_CR4","doi-asserted-by":"publisher","first-page":"297","DOI":"10.1006\/csla.1994.1016","volume":"8","author":"GJ Brown","year":"1994","unstructured":"Brown GJ, Cooke M (1994) Computational auditory scene analysis. Comput Speech Language 8(4):297\u2013336","journal-title":"Comput Speech Language"},{"key":"8279_CR5","unstructured":"Brummer N (2007) FoCal multi-class: toolkit for evaluation, fusion and calibration of multi-class recognition scores. Tutorial and user manual. Software available at https:\/\/sites.google.com\/site\/nikobrummer\/focal"},{"issue":"6","key":"8279_CR6","doi-asserted-by":"publisher","first-page":"1142","DOI":"10.1109\/TASL.2009.2017438","volume":"17","author":"S Chu","year":"2009","unstructured":"Chu S, Narayanan S, Kuo CCJ (2009) Environmental sound recognition with time-frequency audio features. IEEE Trans Audio, Speech, and Language Process 17 (6):1142\u20131158","journal-title":"IEEE Trans Audio, Speech, and Language Process"},{"key":"8279_CR7","doi-asserted-by":"crossref","unstructured":"Daubechies I (1992) Ten lectures on wavelets, 61. Siam","DOI":"10.1137\/1.9781611970104"},{"key":"8279_CR8","unstructured":"Davis SB, Mermelstein P (1990) Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. In: Readings in speech recognition. Elsevier, 65\u201374"},{"issue":"6","key":"8279_CR9","first-page":"865","volume":"92","author":"D Dubois","year":"2006","unstructured":"Dubois D, Guastavino C, Raimbault M (2006) A cognitive approach to urban soundscapes: Using verbal data to access everyday life auditory categories. Acta Acustic United Acustica 92(6):865\u2013874","journal-title":"Acta Acustic United Acustica"},{"key":"8279_CR10","unstructured":"Eghbal-Zadeh H, Lehner B, Dorfer M, Widmer G (2016) CP-JKU Submissions for DCASE-2016: a hybrid approach using binaural i-vectors and deep convolutional neural networks. In: IEEE AASP Challenge on detection and classification of acoustic scenes and events (DCASE 2016), Budapest, Hungary, Tech. Rep"},{"issue":"26","key":"8279_CR11","first-page":"429","volume":"93","author":"D Gabor","year":"1946","unstructured":"Gabor D (1946) Theory of communication. part 1: the analysis of information. J Institut Electr Engineers-Part III: Radio Commun Eng 93(26):429\u2013441","journal-title":"J Institut Electr Engineers-Part III: Radio Commun Eng"},{"key":"8279_CR12","unstructured":"Ghodasara V, Naser DS, Waldekar S, Saha G (2015) Speech\/music classification using block based MFCC features. Music Information Retrieval Evaluation eXchange (MIREX)"},{"key":"8279_CR13","unstructured":"Ghodasara V, Waldekar S, Paul D, Saha G (2016) Acoustic scene classification using block-based MFCC features. In: IEEE AASP Challenge on detection and classification of acoustic scenes and events (DCASE 2016), Budapest, Hungary, Tech. Rep"},{"key":"8279_CR14","doi-asserted-by":"crossref","unstructured":"Giannoulis D, Benetos E, Stowell D, Rossignol M, Lagrange M, Plumbley MD (2013) Detection and classification of acoustic scenes and events: an IEEE AASP challenge. In: 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp 1\u20134","DOI":"10.1109\/WASPAA.2013.6701819"},{"key":"8279_CR15","unstructured":"Gowdy JN, Tufekci Z (2000) Mel-scaled discrete wavelet coefficients for speech recognition. In: Proceedings of the 2000 IEEE international conference on Acoustics, speech, and signal processing. ICASSP\u201900, vol 3, pp 1351\u20131354"},{"key":"8279_CR16","unstructured":"Kim K, Youn DH, Lee C (2000) Evaluation of wavelet filters for speech recognition. In: 2000 IEEE international conference on Systems, man, and cybernetics, vol 4, pp 2891\u20132894"},{"issue":"5","key":"8279_CR17","doi-asserted-by":"publisher","first-page":"EL487","DOI":"10.1121\/1.4935350","volume":"138","author":"M Lagrange","year":"2015","unstructured":"Lagrange M, Lafay G, D\u00e9fr\u00e9ville B, Aucouturier JJ (2015) The bag-of-frames approach: A not so sufficient model for urban soundscapes. J Acoustic Soc Amer 138(5):EL487\u2013EL492","journal-title":"J Acoustic Soc Amer"},{"issue":"1","key":"8279_CR18","doi-asserted-by":"publisher","first-page":"897","DOI":"10.1007\/s11042-016-4332-z","volume":"77","author":"Y Li","year":"2018","unstructured":"Li Y, Zhang X, Jin H, Li X, Wang Q, He Q, Huang Q (2018) Using multi-stream hierarchical deep neural network to extract deep audio feature for acoustic event detection. Multimed Tool Appl 77(1):897\u2013916","journal-title":"Multimed Tool Appl"},{"issue":"5","key":"8279_CR19","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1109\/MSP.2010.937498","volume":"27","author":"RF Lyon","year":"2010","unstructured":"Lyon RF (2010) Machine hearing: an emerging field. IEEE Signal Proc Mag 27 (5):131\u2013139","journal-title":"IEEE Signal Proc Mag"},{"key":"8279_CR20","doi-asserted-by":"crossref","unstructured":"Ma J, Wang R, Ji W, Zheng H, Zhu E, Yin J (2019) Relational recurrent neural networks for polyphonic sound event detection. Multimedia Tools and Applications 1\u201319","DOI":"10.1007\/s11042-018-7142-7"},{"issue":"7","key":"8279_CR21","doi-asserted-by":"publisher","first-page":"674","DOI":"10.1109\/34.192463","volume":"11","author":"SG Mallat","year":"1989","unstructured":"Mallat SG (1989) A theory for multiresolution signal decomposition: the wavelet representation. IEEE Trans Pattern Anal Mach Intell 11(7):674\u2013693","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"8279_CR22","unstructured":"Mesaros A, Heittola T, Eronen A, Virtanen T (2010) Acoustic event detection in real life recordings. In: IEEE 2010 18th European on Signal Processing Conference, pp 1267\u20131271"},{"key":"8279_CR23","doi-asserted-by":"crossref","unstructured":"Mesaros A, Heittola T, Virtanen T (2016) TUT database for acoustic scene classification and sound event detection. In: IEEE 2016 24th European on Signal Processing Conference (EUSIPCO), pp 1128\u20131132","DOI":"10.1109\/EUSIPCO.2016.7760424"},{"key":"8279_CR24","doi-asserted-by":"crossref","unstructured":"Mesaros A, Heittola T, Benetos E, Foster P, Lagrange M, Virtanen T, Plumbley M (2017) Detection and classification of acoustic scenes and events: outcome of the DCASE 2016 challenge. IEEE\/ACM Transactions on Audio, Speech and Language Processing","DOI":"10.1109\/TASLP.2017.2778423"},{"key":"8279_CR25","unstructured":"Mesaros A, Heittola T, Diment A, Elizalde B, Shah A, Vincent E, Raj B, Virtanen T (2017) DCASE 2017 challenge setup: tasks, datasets and baseline system. In: DCASE 2017-Workshop on Detection and Classification of Acoustic Scenes and Events"},{"key":"8279_CR26","doi-asserted-by":"crossref","unstructured":"Mesaros A, Heittola T, Virtanen T (2018) Acoustic scene classification: an overview of DCASE 2017 challenge entries. In: 16th International Workshop on Acoustic Signal Enhancement (IWAENC)","DOI":"10.1109\/IWAENC.2018.8521242"},{"key":"8279_CR27","unstructured":"Mun S, Park S, Han D, Ko H (2017) Generative adversarial network based acoustic scene training set augmentation and selection using SVM hyper-plane. Tech. rep., Tech. Rep., DCASE2017 Challenge"},{"key":"8279_CR28","unstructured":"Phan H, Ch\u00e9n OY, Koch P, Pham L, McLoughlin I, Mertins A, De Vos M (2018) Beyond equal-length snippets: How long is sufficient to recognize an audio scene?. arXiv:181101095"},{"issue":"4","key":"8279_CR29","doi-asserted-by":"publisher","first-page":"763","DOI":"10.1109\/TIFS.2008.2008216","volume":"3","author":"A Rabaoui","year":"2008","unstructured":"Rabaoui A, Davy M, Rossignol S, Ellouze N (2008) Using one-class SVMs and wavelets for audio surveillance. IEEE Trans Inform Forensics Secur 3(4):763\u2013775","journal-title":"IEEE Trans Inform Forensics Secur"},{"issue":"1","key":"8279_CR30","first-page":"142","volume":"23","author":"A Rakotomamonjy","year":"2015","unstructured":"Rakotomamonjy A, Gasso G (2015) Histogram of gradients of time-frequency representations for audio scene classification. IEEE\/ACM Transactions on Audio Speech and Language Processing (TASLP) 23(1):142\u2013153","journal-title":"IEEE\/ACM Transactions on Audio Speech and Language Processing (TASLP)"},{"issue":"4","key":"8279_CR31","doi-asserted-by":"publisher","first-page":"543","DOI":"10.1016\/j.specom.2011.11.004","volume":"54","author":"M Sahidullah","year":"2012","unstructured":"Sahidullah M, Saha G (2012) Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition. Speech Comm 54(4):543\u2013565","journal-title":"Speech Comm"},{"issue":"10","key":"8279_CR32","doi-asserted-by":"publisher","first-page":"1733","DOI":"10.1109\/TMM.2015.2428998","volume":"17","author":"D Stowell","year":"2015","unstructured":"Stowell D, Giannoulis D, Benetos E, Lagrange M, Plumbley MD (2015) Detection and classification of acoustic scenes and events. IEEE Trans Multimed 17 (10):1733\u20131746","journal-title":"IEEE Trans Multimed"},{"key":"8279_CR33","unstructured":"Tang G, Liang R, Xie Y, Bao Y, Wang S (2018) Improved convolutional neural networks for acoustic event classification. Multimedia Tools and Applications 1\u201316"},{"key":"8279_CR34","doi-asserted-by":"crossref","unstructured":"Tufekci Z, Gowdy J (2000) Feature extraction using discrete wavelet transform for speech recognition. In: 2000 Proceedings of the IEEE on Southeastcon, pp 116\u2013123","DOI":"10.1109\/SECON.2000.845444"},{"key":"8279_CR35","unstructured":"Tzanetakis G, Essl G, Cook P (2001) Audio analysis using the discrete wavelet transform. In: Proc. Conf. in Acoustics and Music Theory Applications, vol 66"},{"key":"8279_CR36","doi-asserted-by":"crossref","unstructured":"Waldekar S, Saha G (2018) Classification of audio scenes with novel features in a fused system framework. Digital Signal Processing","DOI":"10.1016\/j.dsp.2017.12.012"},{"key":"8279_CR37","doi-asserted-by":"publisher","first-page":"3323","DOI":"10.21437\/Interspeech.2018-2083","volume":"2018","author":"S Waldekar","year":"2018","unstructured":"Waldekar S, Saha G (2018) Wavelet transform based mel-scaled features for acoustic scene classification. Proc Interspeech 2018:3323\u20133327","journal-title":"Proc Interspeech"},{"key":"8279_CR38","unstructured":"Weston J, Watkins C et al (1999) Support vector machines for multi-class pattern recognition. In: Esann, vol 99, pp 219\u2013224"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-019-08279-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-019-08279-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-019-08279-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,1,2]],"date-time":"2021-01-02T00:29:27Z","timestamp":1609547367000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-019-08279-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,1,3]]},"references-count":38,"journal-issue":{"issue":"11-12","published-print":{"date-parts":[[2020,3]]}},"alternative-id":["8279"],"URL":"https:\/\/doi.org\/10.1007\/s11042-019-08279-5","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020,1,3]]},"assertion":[{"value":"5 February 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 August 2019","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 September 2019","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 January 2020","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}