{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,25]],"date-time":"2026-07-25T16:56:11Z","timestamp":1784998571335,"version":"3.55.0"},"reference-count":66,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"10","license":[{"start":{"date-parts":[[2015,10,1]],"date-time":"2015-10-01T00:00:00Z","timestamp":1443657600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/3.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100000266","name":"Engineering and Physical Sciences Research Council","doi-asserted-by":"publisher","award":["EP\/G007144\/1"],"award-info":[{"award-number":["EP\/G007144\/1"]}],"id":[{"id":"10.13039\/501100000266","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100000266","name":"Engineering and Physical Sciences Research Council","doi-asserted-by":"publisher","award":["EP\/H043101\/1"],"award-info":[{"award-number":["EP\/H043101\/1"]}],"id":[{"id":"10.13039\/501100000266","id-type":"DOI","asserted-by":"publisher"}]},{"name":"ANR Houle","award":["ANR-11-JS03-005-01"],"award-info":[{"award-number":["ANR-11-JS03-005-01"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2015,10]]},"DOI":"10.1109\/tmm.2015.2428998","type":"journal-article","created":{"date-parts":[[2015,5,1]],"date-time":"2015-05-01T14:43:10Z","timestamp":1430491390000},"page":"1733-1746","source":"Crossref","is-referenced-by-count":418,"title":["Detection and Classification of Acoustic Scenes and Events"],"prefix":"10.1109","volume":"17","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8068-3769","authenticated-orcid":false,"given":"Dan","family":"Stowell","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dimitrios","family":"Giannoulis","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Emmanouil","family":"Benetos","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mathieu","family":"Lagrange","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mark D.","family":"Plumbley","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","first-page":"723","article-title":"Semantic annotation and retrieval of music using a bag of systems representation","author":"ellis","year":"2011","journal-title":"Proc Int Conf Music Inf Retrieval"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.854103"},{"key":"ref33","doi-asserted-by":"crossref","first-page":"93","DOI":"10.1007\/978-3-642-11674-2_5","volume":"274","author":"downie","year":"2010","journal-title":"Advances in Music Information Retrieval"},{"key":"ref32","first-page":"162","article-title":"The second ?CHiME? speech separation and recognition challenge: An overview of challenge systems and outcomes","author":"vincent","year":"2013","journal-title":"Proc IEEE Workshop Autom Speech Recog and Understanding"},{"key":"ref31","doi-asserted-by":"crossref","first-page":"1928","DOI":"10.1016\/j.sigpro.2011.10.007","article-title":"The signal separation evaluation campaign (2007?2010): Achievements and remaining challenges","volume":"92","author":"vincent","year":"2012","journal-title":"Signal Process"},{"key":"ref30","first-page":"1891","article-title":"Segregating event streams and noise with a Markov renewal process model","volume":"14","author":"stowell","year":"2013","journal-title":"J Mach Learning Res"},{"key":"ref37","first-page":"1","article-title":"An open dataset for research on audio field recording archives: Freefield1010","author":"stowell","year":"2014","journal-title":"Proc Audio Eng Soc 53rd Conf Semantic Audio (AES53)"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2014.2330697"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/1178677.1178722"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-69568-4_1"},{"key":"ref60","author":"nogueira","year":"2013","journal-title":"?Automatic event classification using front end single channel noise reduction MFCC features and a support vector machine classifier ?"},{"key":"ref62","author":"schr\ufffdder","year":"2013","journal-title":"?Acoustic event detection using signal enhancement and spectro-temporal feature extraction ?"},{"key":"ref61","author":"niessen","year":"2013","journal-title":"?Hierarchical sound event detection ?"},{"key":"ref63","author":"vuegen","year":"2013","journal-title":"?An MFCC-GMM approach for event detection and classification ?"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1155\/2009\/594103"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2014.2326181"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CBMI.2011.5972546"},{"key":"ref65","doi-asserted-by":"crossref","DOI":"10.1201\/9781439896129","author":"gibbons","year":"2010","journal-title":"Nonparametric Statistical Inference"},{"key":"ref66","author":"sprent","year":"2001","journal-title":"Applied Nonparametric Statistical Methods"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICKS.2007.7"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2012.10.004"},{"key":"ref1","author":"rabiner","year":"1993","journal-title":"Fundamentals of speech recognition"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ASPAA.2011.6082331"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1186\/1687-4722-2013-1"},{"key":"ref21","first-page":"36","article-title":"Sound event detection in multisource environments using source separation","author":"heittola","year":"2011","journal-title":"Proc CHiME Workshop on Mach Listen Multisource Environ"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2004.05.002"},{"key":"ref23","first-page":"1307","article-title":"Latent semantic analysis in sound event detection","author":"mesaros","year":"2011","journal-title":"Proc Eur Signal Process Conf"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639356"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1121\/1.4707424"},{"key":"ref50","author":"li","year":"2013","journal-title":"?Auditory scene classification using machine learning techniques ?"},{"key":"ref51","author":"nam","year":"2013","journal-title":"?Acoustic scene classification using sparse feature learning and selective max-pooling by event detection ?"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA.2013.6701847"},{"key":"ref58","author":"diment","year":"2013","journal-title":"?Sound event detection for office live and office synthetic AASP challenge ?"},{"key":"ref57","author":"chauhan","year":"2013","journal-title":"?Event detection and classification ?"},{"key":"ref56","author":"roma","year":"2013","journal-title":"?Recurrence quantification analysis features for auditory scene classification ?"},{"key":"ref55","author":"rakotomamonjy","year":"2013","journal-title":"?Histogram of gradients of time-frequency representations for audio scene classification ?"},{"key":"ref54","author":"patil","year":"2013","journal-title":"?Multiresolution auditory representations for scene classification ?"},{"key":"ref53","author":"olivetti","year":"2013","journal-title":"?The wonders of the normalized compression dissimilarity representation ?"},{"key":"ref52","author":"nogueira","year":"2013","journal-title":"?Sound scene identification based on MFCC binaural features and a support vector machine classifier ?"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1121\/1.2750160"},{"key":"ref11","author":"witten","year":"2005","journal-title":"Data Mining Practical Machine Learning Tools and Techniques"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2005.10.010"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2006.1598089"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1121\/1.1913065"},{"key":"ref14","doi-asserted-by":"crossref","first-page":"138","DOI":"10.1117\/12.290336","article-title":"Content-based retrieval of music and audio","volume":"3229","author":"foote","year":"1997","journal-title":"Proc SPIE Multimedia Storage and Archiving Sys III"},{"key":"ref15","author":"cauchi","year":"2011","journal-title":"Non-negative matrix factorization applied to auditory scenes classification"},{"key":"ref16","author":"benetos","year":"2012","journal-title":"Automatic Transcription of Polyphonic Music Exploiting Temporal Evolution"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2017438"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.878256"},{"key":"ref19","first-page":"1267","article-title":"Acoustic event detection in real life recordings","author":"mesaros","year":"2010","journal-title":"Proc Eur Signal Process Conf"},{"key":"ref4","first-page":"7","article-title":"An industrial strength audio search algorithm","author":"wang","year":"2003","journal-title":"Proc 4th Int Conf Music Inf Retrieval"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1121\/1.4790351"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1590\/S0001-37652004000200041"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2004.1307286"},{"key":"ref8","author":"bregman","year":"1994","journal-title":"Auditory Scene Analysis The Perceptual Organization of Sound"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/9780470043387"},{"key":"ref49","author":"krijnders","year":"2013","journal-title":"?A tone-fit feature representation for scene classification ?"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA.2013.6701819"},{"key":"ref46","author":"chum","year":"2013","journal-title":"?IEEE AASP scene classification challenge using hidden Markov models and frame based classification ?"},{"key":"ref45","first-page":"3","article-title":"Constant-Q transform toolbox for music processing","author":"sch\ufffdrkhuber","year":"2010","journal-title":"Proc Sound Music Comput"},{"key":"ref48","author":"geiger","year":"2013","journal-title":"?Recognising acoustic scenes with large-scale audio feature extraction and SVM ?"},{"key":"ref47","author":"elizalde","year":"2013","journal-title":"?An I-vector based approach for audio scene detection ?"},{"key":"ref42","first-page":"1","article-title":"A database and challenge for acoustic scene classification and event detection","author":"giannoulis","year":"2013","journal-title":"Proc Eur Signal Process Conf"},{"key":"ref41","first-page":"1","article-title":"Improving timbre similarity: How high?s the sky?","volume":"1","author":"aucouturier","year":"2004","journal-title":"J Negative Results Speech Audio Sci"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1162\/neco.2007.19.3.780"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-69568-4_29"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6046\/7268793\/07100934.pdf?arnumber=7100934","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T11:44:32Z","timestamp":1641987872000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7100934\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,10]]},"references-count":66,"journal-issue":{"issue":"10"},"URL":"https:\/\/doi.org\/10.1109\/tmm.2015.2428998","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,10]]}}}