{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,25]],"date-time":"2026-04-25T02:17:08Z","timestamp":1777083428854,"version":"3.51.4"},"reference-count":55,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2017,6,1]],"date-time":"2017-06-01T00:00:00Z","timestamp":1496275200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"name":"Graduate School for Computing in Medicine and Life Sciences"},{"name":"Germany's Excellence Initiative","award":["DFG GSC 235\/1"],"award-info":[{"award-number":["DFG GSC 235\/1"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2017,6]]},"DOI":"10.1109\/taslp.2017.2690564","type":"journal-article","created":{"date-parts":[[2017,5,23]],"date-time":"2017-05-23T21:03:22Z","timestamp":1495573402000},"page":"1278-1290","source":"Crossref","is-referenced-by-count":51,"title":["Improved Audio Scene Classification Based on Label-Tree Embeddings and Convolutional Neural Networks"],"prefix":"10.1109","volume":"25","author":[{"given":"Huy","family":"Phan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lars","family":"Hertel","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Marco","family":"Maass","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Philipp","family":"Koch","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Radoslaw","family":"Mazur","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alfred","family":"Mertins","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","year":"0"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2530401"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-32494-1_4"},{"key":"ref32","first-page":"2556","article-title":"Optimization of amplitude\n modulation features for low-resource acoustic scene classification","author":"a?caer","year":"0","journal-title":"Proc Eur Signal Process Conf"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2017438"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA.2013.6701890"},{"key":"ref37","first-page":"892","article-title":"Soundnet:\n Learning sound representations from unlabeled video","author":"aytar","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/89.928915"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/WASPAA.2013.6701893"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1121\/1.2750160"},{"key":"ref28","first-page":"568","article-title":"Two-stream convolutional networks for action recognition in videos","author":"simonyan","year":"0","journal-title":"Proc Proc Int Conf Neural Inf Process Syst"},{"key":"ref27","first-page":"215","article-title":"An analysis of\n single-layer networks in unsupervised feature learning","author":"coates","year":"0","journal-title":"Proc Int Conf Artif Intell Statist"},{"key":"ref29","first-page":"435","article-title":"Evaluating\n two-stream CNN for video classification","author":"ye","year":"0","journal-title":"Proc 5th ACM Int Conf Multimedia Retrieval"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1002\/9780470222867"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ASPAA.2005.1540194"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/EUSIPCO.2016.7760424"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2367814"},{"key":"ref21","first-page":"3441","article-title":"Representing nonspeech audio signals through speech classification\n models","author":"phan","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-123"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2967268"},{"key":"ref26","first-page":"1279","article-title":"Tiled convolutional neural networks","author":"le","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref50","first-page":"1929","article-title":"Dropout: A simple\n way to prevent neural networks from overfitting","volume":"15","author":"hinton","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref51","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"0","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472918"},{"key":"ref54","article-title":"Probabilistic outputs for support vector machines, and comparisons\n to regularized likelihood methods","author":"platt","year":"1999","journal-title":"Advances in Large Margin Classifiers"},{"key":"ref53","first-page":"975","article-title":"Probability estimates for multi-class classification by pairwise coupling","volume":"5","author":"wu","year":"2004","journal-title":"J Mach Learn Res"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/130385.130401"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2012.2199972"},{"key":"ref11","first-page":"142","article-title":"Histogram of gradients of time-frequency representations for audio scene classification","volume":"23","author":"rakotomamonjy","year":"2015","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"ref40","first-page":"95","article-title":"DCASE 2016 acoustic scene classification using convolutional\n neural networks","author":"valenti","year":"0","journal-title":"Proc Workshop Detection Classif Acoust Scenes Events"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/EUSIPCO.2015.7362477"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/2733373.2806389"},{"key":"ref14","first-page":"107","article-title":"Noise-robust environmental sound classification method based on combination of ICA and MP\n features","volume":"2","author":"mogi","year":"2013","journal-title":"Artif Intell Res"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6855206"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2014.2326181"},{"key":"ref17","first-page":"1272","article-title":"Audio context recognition using audio\n event histogram","author":"heittola","year":"0","journal-title":"Proc Eur Signal Process Conf"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2008.921739"},{"key":"ref19","author":"ellis","year":"2009"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2006.262661"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.854103"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/9780470043387"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1186\/1687-4722-2013-1"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/EUSIPCO.2015.7362358"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2010.937498"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/2766462.2767830"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2428998"},{"key":"ref46","first-page":"849","article-title":"On spectral\n clustering: Analysis and an algorithm","author":"ng","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1023\/A:1010933404324"},{"key":"ref48","first-page":"315","article-title":"Deep sparse\n rectifier neural networks","author":"glorot","year":"0","journal-title":"Proc 14th Int Conf Artificial Intell"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"ref42","article-title":"Classifying variable-length audio files with all-convolutional networks and masked global pooling","author":"hertel","year":"0"},{"key":"ref41","article-title":"Convolutional neural network with multiple-width frequency-delta data augmentation for acoustic scene\n classification","author":"han","year":"2016"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1181"},{"key":"ref43","article-title":"CP-JKU submissions for DCASE-2016: A\n hybrid approach using binaural i-vectors and deep convolutional neural networks","author":"eghbal-zadeh","year":"0"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/7933016\/07933052.pdf?arnumber=7933052","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:15:00Z","timestamp":1642004100000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7933052\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,6]]},"references-count":55,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2017.2690564","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"value":"2329-9290","type":"print"},{"value":"2329-9304","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,6]]}}}