{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T12:54:24Z","timestamp":1773406464043,"version":"3.50.1"},"reference-count":64,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2014,8,1]],"date-time":"2014-08-01T00:00:00Z","timestamp":1406851200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2014,8]]},"DOI":"10.1109\/tmm.2014.2311016","type":"journal-article","created":{"date-parts":[[2014,3,11]],"date-time":"2014-03-11T18:03:46Z","timestamp":1394561026000},"page":"1188-1200","source":"Crossref","is-referenced-by-count":34,"title":["A Systematic Evaluation of the Bag-of-Frames Representation for Music Information Retrieval"],"prefix":"10.1109","volume":"16","author":[{"given":"Li","family":"Su","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chin-Chia Michael","family":"Yeh","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jen-Yu","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ju-Chiang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yi-Hsuan","family":"Yang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","author":"gersho","year":"1991","journal-title":"Vector Quantization and Signal Compression"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICMLA.2011.102"},{"key":"ref33","article-title":"Frame level audio similarity: A codebook approach","author":"seyerlehner","year":"2008","journal-title":"Proc Int Conf Digital Audio Effects"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1162\/jmlr.2003.3.4-5.993"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6637646"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2011.06.026"},{"key":"ref37","article-title":"Learning the similarity of audio music in bag-of-frames representation from tagged music data","author":"wang","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref36","first-page":"123","article-title":"Identifying repeated patterns in music using sparse convolutive non-negative matrix factorization","author":"weiss","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2012.2199109"},{"key":"ref34","first-page":"139","article-title":"Unsupervised learning of local features for music classification","author":"w\ufffdlfing","year":"2012","journal-title":"Proc ISMIR"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.235"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/1961189.1961199"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/2390848.2390851"},{"key":"ref63","first-page":"547","article-title":"Multivariate autoregressive mixture models for music auto-tagging","author":"coviello","year":"2012","journal-title":"Proc ISMIR"},{"key":"ref28","first-page":"295","article-title":"A text retrieval approach to content-based audio retrieval","author":"riley","year":"2008","journal-title":"Proc ISMIR"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0033993"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/1277741.1277817"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/2072529.2072539"},{"key":"ref2","first-page":"14","article-title":"On the use of sparse time-relative auditory codes for music","author":"manzagol","year":"2008","journal-title":"Proc ISMIR"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature04485"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1121\/1.2750160"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/641007.641121"},{"key":"ref21","first-page":"729","article-title":"Temporal pooling and multiscale learning for automatic annotation and ranking of music audio","author":"hamel","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1162\/014892604323112257"},{"key":"ref23","author":"baeza-yates","year":"1999","journal-title":"Modern Information Retrieval"},{"key":"ref26","author":"fuhrmann","year":"2012","journal-title":"Automatic musical instrument recognition from polyphonic music audio signals"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2002.800560"},{"key":"ref50","doi-asserted-by":"crossref","first-page":"267","DOI":"10.1111\/j.2517-6161.1996.tb02080.x","article-title":"Regression shrinkage and selection via the lasso","volume":"58","author":"tibshirani","year":"1996","journal-title":"J Royal Statist Soc"},{"key":"ref51","article-title":"An analysis of single-layer networks in unsupervised feature learning","author":"coates","year":"2011","journal-title":"Proc AISTATS"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2008.110"},{"key":"ref58","first-page":"73","article-title":"Okapi at trec-4","author":"robertson","year":"1995","journal-title":"Proc Text REtrieval Conf"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1145\/1993036.1993038"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1108\/00220410410560582"},{"key":"ref55","article-title":"A theoretical analysis of feature pooling in visual recognition","author":"boureau","year":"2010","journal-title":"Proc ICML"},{"key":"ref54","first-page":"729","article-title":"Temporal pooling and multiscale learning for automatic annotation and ranking of music audio","author":"hamel","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref53","first-page":"1794","article-title":"Linear spatial pyramid matching using sparse coding for image classification","author":"yang","year":"2009","journal-title":"Proc IEEE CVPR"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2011.2112333"},{"key":"ref10","first-page":"681","article-title":"Unsupervised learning of sparse features for scalable audio classification","author":"henaff","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref11","first-page":"325","article-title":"Feature learning in dynamic environments: Modeling the acoustic structure of musical emotion","author":"schmidt","year":"2012","journal-title":"Proc ISMIR"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1155\/2007\/43745"},{"key":"ref12","first-page":"81","article-title":"Sparse atomic modeling of audio: A review","author":"corey kereliuk","year":"2011","journal-title":"Proc Int Conf Digital Audio Effects"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/2324796.2324859"},{"key":"ref14","first-page":"565","article-title":"Learning sparse feature representations for music annotation and retrieval","author":"nam","year":"2012","journal-title":"Proc ISMIR"},{"key":"ref15","first-page":"37","article-title":"Analyzing drum patterns using conditional deep belief networks","author":"battenberg","year":"2012","journal-title":"Proc ISMIR"},{"key":"ref16","doi-asserted-by":"crossref","DOI":"10.1023\/A:1007651329917","article-title":"Multipitch estimation of piano music by exemplar-based sparse representation","author":"lee","year":"0","journal-title":"IEEE Trans Multimedia"},{"key":"ref17","first-page":"403","article-title":"Deep architectures and automatic feature learning in music informatics","author":"humphrey","year":"2012","journal-title":"Proc ISMIR"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553463"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1561\/2200000006"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2009.2030345"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1162\/NECO_a_00011"},{"key":"ref6","first-page":"339","article-title":"Learning features from music audio with deep belief networks","author":"hamel","year":"2010","journal-title":"Proc ISMIR"},{"key":"ref5","first-page":"1096","article-title":"Unsupervised feature learning for audio classification using convolutional deep belief networks","author":"lee","year":"2009","journal-title":"Proc NIPS"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2011.2161264"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1137\/S1064827596304010"},{"key":"ref7","first-page":"175","article-title":"A classification-based polyphonic piano transcription approach using learned feature representations","author":"nam","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref9","first-page":"669","article-title":"Audio based music classification with a pre trained convolutional network","author":"dieleman","year":"2011","journal-title":"Proc ISMIR"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2112350"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2010.2044470"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2006.881199"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1145\/1772690.1772862"},{"key":"ref42","first-page":"921","article-title":"The importance of encoding versus training with sparse coding and vector quantization","author":"coates","year":"2011","journal-title":"Proc ICML"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6287914"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2008.4587630"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1214\/009053604000000067"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6046\/6856249\/06763025.pdf?arnumber=6763025","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,2]],"date-time":"2025-05-02T01:30:50Z","timestamp":1746149450000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/6763025\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2014,8]]},"references-count":64,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/tmm.2014.2311016","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2014,8]]}}}