{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T12:28:57Z","timestamp":1780057737035,"version":"3.54.0"},"reference-count":149,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2011,4,1]],"date-time":"2011-04-01T00:00:00Z","timestamp":1301616000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2011,4]]},"DOI":"10.1109\/tmm.2010.2098858","type":"journal-article","created":{"date-parts":[[2010,12,14]],"date-time":"2010-12-14T18:22:13Z","timestamp":1292350933000},"page":"303-319","source":"Crossref","is-referenced-by-count":340,"title":["A Survey of Audio-Based Music Classification and Annotation"],"prefix":"10.1109","volume":"13","author":[{"given":"Zhouyu","family":"Fu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guojun","family":"Lu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kai Ming","family":"Ting","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dengsheng","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/1508850.1508856"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.876756"},{"key":"ref33","article-title":"Using voice segments to improve artist classification of music","author":"berenzweig","year":"2002","journal-title":"Proc Int Conf Virtual Synthetic and Entertainment Audio"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ASPAA.2001.969557"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/NNSP.2001.943160"},{"key":"ref30","article-title":"Music mood representations from social tags","author":"laurier","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.854091"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-006-0032-2"},{"key":"ref35","article-title":"Song-level features and SVMs for music classification","author":"mandel","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref34","article-title":"Singer identification in popular music recordings using voice coding features","author":"kim","year":"2002","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.913743"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.911513"},{"key":"ref29","article-title":"Multi-label classification of music into emotions","author":"trohidis","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref20","article-title":"Detecting emotion in music","author":"li","year":"2003","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref22","article-title":"Disambiguating music emotion using software agents","author":"yang","year":"2003","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/WI.2003.1241199"},{"key":"ref24","article-title":"Music emotion classification: A fuzzy approach","author":"yang","year":"2006","journal-title":"Proc ACM Multimedia"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2005.862491"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.367348"},{"key":"ref26","article-title":"Music emotion annotation by machine learning","author":"cheung","year":"2008","journal-title":"Proc Int Workshop Multimedia Signal Processing"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.889797"},{"key":"ref25","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1109\/TSA.2005.860344","article-title":"Automatic mood detection and tracking of music audio signals","volume":"14","author":"lu","year":"2006","journal-title":"IEEE Trans Speech Audio Process"},{"key":"ref50","article-title":"Automatic identification of instrument classes in polyphonic and poly-instrument audio","author":"hamel","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref51","article-title":"Musical instrument recognition in polyphonic audio using source-filter model for sound separation","author":"heittola","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref146","article-title":"Shift-invariant sparse coding for audio classification","author":"grosse","year":"2007","journal-title":"Proc Uncertainty in Artificial Intelligence"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1080\/09298210802479268"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2004.1326806"},{"key":"ref149","article-title":"How many beans make five? The consensus problem in music-genre classification and a new evaluation method for single-genre categorisation systems","author":"wiggins","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/1460096.1460115"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1080\/09298210802479250"},{"key":"ref57","article-title":"Music annotation and retrieval system using anti-models","author":"chen","year":"2008","journal-title":"Proc Audio Eng Soc"},{"key":"ref56","article-title":"Combining feature Kernels for semantic music retrieval","author":"barrington","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.913750"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1145\/1277741.1277817"},{"key":"ref53","article-title":"A semantic space for music derived from social tags","author":"levy","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref52","article-title":"Semantic-audio retrieval","author":"slaney","year":"2007","journal-title":"Proc Int Conf Acoustics Speech and Signal Processing"},{"key":"ref40","author":"marques","year":"1999","journal-title":"A Study of Musical Instrument Classification Using Gaussian Mixture Models and Support Vector Machines"},{"key":"ref4","article-title":"An investigation of feature models for music genre classification using the support vector classifier","author":"meng","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref3","article-title":"Evaluation of feature extractors and psycho-acoustic transformations for music genre classification","author":"lidy","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref6","article-title":"On the modelling of time information for automatic genre recognition systems in audio signals","author":"scaringella","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-005-5824-7"},{"key":"ref8","article-title":"Finding an optimal segmentation for audio genre classification","author":"west","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref49","article-title":"Scalability, generality and temporal aspects in automatic recognition of predominant musical instruments in polyphonic music","author":"fuhrmann","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2005.62"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-006-9019-7"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1155\/2007\/51979"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.860351"},{"key":"ref48","article-title":"Learning musical instruments from mixtures of audio with weak labels","author":"little","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref47","article-title":"Automatic instrument recognition in a polyphonic mixture using sparse representation","author":"leveau","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.2001.962718"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1121\/1.426728"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.860842"},{"key":"ref43","article-title":"Musical instrument recognition based on class pairwise feature selection","author":"essid","year":"2004","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1006\/jcss.1997.1504"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1145\/1631272.1631393"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1016\/S0893-6080(05)80023-1"},{"key":"ref124","first-page":"27","article-title":"Learning the Kernel matrix with semidefinite programming","volume":"5","author":"lanckriet","year":"2004","journal-title":"J Mach Learn Res"},{"key":"ref73","article-title":"Automatic chord recognition for music classification and retrieval","author":"cheng","year":"2008","journal-title":"Proc Int Conf Multimedia Expo"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2006.1661252"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2009.5202514"},{"key":"ref71","article-title":"Content-based identification of audio material using MPEG-7 low level description","author":"allamanche","year":"2001","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref128","article-title":"A benchmark dataset for audio classification and clustering","author":"homburg","year":"2005","journal-title":"Proc 3rd Int Conf Music Inf Retrieval"},{"key":"ref70","author":"duda","year":"2000","journal-title":"Pattern Classification"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.851880"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/89.466657"},{"key":"ref77","article-title":"Stereo panning features for classifying recording production style","author":"tzanetakis","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2004.826766"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2002.1035731"},{"key":"ref133","author":"thayer","year":"1989","journal-title":"The Biopsychology of Mood and Arousal"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1111\/1467-9280.00157"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2008.79"},{"key":"ref78","first-page":"409","article-title":"Stereo panning information for music information retrieval tasks","volume":"58","author":"tzanetakis","year":"2010","journal-title":"J Audio Eng Soc"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.2307\/1415746"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1145\/641007.641121"},{"key":"ref136","article-title":"The 2007 mirex audio mood classification task: Lessons learned","author":"hu","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref135","article-title":"Exploring mood metadata: Relationships with genre, artist and usage metadata","author":"hu","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2008.2008734"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553396"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2009.2012913"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2007.70791"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/1571941.1572009"},{"key":"ref61","article-title":"Augmenting text-based music retrieval with audio similarity","author":"knees","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref63","article-title":"Tag integrated multi-label music style classification with hypergraph","author":"wang","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref64","article-title":"Using regression to combine data sources for semantic music discovery","author":"tomasik","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref140","author":"shalev-shwartz","year":"2007","journal-title":"Online learning Theory algorithms and applications"},{"key":"ref65","article-title":"Easy as CBA: A simple probabilistic model for tagging music","author":"hoffman","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref141","author":"zhu","year":"0","journal-title":"Semi-supervised learning literature survey"},{"key":"ref66","article-title":"Using artist similarity to propagate semantic information","author":"kim","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4959909"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2006.1598089"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2010.5496214"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/s11634-007-0016-x"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2008.916364"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/860435.860487"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2008.916370"},{"key":"ref145","article-title":"Audio retrieval by rhythmic similarity","author":"foote","year":"2002","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2002.800560"},{"key":"ref109","article-title":"Frame-level audio similarity&#x2014;A codebook approach","author":"seyerlehner","year":"2008","journal-title":"Proc Int Conf Digital Audio Effects"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2003.815516"},{"key":"ref108","doi-asserted-by":"crossref","first-page":"138","DOI":"10.1117\/12.290336","article-title":"Content-based retrieval of music and audio","author":"foote","year":"1997","journal-title":"Proc SPIE Multimedia Storage and Archiving Systems II"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/89.876309"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2008.2012314"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2008.924595"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1007\/0-387-32845-9"},{"key":"ref92","article-title":"A query-by-example technique for retrieving cover versions of popular songs with similar melodies","author":"tsai","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref105","article-title":"Audio-based cover song retrieval using approximate chord sequences: Testing shifts, gaps, swaps and beats","author":"bello","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref91","article-title":"The song remains the same: Identifying versions of the same piece using tonal descriptors","author":"gomez","year":"2006","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref104","article-title":"Automatic chord recognition using enhanced pitch class profile","author":"lee","year":"2006","journal-title":"Proc Int Computer Music Conf"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.912373"},{"key":"ref103","article-title":"Estimating the tonality of polyphonic audio files: Cognitive versus machine learning modelling strategies","author":"gomez","year":"2004","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref102","article-title":"Classifying music audio with timbral and chroma features","author":"ellis","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2001.1237829"},{"key":"ref112","article-title":"Music similarity measures: What's the use?","author":"aucouturier","year":"2002","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref110","article-title":"Content-based musical similarity computation using the hierarchical dirichlet process","author":"hoffman","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref98","author":"gomez","year":"2006","journal-title":"Tonal description of music audio signals"},{"key":"ref99","article-title":"A mid-level melody-based representation for calculating audio similarity","author":"marolt","year":"2006","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1076\/jnmr.32.2.143.16743"},{"key":"ref97","first-page":"464","article-title":"Realtime chord recognition of musical sound: A system using common lisp music","author":"fujishima","year":"1999","journal-title":"Proc Int Computer Music Conf"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.860352"},{"key":"ref11","article-title":"Understandable models of music collections based on exhaustive feature generation with temporal statistics","author":"mochen","year":"2006","journal-title":"Proc ACM SIGKDD"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2006.870730"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2006.884618"},{"key":"ref14","article-title":"Improving genre classification by combination of audio and symbolic descriptors using a transcription system","author":"lidy","year":"2007","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.899293"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1162\/014892604323112257"},{"key":"ref16","article-title":"Music genre classification: A multilinear approach","author":"panagakis","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1121\/1.400476"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1145\/130385.130401"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2007.911305"},{"key":"ref81","author":"macy","year":"0","journal-title":"Grove Music Online"},{"key":"ref18","doi-asserted-by":"crossref","first-page":"670","DOI":"10.1109\/TMM.2009.2017635","article-title":"Automatic music genre classification based on modulation spectral analysis of spectral and cepstral features","volume":"11","author":"lin","year":"2009","journal-title":"IEEE Trans Multimedia"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.4018\/978-1-59904-663-1.ch002"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2004.03.009"},{"key":"ref19","article-title":"Music genre classification using locality preserving non-negative tensor factorization and sparse representations","author":"panagakis","year":"2009","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref83","author":"chua","year":"2007","journal-title":"Automatic Extraction of Perceptual Features and Categorization of Music Emotional Expressions from Polyphonic Music Audio Signals"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref113","article-title":"On the evaluation of perceptual similarity measures for music","author":"pampalk","year":"2003","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1109\/TIT.1967.1053964"},{"key":"ref80","article-title":"Improvements of audio-based music similarity and genre classification","author":"pampalk","year":"2005","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref115","article-title":"Unsupervised feature learning for audio classification using convolutional deep belief networks","author":"lee","year":"2009","journal-title":"Proc Advances in Neural Information Processing Systems"},{"key":"ref120","article-title":"A Kernel method for multi-labelled classification","author":"elisseeff","year":"2000","journal-title":"Proc Neural Information Processing Systems"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.913035"},{"key":"ref121","article-title":"Learning a metric for music similarity","author":"slaney","year":"2008","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.909434"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-14980-1_44"},{"key":"ref85","author":"west","year":"2008","journal-title":"Novel Techniques for Audio Music Classification and Search"},{"key":"ref86","first-page":"1","article-title":"Improving timbre similarity: How high is the sky?","volume":"1","author":"aucouturier","year":"2004","journal-title":"J Negative Results Speech Audio Sci"},{"key":"ref87","article-title":"A study on music genre classification based on universal acoustic models","author":"reed","year":"2006","journal-title":"Proc Int Conf Music Information Retrieval"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4959973"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx5\/6046\/5732768\/05664796.pdf?arnumber=5664796","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,10,10]],"date-time":"2021-10-10T23:50:18Z","timestamp":1633909818000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/5664796\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2011,4]]},"references-count":149,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tmm.2010.2098858","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2011,4]]}}}