{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T23:22:10Z","timestamp":1773098530282,"version":"3.50.1"},"reference-count":129,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2013,7,25]],"date-time":"2013-07-25T00:00:00Z","timestamp":1374710400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["J Intell Inf Syst"],"published-print":{"date-parts":[[2013,12]]},"DOI":"10.1007\/s10844-013-0258-3","type":"journal-article","created":{"date-parts":[[2013,7,24]],"date-time":"2013-07-24T14:07:55Z","timestamp":1374674875000},"page":"407-434","source":"Crossref","is-referenced-by-count":199,"title":["Automatic music transcription: challenges and future directions"],"prefix":"10.1007","volume":"41","author":[{"given":"Emmanouil","family":"Benetos","sequence":"first","affiliation":[]},{"given":"Simon","family":"Dixon","sequence":"additional","affiliation":[]},{"given":"Dimitrios","family":"Giannoulis","sequence":"additional","affiliation":[]},{"given":"Holger","family":"Kirchhoff","sequence":"additional","affiliation":[]},{"given":"Anssi","family":"Klapuri","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2013,7,25]]},"reference":[{"key":"258_CR1","unstructured":"Abdallah, S.A., & Plumbley, M.D. (2004). Polyphonic transcription by non-negative sparse coding of power spectra. In 5th int. conf. on music information retrieval (pp. 318\u2013325)."},{"issue":"8","key":"258_CR2","doi-asserted-by":"crossref","first-page":"1886","DOI":"10.1016\/j.sigpro.2011.12.022","volume":"92","author":"S Arberet","year":"2012","unstructured":"Arberet, S., Ozerov, A., Bimbot, F. & Gribonval, R (2012). A tractable framework for estimating and combining spectral source models for audio source separation. Signal Processing, 92(8), 1886\u20131901.","journal-title":"Signal Processing"},{"issue":"3","key":"258_CR3","doi-asserted-by":"crossref","first-page":"915","DOI":"10.1109\/TASL.2011.2174227","volume":"20","author":"A Barbancho","year":"2012","unstructured":"Barbancho, A., Klapuri, A., Tardon, L. & Barbancho, I (2012). Automatic transcription of guitar chords and fingering from audio. IEEE Trans. Audio, Speech, and Language Processing, 20(3), 915\u2013921.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"key":"258_CR4","doi-asserted-by":"crossref","unstructured":"Barbancho, I., de la Bandera, C., Barbancho, A., Tardon, L. (2009). Transcription and expressiveness detection system for violin music. In Int. conf. audio, speech, and signal processing (pp. 189\u2013192).","DOI":"10.1109\/ICASSP.2009.4959552"},{"issue":"1","key":"258_CR5","doi-asserted-by":"crossref","first-page":"111","DOI":"10.1109\/TASL.2010.2045186","volume":"19","author":"J Barbedo","year":"2011","unstructured":"Barbedo, J. & Tzanetakis, G (2011). Musical instrument classification using individual partials. IEEE Trans. Audio, Speech, and Language Processing, 19(1), 111\u2013122.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"issue":"3","key":"258_CR6","doi-asserted-by":"crossref","first-page":"1886","DOI":"10.1121\/1.4754916","volume":"132","author":"M Bay","year":"2012","unstructured":"Bay, M. & Beauchamp, J. W (2012). Multiple-timbre fundamental frequency tracking using an instrument spectrum library. The. Journal of the Acoustical Society of America, 132(3), 1886.","journal-title":"The Journal of the Acoustical Society of America"},{"key":"258_CR7","unstructured":"Bay, M., Ehmann, A.F., Downie, J.S. (2009). Evaluation of multiple-F0 estimation and tracking systems. In 10th int. society for music information retrieval conf. (pp. 315\u2013320)."},{"issue":"5","key":"258_CR8","doi-asserted-by":"crossref","first-page":"1035","DOI":"10.1109\/TSA.2005.851998","volume":"13","author":"J Bello","year":"2005","unstructured":"Bello, J., Daudet, L., Abdallah, S., Duxbury, C., Davies, M. & Sandler, M (2005). A tutorial on onset detection in musical signals. IEEE Transactions on Speech and Audio Processing, 13(5), 1035\u20131047.","journal-title":"IEEE Transactions on Speech and Audio Processing"},{"key":"258_CR9","unstructured":"Bello, J.P. (2003). Towards the automated analysis of simple polyphonic music: A knowledge-based approach. Ph.D. thesis, Department of Electronic Engineering, Queen Mary University of London."},{"issue":"6","key":"258_CR10","doi-asserted-by":"crossref","first-page":"2242","DOI":"10.1109\/TASL.2006.872609","volume":"14","author":"JP Bello","year":"2006","unstructured":"Bello, J. P., Daudet, L. & Sandler, M. B (2006). Automatic piano transcription using frequency and time-domain information. IEEE Transactions on Audio, Speech, and Language Processing, 14(6), 2242\u20132251.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR11","doi-asserted-by":"crossref","unstructured":"Benetos, E., & Dixon, S. (2011). Polyphonic music transcription using note onset and offset detection. In IEEE international conference on acoustics, speech, and signal processing (pp. 37\u201340). Prague, Czech Republic.","DOI":"10.1109\/ICASSP.2011.5946322"},{"issue":"4","key":"258_CR12","doi-asserted-by":"crossref","first-page":"81","DOI":"10.1162\/COMJ_a_00146","volume":"36","author":"E Benetos","year":"2012","unstructured":"Benetos, E. & Dixon, S (2012). A shift-invariant latent variable model for automatic music transcription. Computer Music Journal, 36(4), 81\u201394.","journal-title":"Computer Music Journal"},{"key":"258_CR13","unstructured":"Benetos, E., Dixon, S., Giannoulis, D., Kirchhoff, H., Klapuri, A. (2012). Automatic music transcription: Breaking the glass ceiling. In 13th int. society for music information retrieval conf. (pp. 379\u2013384)."},{"key":"258_CR14","unstructured":"Benetos, E., Klapuri, A., Dixon, S. (2012). Score-informed transcription for automatic piano tutoring. In 20th European signal processing conf. (pp. 2153\u20132157)."},{"key":"258_CR15","doi-asserted-by":"crossref","unstructured":"Bertin, N., Badeau, R., Richard, G. (2007). Blind signal decompositions for automatic transcription of polyphonic music: NMF and K-SVD on the benchmark. In IEEE international conference on acoustics, speech, and signal processing (pp. 65\u201368).","DOI":"10.1109\/ICASSP.2007.366617"},{"issue":"3","key":"258_CR16","doi-asserted-by":"crossref","first-page":"538","DOI":"10.1109\/TASL.2010.2041381","volume":"18","author":"N Bertin","year":"2010","unstructured":"Bertin, N., Badeau, R. & Vincent, E (2010). Enforcing harmonicity and smoothness in Bayesian non-negative matrix factorization applied to polyphonic music transcription. IEEE Trans. Audio, Speech, and Language Processing, 18(3), 538\u2013549.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"key":"258_CR17","unstructured":"B\u00f6ck, S., Arzt, A., Krebs, F., Schedl, M. (2012). Online realtime onset detection with recurrent neural networks. In Proceedings of the 15th international conference on digital audio effects."},{"key":"258_CR18","unstructured":"Bosch, J., Janer, J., Fuhrmann, F., Herrera, P. (2012). A comparison of sound segregation techniques for predominant instrument recognition in musical audio signals. In 13th int. society for music information retrieval conf. (pp. 559\u2013564)."},{"issue":"1","key":"258_CR19","doi-asserted-by":"crossref","first-page":"425","DOI":"10.1121\/1.400476","volume":"89","author":"J Brown","year":"1991","unstructured":"Brown, J (1991). Calculation of a constant Q spectral transform. Journal of the Acoustical Society of America, 89(1), 425\u2013434.","journal-title":"Journal of the Acoustical Society of America"},{"key":"258_CR20","doi-asserted-by":"crossref","unstructured":"Buckheit, J.B., & Donoho, D.L. (1995). WaveLab and reproducible research. Tech. Rep. 474, Dept of Statistics, Stanford Univ.","DOI":"10.1007\/978-1-4612-2544-7_5"},{"key":"258_CR21","doi-asserted-by":"crossref","unstructured":"Burred, J., Robel, A., Sikora, T. (2009). Polyphonic musical instrument recognition based on a dynamic model of the spectral envelope. In Int. conf. audio, speech, and signal processing (pp. 173\u2013176).","DOI":"10.1109\/ICASSP.2009.4959548"},{"issue":"4","key":"258_CR22","doi-asserted-by":"crossref","first-page":"668","DOI":"10.1109\/JPROC.2008.916370","volume":"96","author":"M Casey","year":"2008","unstructured":"Casey, M., Veltkamp, R., Goto, M., Leman, M., Rhodes, C. & Slaney, M (2008). Content-based music information retrieval: current directions and future challenges. Proceedings of the IEEE, 96(4), 668\u2013696.","journal-title":"Proceedings of the IEEE"},{"key":"258_CR23","doi-asserted-by":"crossref","first-page":"45","DOI":"10.1613\/jair.1121","volume":"18","author":"A Cemgil","year":"2003","unstructured":"Cemgil, A. & Kappen, B (2003). Monte carlo methods for tempo tracking and rhythm quantization. Journal of Artificial Intelligence Research, 18, 45\u201381.","journal-title":"Journal of Artificial Intelligence Research"},{"key":"258_CR24","unstructured":"Cemgil, A.T. (2004). Bayesian music transcription. Ph.D. thesis, Radboud University Nijmegen, Netherlands."},{"issue":"2","key":"258_CR25","doi-asserted-by":"crossref","first-page":"679","DOI":"10.1109\/TSA.2005.852985","volume":"14","author":"AT Cemgil","year":"2006","unstructured":"Cemgil, A. T., Kappen, H. J. & Barber, D (2006). A generative model for music transcription. IEEE Transactions on Audio, Speech, and Language Processing, 14(2), 679\u2013694.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR26","unstructured":"Collins, N. (2005). A comparison of sound onset detection algorithms with emphasis on psychoacoustically motivated detection functions. In 118th convention of the audio engineering society. Barcelona, Spain."},{"key":"258_CR27","unstructured":"Cont, A. (2006). Realtime multiple pitch observation using sparse non-negative constraints. In 7th international conference on music information retrieval."},{"key":"258_CR28","unstructured":"Dannenberg, R. (2005). Toward automated holistic beat tracking, music analysis, and understanding. In 6th int. conf. on music information retrieval (pp. 366\u2013373)."},{"issue":"3","key":"258_CR29","doi-asserted-by":"crossref","first-page":"1009","DOI":"10.1109\/TASL.2006.885257","volume":"15","author":"M Davies","year":"2007","unstructured":"Davies, M. & Plumbley, M (2007). Context-dependent beat tracking of musical audio. IEEE Transactions on Audio, Speech and Language Processing, 15(3), 1009\u20131020.","journal-title":"IEEE Transactions on Audio, Speech and Language Processing"},{"issue":"4","key":"258_CR30","doi-asserted-by":"crossref","first-page":"2498","DOI":"10.1121\/1.2168548","volume":"119","author":"M Davy","year":"2006","unstructured":"Davy, M., Godsill, S. & Idier, J (2006). Bayesian analysis of western tonal music. Journal of the Acoustical Society of America, 119(4), 2498\u20132517.","journal-title":"Journal of the Acoustical Society of America"},{"issue":"6","key":"258_CR31","doi-asserted-by":"crossref","first-page":"1228","DOI":"10.1109\/JSTSP.2011.2146229","volume":"5","author":"N Degara","year":"2011","unstructured":"Degara, N., Davies, M., Pena, A. & Plumbley, M (2011). Onset event decoding exploiting the rhythmic structure of polyphonic music. IEEE Journal of Selected Topics in Signal Processing, 5(6), 1228\u20131239.","journal-title":"IEEE Journal of Selected Topics in Signal Processing"},{"issue":"1","key":"258_CR32","doi-asserted-by":"crossref","first-page":"290","DOI":"10.1109\/TASL.2011.2160854","volume":"20","author":"N Degara","year":"2012","unstructured":"Degara, N., Rua, E. A., Pena, A., Torres-Guijarro, S., Davies, M. & Plumbley, M (2012). Reliability-informed beat tracking of musical signals. IEEE Transactions on Audio, Speech, and Language Processing, 20(1), 290\u2013301.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"1","key":"258_CR33","doi-asserted-by":"crossref","first-page":"29","DOI":"10.1076\/jnmr.28.1.29.3123","volume":"28","author":"P Desain","year":"1999","unstructured":"Desain, P. & Honing, H (1999). Computational models of beat induction: the rule-based approach. Journal of New. Music Research, 28(1), 29\u201342.","journal-title":"Journal of New Music Research"},{"key":"258_CR34","unstructured":"Dessein, A., Cont, A., Lemaitre, G. (2010). Real-time polyphonic music transcription with non-negative matrix factorization and beta-divergence. In 11th int. society for music information retrieval conf. (pp. 489\u2013494)."},{"key":"258_CR35","unstructured":"Dittmar, C., & Abe\u00dfer, J. (2008). Automatic music transcription with user interaction. In 34. Deutsche jahrestagung f\u00fcr akustik (DAGA) (pp. 567\u2013568)."},{"key":"258_CR36","unstructured":"Dittmar, C., Cano, E., Abe\u00dfer, J., Grollmisch, S. (2012). Music information retrieval meets music education. In M. M\u00fcller, M. Goto, M. Schedl (Eds.), Multimodal music processing. Dagstuhl follow-ups (Vol. 3, pp. 95\u2013120). Schloss Dagstuhl\u2013Leibniz-Zentrum f\u00fcr Informatik."},{"issue":"1","key":"258_CR37","doi-asserted-by":"crossref","first-page":"39","DOI":"10.1076\/jnmr.30.1.39.7119","volume":"30","author":"S Dixon","year":"2001","unstructured":"Dixon, S (2001). Automatic extraction of tempo and beat from expressive performances. Journal of New. Music Research, 30(1), 39\u201358.","journal-title":"Journal of New Music Research"},{"issue":"3","key":"258_CR38","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1525\/mp.2006.23.3.195","volume":"23","author":"S Dixon","year":"2006","unstructured":"Dixon, S., Goebl, W. & Cambouropoulos, E (2006). Perceptual smoothness of tempo in expressively performed music. Music Perception, 23(3), 195\u2013214.","journal-title":"Music Perception"},{"key":"258_CR39","unstructured":"Dressler, K. (2012). Multiple fundamental frequency extraction for MIREX 2012. In Music information retrieval evaluation eXchange. http:www.music-ir.org\/mirex\/abstracts\/2012\/KD1.pdf ."},{"issue":"8","key":"258_CR40","doi-asserted-by":"crossref","first-page":"2121","DOI":"10.1109\/TASL.2010.2042119","volume":"18","author":"Z Duan","year":"2010","unstructured":"Duan, Z., Pardo, B. & Zhang, C (2010). Multiple fundamental frequency estimation by modeling spectral peaks and non-peak regions. IEEE Transactions on Audio, Speech, and Language Processing, 18(8), 2121\u20132133.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR41","doi-asserted-by":"crossref","unstructured":"Durrieu, J., & Thiran, J. (2012). Musical audio source separation based on user-selected F0 track. In 10th int. conf. latent variable analysis and source separation (pp. 438\u2013445).","DOI":"10.1007\/978-3-642-28551-6_54"},{"key":"258_CR42","unstructured":"Eggink, J., & Brown, G. (2003). A missing feature approach to instrument identification in polyphonic music. In Int. conf. audio, speech, and signal processing (Vol. 5, pp. 553\u2013556)."},{"issue":"6","key":"258_CR43","doi-asserted-by":"crossref","first-page":"1643","DOI":"10.1109\/TASL.2009.2038819","volume":"18","author":"V Emiya","year":"2010","unstructured":"Emiya, V., Badeau, R. & David, B (2010). Multipitch estimation of piano sounds using a new probabilistic spectral smoothness principle. IEEE Transactions on Audio, Speech, and Language Processing, 18(6), 1643\u20131654.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR44","doi-asserted-by":"crossref","unstructured":"Ewert, S., & M\u00fcller, M. (2011). Estimating note intensities in music recordings. In Int. conf. audio, speech, and signal processing (pp. 385\u2013388).","DOI":"10.1109\/ICASSP.2011.5946421"},{"key":"258_CR45","doi-asserted-by":"crossref","unstructured":"Ewert, S., & M\u00fcller, M. (2012). Using score-informed constraints for NMF-based source separation. In Int. conf. audio, speech, and signal processing (pp. 129\u2013132).","DOI":"10.1109\/ICASSP.2012.6287834"},{"key":"258_CR46","doi-asserted-by":"crossref","unstructured":"Ewert, S., Muller, M., Grosche, P. (2009). High resolution audio synchronization using chroma onset features. In IEEE international conference on audio, speech and signal processing (pp. 1869\u20131872).","DOI":"10.1109\/ICASSP.2009.4959972"},{"key":"258_CR47","unstructured":"Eyben, F., B\u00f6ck, S., Schuller, B., Graves, A. (2012). Universal onset detection with bidirectional long short-term memory neural networks. In 11th international society for music information retrieval conference."},{"key":"258_CR48","unstructured":"Fourer, D., & Marchand, S. (2012). Informed multiple-F0 estimation applied to monaural audio source separation. In 20th European signal processing conf. (pp. 2158\u20132162)."},{"issue":"5","key":"258_CR49","first-page":"771","volume":"14","author":"Y Freund","year":"1999","unstructured":"Freund, Y., Schapire, R. & Abe, N (1999). A short introduction to boosting. Journal of Japanese Society for Artificial Intelligence, 14(5), 771\u2013780.","journal-title":"Journal of Japanese Society for Artificial Intelligence"},{"key":"258_CR50","doi-asserted-by":"crossref","unstructured":"Fuentes, B., Badeau, R., Richard, G. (2011). Adaptive harmonic time-frequency decomposition of audio using shift-invariant PLCA. In Int. conf. audio, speech, and signal processing (pp. 401\u2013404).","DOI":"10.1109\/ICASSP.2011.5946425"},{"key":"258_CR51","unstructured":"Fuentes, B., Badeau, R., Richard, G. (2012). Blind harmonic adaptive decomposition applied to supervised source separation. In 20th European signal processing conf. (pp. 2654\u20132658)."},{"key":"258_CR52","unstructured":"Gang, R., Bocko, G., Lundberg, J., Roessner, S., Headlam, D., Bocko, M. (2011). A real-time signal processing framework of musical expressive feature extraction using MATLAB. In 12th int. society for music information retrieval conf. (pp. 115\u2013120)."},{"key":"258_CR53","doi-asserted-by":"crossref","unstructured":"Giannoulis, D., & Klapuri, A. (2013). Musical instrument recognition in polyphonic audio using missing feature approach. In IEEE transactions on audio, speech, and language processing (Vol. 21, no. 9, pp. 1805\u20131817). doi: 10.1109\/TASL.2013.2248720 .","DOI":"10.1109\/TASL.2013.2248720"},{"key":"258_CR54","unstructured":"Gillet, O., & Richard, G. (2003). Automatic labelling of tabla signals. In 4th int. conf. on music information retrieval."},{"key":"258_CR55","doi-asserted-by":"crossref","first-page":"311","DOI":"10.1016\/j.specom.2004.07.001","volume":"43","author":"M Goto","year":"2004","unstructured":"Goto, M (2004). A real-time music-scene-description system: predominant-F0 estimation for detecting melody and bass lines in real-world audio signals. Speech Communication, 43, 311\u2013329.","journal-title":"Speech Communication"},{"key":"258_CR56","unstructured":"Goto, M. (2012). Grand challenges in music information research. In M. M\u00fcller, M. Goto, M. Schedl (Eds.), Multimodal music processing. Dagstuhl follow-ups (Vol. 3, pp. 217\u2013225). Schloss Dagstuhl\u2013Leibniz-Zentrum fuer Informatik."},{"key":"258_CR57","unstructured":"Goto, M., Hashiguchi, H., Nishimura, T., Oka, R. (2002). RWC music database: Popular, classical, and jazz music databases. In Proc. ISMIR (Vol. 2, pp. 287\u2013288)."},{"issue":"1","key":"258_CR58","doi-asserted-by":"crossref","first-page":"34","DOI":"10.1162\/comj.2005.29.1.34","volume":"29","author":"F Gouyon","year":"2005","unstructured":"Gouyon, F. & Dixon, S (2005). A review of automatic rhythm description systems. Computer Music Journal, 29(1), 34\u201354.","journal-title":"Computer Music Journal"},{"issue":"5","key":"258_CR59","doi-asserted-by":"crossref","first-page":"1832","DOI":"10.1109\/TSA.2005.858509","volume":"14","author":"F Gouyon","year":"2006","unstructured":"Gouyon, F., Klapuri, A., Dixon, S., Alonso, M., Tzanetakis, G. & Uhle, C (2006). An experimental comparison of audio tempo induction algorithms. IEEE Transactions on Audio, Speech and Language Processing, 14(5), 1832\u20131844.","journal-title":"IEEE Transactions on Audio, Speech and Language Processing"},{"issue":"6","key":"258_CR60","doi-asserted-by":"crossref","first-page":"1159","DOI":"10.1109\/JSTSP.2011.2162395","volume":"5","author":"G Grindlay","year":"2011","unstructured":"Grindlay, G. & Ellis, D (2011). Transcribing multi-instrument polyphonic music with hierarchical eigeninstruments. IEEE Journal of Selected Topics in Signal Processing, 5(6), 1159\u20131169.","journal-title":"IEEE Journal of Selected Topics in Signal Processing"},{"issue":"2","key":"258_CR61","doi-asserted-by":"crossref","first-page":"199","DOI":"10.3813\/AAA.918505","volume":"98","author":"P Grosche","year":"2012","unstructured":"Grosche, P., Schuller, B., M\u00fcller, M. & Rigoll, G (2012). Automatic transcription of recorded music. Acta. Acustica United with Acustica, 98(2), 199\u2013215.","journal-title":"Acta Acustica United with Acustica"},{"key":"258_CR62","unstructured":"Heittola, T., Klapuri, A., Virtanen, T. (2009). Musical instrument recognition in polyphonic audio using source-filter model for sound separation. In 10th int. society for music information retrieval conf. (pp. 327\u2013332)."},{"key":"258_CR63","doi-asserted-by":"crossref","unstructured":"Herrera-Boyer, P., Klapuri, A., Davy, M. (2006). Automatic classification of pitched musical instrument sounds. In Signal processing methods for music transcription (pp. 163\u2013200).","DOI":"10.1007\/0-387-32845-9_6"},{"issue":"6","key":"258_CR64","doi-asserted-by":"crossref","first-page":"1517","DOI":"10.1109\/TASL.2009.2036298","volume":"18","author":"A Holzapfel","year":"2010","unstructured":"Holzapfel, A., Stylianou, Y., Gedik, A. & Bozkurt, B (2010). Three dimensions of pitched instrument onset detection. IEEE Transactions on Audio, Speech, and Language Processing, 18(6), 1517\u20131527.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR65","unstructured":"Huang, X., Acero, A., Hon, H.W. (Eds.). (2001). Spoken language processing: A guide to theory, algorithm and system development. Prentice Hall."},{"key":"258_CR66","doi-asserted-by":"crossref","unstructured":"Humphrey, E.J., Bello, J.P., LeCun, Y. (2013). Feature learning and deep architectures: new directions for music informatics. Journal of Intelligent Information Systems. doi: 10.1007\/s10844-013-0248-5 .","DOI":"10.1007\/s10844-013-0248-5"},{"key":"258_CR67","doi-asserted-by":"crossref","unstructured":"Itoyama, K., Goto, M., Komatani, K., Ogata, T., Okuno, H. (2011). Simultaneous processing of sound source separation and musical instrument identification using Bayesian spectral modeling. In Int. conf. audio, speech, and signal processing (pp. 3816\u20133819).","DOI":"10.1109\/ICASSP.2011.5947183"},{"key":"258_CR68","unstructured":"Izmirli, O. (2005). An algorithm for audio key finding. In Music information retrieval evaluation exchange. http:\/\/www.music-ir.org\/mirex\/abstracts\/2005\/izmirli.pdf ."},{"issue":"3","key":"258_CR69","doi-asserted-by":"crossref","first-page":"982","DOI":"10.1109\/TASL.2006.885248","volume":"15","author":"H Kameoka","year":"2007","unstructured":"Kameoka, H., Nishimoto, T. & Sagayama, S (2007). A multipitch analyzer based on harmonic temporal structured clustering. IEEE Transactions on Audio, Speech, and Language Processing, 15(3), 982\u2013994.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR70","unstructured":"Kameoka, H., Ochiai, K., Nakano, M., Tsuchiya, M., Sagayama, S. (2012). Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms. In 13th int. society for music information retrieval conf. (pp. 307\u2013312)."},{"key":"258_CR71","unstructured":"Kasimi, A.A., Nichols, E., Raphael, C. (2007). A simple algorithm for automatic generation of polyphonic piano fingerings. In 8th international conference on music information retrieval (pp. 355\u2013356). Vienna, Austria."},{"key":"258_CR72","doi-asserted-by":"crossref","unstructured":"Kirchhoff, H., Dixon, S., Klapuri, A. (2012). Shift-variant non-negative matrix deconvolution for music transcription. In Int. conf. audio, speech, and signal processing (pp. 125\u2013128).","DOI":"10.1109\/ICASSP.2012.6287833"},{"issue":"1","key":"258_CR73","first-page":"279","volume":"2","author":"T Kitahara","year":"2007","unstructured":"Kitahara, T., Goto, M., Komatani, K., Ogata, T. & Okuno, H. G (2007). Instrogram: probabilistic representation of instrument existence for polyphonic music. Information and Media Technologies, 2(1), 279\u2013291.","journal-title":"Information and Media Technologies"},{"issue":"6","key":"258_CR74","doi-asserted-by":"crossref","first-page":"804","DOI":"10.1109\/TSA.2003.815516","volume":"11","author":"A Klapuri","year":"2003","unstructured":"Klapuri, A (2003). Multiple fundamental frequency estimation based on harmonicity and spectral smoothness. IEEE Transactions on Audio, Speech, and Language Processing, 11(6), 804\u2013816.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR75","doi-asserted-by":"crossref","unstructured":"Klapuri, A., Davy, M. (Eds.). (2006). Signal processing methods for music transcription. Springer.","DOI":"10.1007\/0-387-32845-9"},{"issue":"1","key":"258_CR76","doi-asserted-by":"crossref","first-page":"342","DOI":"10.1109\/TSA.2005.854090","volume":"14","author":"A Klapuri","year":"2006","unstructured":"Klapuri, A., Eronen, A. & Astola, J (2006). Analysis of the meter of acoustic musical signals. IEEE Transactions on Audio, Speech, and Language Processing, 14(1), 342\u2013355.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR77","unstructured":"Klapuri, A., Eronen, A., Sepp\u00e4nen, J., Virtanen, T. (2001). Automatic transcription of music. In Symposium on stochastic modeling of music. Ghent, Belgium."},{"issue":"7","key":"258_CR78","doi-asserted-by":"crossref","first-page":"2210","DOI":"10.1109\/TASL.2011.2125952","volume":"19","author":"A Koretz","year":"2011","unstructured":"Koretz, A. & Tabrikian, J (2011). Maximum a posteriori probability multiple pitch tracking using the harmonic model. IEEE Transactions on Audio, Speech, and Language Processing, 19(7), 2210\u20132221.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR79","unstructured":"Lacoste, A., & Eck, D. (2007). A supervised classification algorithm for note onset detection. EURASIP Journal on Applied Signal Processing, 2007(1), 1\u201313. ID 43745."},{"key":"258_CR80","doi-asserted-by":"crossref","first-page":"177","DOI":"10.1080\/09540099408915723","volume":"6","author":"E Large","year":"1994","unstructured":"Large, E. & Kolen, J (1994). Resonance and the perception of musical meter. Connection Science, 6, 177\u2013208.","journal-title":"Connection Science"},{"issue":"3","key":"258_CR81","doi-asserted-by":"crossref","first-page":"608","DOI":"10.1109\/TMM.2012.2191398","volume":"14","author":"CT Lee","year":"2012","unstructured":"Lee, C. T., Yang, Y. H. & Chen, H (2012). Multipitch estimation of piano music by exemplar-based sparse representation. IEEE Trans. Multimedia, 14(3), 608\u2013618.","journal-title":"IEEE Trans. Multimedia"},{"issue":"2","key":"258_CR82","doi-asserted-by":"crossref","first-page":"291","DOI":"10.1109\/TASL.2007.914399","volume":"16","author":"K Lee","year":"2008","unstructured":"Lee, K. & Slaney, M (2008). Acoustic chord transcription and key extraction from audio using key-dependent hmms trained on synthesized audio. IEEE Transactions on Audio, Speech and Language Processing, 16(2), 291\u2013301.","journal-title":"IEEE Transactions on Audio, Speech and Language Processing"},{"issue":"1","key":"258_CR83","doi-asserted-by":"crossref","first-page":"116","DOI":"10.1109\/TASL.2007.910786","volume":"16","author":"P Leveau","year":"2008","unstructured":"Leveau, P., Vincent, E., Richard, G. & Daudet, L (2008). Instrument-specific harmonic atoms for mid-level music representation. IEEE Transactions on Audio, Speech, and Language Processing, 16(1), 116\u2013128.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR84","unstructured":"Little, D., & Pardo, B. (2008). Learning musical instruments from mixtures of audio with weak labels. In 9th int. conf. on music information retrieval (p. 127)."},{"key":"258_CR85","unstructured":"Loscos, A., Wang, Y., Boo, W. (2006). Low level descriptors for automatic violin transcription. In 7th int. conf. on music information retrieval (pp. 164\u2013167)."},{"issue":"3","key":"258_CR86","doi-asserted-by":"crossref","first-page":"57","DOI":"10.1162\/COMJ_a_00129","volume":"36","author":"A Maezawa","year":"2012","unstructured":"Maezawa, A., Itoyama, K., Komatani, K., Ogata, T. & Okuno, H. G (2012). Automated violin fingering transcription through analysis of an audio recording. Computer Music Journal, 36(3), 57\u201372.","journal-title":"Computer Music Journal"},{"issue":"3","key":"258_CR87","doi-asserted-by":"crossref","first-page":"844","DOI":"10.1109\/TASL.2011.2166957","volume":"20","author":"M Marolt","year":"2012","unstructured":"Marolt, M (2012). Automatic transcription of bell chiming recordings. IEEE Transactions on Audio, Speech, and Language Processing, 20(3), 844\u2013853.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"6","key":"258_CR88","doi-asserted-by":"crossref","first-page":"1280","DOI":"10.1109\/TASL.2009.2032947","volume":"18","author":"M Mauch","year":"2010","unstructured":"Mauch, M. & Dixon, S (2010). Simultaneous estimation of chords and musical context from audio. IEEE Transactions on Audio, Speech, and Language Processing, 18(6), 1280\u20131289.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"258_CR89","unstructured":"Mauch, M., Noland, K., Dixon, S. (2009). Using musical structure to enhance automatic chord transcription. In 10th int. society for music information retrieval conf. (pp. 231\u2013236)."},{"issue":"1","key":"258_CR90","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1080\/09298210701653252","volume":"36","author":"M McKinney","year":"2007","unstructured":"McKinney, M., Moelants, D., Davies, M. & Klapuri, A (2007). Evalutation of audio beat tracking and music tempo extraction algorithms. Journal of New. Music Research, 36(1), 1\u201316.","journal-title":"Journal of New Music Research"},{"key":"258_CR91","unstructured":"Music Information Retrieval Evaluation eXchange (MIREX) (2011). http:\/\/music-ir.org\/mirexwiki\/ . Accessed 8 Jul 2013."},{"issue":"6","key":"258_CR92","doi-asserted-by":"crossref","first-page":"1088","DOI":"10.1109\/JSTSP.2011.2112333","volume":"5","author":"M M\u00fcller","year":"2011","unstructured":"M\u00fcller, M., Ellis, D., Klapuri, A. & Richard, G (2011). Signal processing for music analysis. IEEE J. Selected Topics in Signal Processing, 5(6), 1088\u20131110.","journal-title":"IEEE J. Selected Topics in Signal Processing"},{"key":"258_CR93","unstructured":"Nam, J., Ngiam, J., Lee, H., Slaney, M. (2011). A classification-based polyphonic piano transcription approach using learned feature representations. In 12th int. society for music information retrieval conf. (pp. 175\u2013180)."},{"key":"258_CR94","unstructured":"Nesbit, A., Hollenberg, L., Senyard, A. (2004). Towards automatic transcription of Australian aboriginal music. In 5th int. conf. on music information retrieval (pp. 326\u2013330)."},{"key":"258_CR95","unstructured":"Noland, K., & Sandler, M. (2006). Key estimation using a hidden markov model. In Proceedings of the 7th international conference on music information retrieval (ISMIR) (pp. 121\u2013126)."},{"key":"258_CR96","doi-asserted-by":"crossref","unstructured":"Ochiai, K., Kameoka, H., Sagayama, S. (2012). Explicit beat structure modeling for non-negative matrix factorization-based multipitch analysis. In Int. conf. audio, speech, and signal processing (pp. 133\u2013136).","DOI":"10.1109\/ICASSP.2012.6287835"},{"key":"258_CR97","doi-asserted-by":"crossref","unstructured":"O\u2019Hanlon, K., Nagano, H., Plumbley, M. (2012). Structured sparsity for automatic music transcription. In IEEE international conference on audio, speech and signal processing (pp. 441\u2013444).","DOI":"10.1109\/ICASSP.2012.6287911"},{"key":"258_CR98","unstructured":"Oram, A., & Wilson, G. (2010). Making software: What really works, and why we believe it. O\u2019Reilly Media, Incorporated."},{"key":"258_CR99","unstructured":"Oudre, L., Grenier, Y., F\u00e9votte, C. (2009). Template-based chord recognition: Influence of the chord types. In 10th international society for music information retrieval conference (pp. 153\u2013158)."},{"key":"258_CR100","unstructured":"\u00d6zaslan, T., Serra, X., Arcos, J.L. (2012). Characterization of embellishments in Ney performances of Makam music in Turkey. In 13th int. society for music information retrieval conf."},{"issue":"4","key":"258_CR101","doi-asserted-by":"crossref","first-page":"1118","DOI":"10.1109\/TASL.2011.2172425","volume":"20","author":"A Ozerov","year":"2012","unstructured":"Ozerov, A., Vincent, E. & Bimbot, F (2012). A general flexible framework for the handling of prior information in audio source separation. IEEE Trans. Audio, Speech, and Language Processing, 20(4), 1118\u20131133.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"key":"258_CR102","doi-asserted-by":"crossref","unstructured":"Papadopoulos, H., & Peeters, G. (2008). Simultaneous estimation of chord progression and downbeats from an audio file. In IEEE international conference on acoustics, speech and signal processing (pp. 121\u2013124).","DOI":"10.1109\/ICASSP.2008.4517561"},{"issue":"1","key":"258_CR103","doi-asserted-by":"crossref","first-page":"138","DOI":"10.1109\/TASL.2010.2045236","volume":"19","author":"H Papadopoulos","year":"2011","unstructured":"Papadopoulos, H. & Peeters, G (2011). Joint estimation of chords and downbeats from an audio signal. IEEE Transactions on Audio, Speech and Language Processing, 19(1), 138\u2013152.","journal-title":"IEEE Transactions on Audio, Speech and Language Processing"},{"issue":"6","key":"258_CR104","doi-asserted-by":"crossref","first-page":"1133","DOI":"10.1109\/JSTSP.2011.2158804","volume":"5","author":"P Peeling","year":"2011","unstructured":"Peeling, P. & Godsill, S (2011). Multiple pitch estimation using non-homogeneous Poisson processes. IEEE J. Selected Topics in Signal Processing, 5(6), 1133\u20131143.","journal-title":"IEEE J. Selected Topics in Signal Processing"},{"key":"258_CR105","unstructured":"Peeters, G. (2006). Musical key estimation of audio signal based on hidden Markov modeling of chroma vectors. In Proceedings of the 9th international conference on digital audio effects (pp. 127\u2013131)."},{"key":"258_CR106","doi-asserted-by":"crossref","unstructured":"Pertusa, A., & I\u00f1esta, J.M. (2008). Multiple fundamental frequency estimation using Gaussian smoothness. In int. conf. audio, speech, and signal processing (pp. 105\u2013108).","DOI":"10.1109\/ICASSP.2008.4517557"},{"key":"258_CR107","first-page":"154","volume":"8","author":"G Poliner","year":"2007","unstructured":"Poliner, G. & Ellis, D (2007). A discriminative model for polyphonic piano transcription. EURASIP J. Advances in Signal Processing, 8, 154\u2013162.","journal-title":"EURASIP J. Advances in Signal Processing"},{"issue":"4","key":"258_CR108","doi-asserted-by":"crossref","first-page":"1247","DOI":"10.1109\/TASL.2006.889797","volume":"15","author":"G Poliner","year":"2007","unstructured":"Poliner, G., Ellis, D., Ehmann, A., Gomez, E., Streich, S. & Ong, B (2007). Melody transcription from music audio: Approaches and evaluation. IEEE Trans. Audio, Speech, and Language Processing, 15(4), 1247\u20131256.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"key":"258_CR109","doi-asserted-by":"crossref","unstructured":"Raczy\u0144ski, S.A., Ono, N., Sagayama, S. (2009). Note detection with dynamic bayesian networks as a postanalysis step for NMF-based multiple pitch estimation techniques. In IEEE workshop on applications of signal processing to audio and acoustics (pp. 49\u201352).","DOI":"10.1109\/ASPAA.2009.5346507"},{"key":"258_CR110","unstructured":"Raczynski, S.A., Vincent, E., Bimbot, F., Sagayama, S., et al. (2010). Multiple pitch transcription using DBN-based musicological models. In 2010 int. society for music information retrieval conf. (ISMIR) (pp. 363\u2013368)."},{"key":"258_CR111","unstructured":"Radicioni, D.P., & Lombardo, V. (2005) Fingering for music performance. In International computer music conference (pp. 527\u2013530)."},{"key":"258_CR112","unstructured":"Raphael, C. (2005). A graphical model for recognizing sung melodies. In 6th international conference on music information retrieval (pp. 658\u2013663)."},{"key":"258_CR113","doi-asserted-by":"crossref","unstructured":"Reis, G., Fonseca, N., de Vega, F.F., Ferreira, A. (2008). Hybrid genetic algorithm based on gene fragment competition for polyphonic music transcription. In Conf. applications of evolutionary computing (pp. 305\u2013314).","DOI":"10.1007\/978-3-540-78761-7_31"},{"key":"258_CR114","unstructured":"R\u00f6bel, A. (2005). Onset detection in polyphonic signals by means of transient peak classification. In Music information retrieval evaluation exchange. http:\/\/www.music-ir.org\/evaluation\/mirex-results\/articles\/onset\/roebel.pdf ."},{"key":"258_CR115","doi-asserted-by":"crossref","unstructured":"Ryyn\u00e4nen, M., & Klapuri, A. (2005). Polyphonic music transcription using note event modeling. In IEEE workshop on applications of signal processing to audio and acoustics (pp. 319\u2013322).","DOI":"10.1109\/ASPAA.2005.1540233"},{"issue":"3","key":"258_CR116","doi-asserted-by":"crossref","first-page":"72","DOI":"10.1162\/comj.2008.32.3.72","volume":"32","author":"M Ryyn\u00e4nen","year":"2008","unstructured":"Ryyn\u00e4nen, M. & Klapuri, A (2008). Automatic transcription of melody, bass line, and chords in polyphonic music. Computer Music Journal, 32(3), 72\u201386.","journal-title":"Computer Music Journal"},{"key":"258_CR117","unstructured":"Scheirer, E. (1997). Using musical knowledge to extract expressive performance information from audio recordings. In H. Okuno, D. Rosenthal (Eds.), Readings in computational auditory scene analysis. Lawrence Erlbaum."},{"key":"258_CR118","unstructured":"Serra, X., Magas, M., Benetos, E., Chudy, M., Dixon, S., Flexer, A., G\u00f3mez, E., Gouyon, F., Herrera, P., Jorda, S., Paytuvi, O., Peeters, G., Schl\u00fcter, J., Vinet, H., Widmer, G. (2013). Roadmap for music information research. Creative Commons BY-NC-ND 3.0 license. http:\/\/mires.eecs.qmul.ac.uk ."},{"key":"258_CR119","doi-asserted-by":"crossref","unstructured":"Smaragdis, P., & Brown, J.C. (2003). Non-negative matrix factorization for polyphonic music transcription. In IEEE workshop on applications of signal processing to audio and acoustics (pp. 177\u2013180).","DOI":"10.1109\/ASPAA.2003.1285860"},{"key":"258_CR120","volume-title":"IEEE workshop on applications of signal processing to audio and acoustics (WASPAA)","author":"P Smaragdis","year":"2009","unstructured":"Smaragdis, P. & Mysore, G. J (2009). Separation by humming: User-guided sound extraction from monophonic mixtures. In, IEEE workshop on applications of signal processing to audio and acoustics (WASPAA). USA: New Paltz."},{"key":"258_CR121","volume-title":"Neural information processing systems workshop","author":"P Smaragdis","year":"2006","unstructured":"Smaragdis, P., Raj, B. & Shashanka, M (2006). A probabilistic latent variable model for acoustic modeling. In, Neural information processing systems workshop. Canada: Whistler."},{"issue":"3","key":"258_CR122","doi-asserted-by":"crossref","first-page":"37","DOI":"10.1109\/MSP.2009.932122","volume":"26","author":"P Vandewalle","year":"2009","unstructured":"Vandewalle, P., Kovacevic, J. & Vetterli, M (2009). Reproducible research in signal processing. Signal Processing Magazine, IEEE, 26(3), 37\u201347.","journal-title":"Signal Processing Magazine, IEEE"},{"issue":"3","key":"258_CR123","doi-asserted-by":"crossref","first-page":"528","DOI":"10.1109\/TASL.2009.2034186","volume":"18","author":"E Vincent","year":"2010","unstructured":"Vincent, E., Bertin, N. & Badeau, R (2010). Adaptive harmonic spectral decomposition for multiple pitch estimation. IEEE Trans. Audio, Speech, and Language Processing, 18(3), 528\u2013537.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"issue":"3","key":"258_CR124","doi-asserted-by":"crossref","first-page":"70","DOI":"10.1109\/MMUL.2008.49","volume":"15","author":"Y Wang","year":"2008","unstructured":"Wang, Y. & Zhang, B (2008). Application-specific music transcription for tutoring. IEEE MultiMedia, 15(3), 70\u201374.","journal-title":"IEEE MultiMedia"},{"key":"258_CR125","unstructured":"Wilson, G., Aruliah, D., Brown, C.T., Hong, N.P.C., Davis, M., Guy, R.T., Haddock, S.H., Huff, K., Mitchell, I.M., Plumbley, M.D., et al. (2012). Best practices for scientific computing. arXiv preprint arXiv: 1210.0530 ."},{"key":"258_CR126","doi-asserted-by":"crossref","unstructured":"Wu, J., Vincent, E., Raczynski, S., Nishimoto, T., Ono, N., Sagayama, S. (2011). Multipitch estimation by joint modeling of harmonic and transient sounds. In Int. conf. audio, speech, and signal processing (pp. 25\u201328).","DOI":"10.1109\/ICASSP.2011.5946319"},{"key":"258_CR127","unstructured":"Yeh, C. (2008). Multiple fundamental frequency estimation of polyphonic recordings. Ph.D. thesis, Universit\u00e9 Paris VI - Pierre et Marie Curie, France."},{"issue":"3","key":"258_CR128","doi-asserted-by":"crossref","first-page":"717","DOI":"10.1109\/TASL.2011.2164530","volume":"20","author":"K Yoshii","year":"2012","unstructured":"Yoshii, K. & Goto, M (2012). A nonparametric Bayesian multipitch analyzer based on infinite latent harmonic allocation. IEEE Trans. Audio, Speech, and Language Processing, 20(3), 717\u2013730.","journal-title":"IEEE Trans. Audio, Speech, and Language Processing"},{"key":"258_CR129","unstructured":"Zhou, R., & Reiss, J. (2007). Music onset detection combining energy-based and pitch-based approaches. In Music information retrieval evaluation exchange. http:\/\/www.music-ir.org\/mirex\/abstracts\/2007\/OD_zhou.pdf ."}],"container-title":["Journal of Intelligent Information Systems"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10844-013-0258-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10844-013-0258-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10844-013-0258-3","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,7,19]],"date-time":"2019-07-19T04:04:28Z","timestamp":1563509068000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10844-013-0258-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013,7,25]]},"references-count":129,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2013,12]]}},"alternative-id":["258"],"URL":"https:\/\/doi.org\/10.1007\/s10844-013-0258-3","relation":{},"ISSN":["0925-9902","1573-7675"],"issn-type":[{"value":"0925-9902","type":"print"},{"value":"1573-7675","type":"electronic"}],"subject":[],"published":{"date-parts":[[2013,7,25]]}}}