{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T13:17:42Z","timestamp":1740143862809,"version":"3.37.3"},"reference-count":50,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2018,9,12]],"date-time":"2018-09-12T00:00:00Z","timestamp":1536710400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2018,12]]},"DOI":"10.1186\/s13636-018-0132-x","type":"journal-article","created":{"date-parts":[[2018,9,12]],"date-time":"2018-09-12T06:33:33Z","timestamp":1536734013000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Piano multipitch estimation using sparse coding embedded deep learning"],"prefix":"10.1186","volume":"2018","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0533-8089","authenticated-orcid":false,"given":"Xingda","family":"Li","sequence":"first","affiliation":[]},{"given":"Yujing","family":"Guan","sequence":"additional","affiliation":[]},{"given":"Yingnian","family":"Wu","sequence":"additional","affiliation":[]},{"given":"Zhongbo","family":"Zhang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,9,12]]},"reference":[{"key":"132_CR1","doi-asserted-by":"publisher","unstructured":"V Emiya, R Badeau, B David, Multipitch estimation of piano sounds using a new probabilistic spectral smoothness principle. IEEE Trans. Audio, Speech, Lang. Process.18(6), 1643\u20131654 (2010). \n                    https:\/\/doi.org\/10.1109\/TASL.2009.2038819\n                    \n                  .","DOI":"10.1109\/TASL.2009.2038819"},{"key":"132_CR2","unstructured":"D Akaue, T Otsuka, K Itoyama, HG Okuno, in Proceedings of the 13th International Society for Music Information Retrieval Conference. Bayesian nonnegative harmonic-temporal factorization and its application to multipitch analysis (Porto, Portugal, 2012)."},{"key":"132_CR3","doi-asserted-by":"publisher","unstructured":"SI Adalbj\u00f6rnsson, A Jakobsson, MG Christensen, Multi-pitch estimation exploiting block sparsity. Sig. Process. 109:, 236\u2013247 (2015). \n                    https:\/\/doi.org\/10.1016\/j.sigpro.2014.10.014\n                    \n                  .","DOI":"10.1016\/j.sigpro.2014.10.014"},{"key":"132_CR4","doi-asserted-by":"publisher","unstructured":"K Yoshii, M Goto, A nonparametric Bayesian multipitch analyzer based on infinite latent harmonic allocation. IEEE Trans. Audio, Speech, Lang. Process.20(3), 717\u2013730 (2012). \n                    https:\/\/doi.org\/10.1109\/TASL.2011.2164530\n                    \n                  .","DOI":"10.1109\/TASL.2011.2164530"},{"key":"132_CR5","doi-asserted-by":"publisher","unstructured":"E Benetos, S Dixon, D Giannoulis, H Kirchhoff, A Klapuri, Automatic music transcription: challenges and future directions. J Intell. Inf. Syst.41(3), 407\u2013434 (2013). \n                    https:\/\/doi.org\/10.1007\/s10844-013-0258-3\n                    \n                  .","DOI":"10.1007\/s10844-013-0258-3"},{"key":"132_CR6","doi-asserted-by":"publisher","unstructured":"JS Downie, Music information retrieval. Annu. Rev. Inf. Sci. Technol.37(1), 295\u2013340 (2005). \n                    https:\/\/doi.org\/10.1002\/aris.1440370108\n                    \n                  .","DOI":"10.1002\/aris.1440370108"},{"key":"132_CR7","doi-asserted-by":"publisher","unstructured":"M McVicar, R Santos-Rodriguez, Y Ni, TD Bie, Automatic chord estimation from audio: a review of the state of the art. IEEE\/ACM Trans. Audio, Speech, Lang. Process.22(2), 556\u2013575 (2014). \n                    https:\/\/doi.org\/10.1109\/taslp.2013.2294580\n                    \n                  .","DOI":"10.1109\/taslp.2013.2294580"},{"key":"132_CR8","doi-asserted-by":"publisher","unstructured":"G Tsoumakas, I Katakis, Multi-label classification: an overview. Int. J. Data Warehous. Min.3(3), 1\u201313 (2007). \n                    https:\/\/doi.org\/10.4018\/jdwm.2007070101\n                    \n                  .","DOI":"10.4018\/jdwm.2007070101"},{"key":"132_CR9","doi-asserted-by":"publisher","unstructured":"R Liu, S Li, in 2009 IEEE Youth Conference on Information, Computing and Telecommunication. A review on music source separation, (2009), pp. 343\u2013346. \n                    https:\/\/doi.org\/10.1109\/YCICT.2009.5382353\n                    \n                  .","DOI":"10.1109\/YCICT.2009.5382353"},{"key":"132_CR10","doi-asserted-by":"publisher","unstructured":"R Badeau, V Emiya, B David, in 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. Expectation-maximization algorithm for multi-pitch estimation and separation of overlapping harmonic spectra, (2009), pp. 3073\u20133076. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2009.4960273\n                    \n                  .","DOI":"10.1109\/ICASSP.2009.4960273"},{"key":"132_CR11","doi-asserted-by":"publisher","unstructured":"RW Young, Inharmonicity of plain wire piano strings. J. Acoust. Soc. Am.24(3), 267\u2013273 (1952). \n                    https:\/\/doi.org\/10.1121\/1.1906888\n                    \n                  .","DOI":"10.1121\/1.1906888"},{"key":"132_CR12","doi-asserted-by":"publisher","unstructured":"OL Railsback, Scale temperament as applied to piano tuning. J. Acoust. Soc. Am.9(3), 274\u2013274 (1938). \n                    https:\/\/doi.org\/10.1121\/1.1902056\n                    \n                  .","DOI":"10.1121\/1.1902056"},{"key":"132_CR13","unstructured":"S Kong, D Wang, A brief summary of dictionary learning based approach for classification (revised) (2012). http:\/\/arxiv.org\/abs\/1205.6544."},{"key":"132_CR14","doi-asserted-by":"publisher","unstructured":"S Shekhar, VM Patel, NM Nasrabadi, R Chellappa, Joint sparse representation for robust multimodal biometrics recognition. IEEE Trans. Pattern Anal. Mach. Intell.36(1), 113\u2013126 (2014). \n                    https:\/\/doi.org\/10.1109\/TPAMI.2013.109\n                    \n                  .","DOI":"10.1109\/TPAMI.2013.109"},{"key":"132_CR15","doi-asserted-by":"publisher","unstructured":"S Bahrampour, NM Nasrabadi, A Ray, WK Jenkins, Multimodal task-driven dictionary learning for image classification. IEEE Trans. Image Process.25(1), 24\u201338 (2016). \n                    https:\/\/doi.org\/10.1109\/TIP.2015.2496275\n                    \n                  .","DOI":"10.1109\/TIP.2015.2496275"},{"key":"132_CR16","doi-asserted-by":"publisher","unstructured":"G Monaci, P Jost, P Vandergheynst, B Mailhe, S Lesage, R Gribonval, Learning multimodal dictionaries. IEEE Trans. Image Process.16(9), 2272\u20132283 (2007). \n                    https:\/\/doi.org\/10.1109\/TIP.2007.901813\n                    \n                  .","DOI":"10.1109\/TIP.2007.901813"},{"key":"132_CR17","doi-asserted-by":"publisher","unstructured":"D Yu, L Deng, Deep learning and its applications to signal and information processing [exploratory dsp]. IEEE Sign. Process. Mag.28(1), 145\u2013154 (2011). \n                    https:\/\/doi.org\/10.1109\/MSP.2010.939038\n                    \n                  .","DOI":"10.1109\/MSP.2010.939038"},{"key":"132_CR18","doi-asserted-by":"publisher","unstructured":"Y Bengio, Learning deep architectures for ai. Found. Trends\u24c7Mach. Learn.2(1), 1\u2013127 (2009). \n                    https:\/\/doi.org\/10.1561\/2200000006\n                    \n                  .","DOI":"10.1561\/2200000006"},{"key":"132_CR19","doi-asserted-by":"publisher","unstructured":"Y LeCun, Y Bengio, G Hinton, Deep learning. Nature. 521(7553), 436\u2013444 (2015). \n                    https:\/\/doi.org\/10.1038\/nature14539\n                    \n                  .","DOI":"10.1038\/nature14539"},{"key":"132_CR20","doi-asserted-by":"publisher","unstructured":"O Abdel-Hamid, A r. Mohamed, H Jiang, L Deng, G Penn, D Yu, Convolutional neural networks for speech recognition. IEEE Trans. Audio, Speech, Lang. Process.22(10), 1533\u20131545 (2014). \n                    https:\/\/doi.org\/10.1109\/TASLP.2014.2339736\n                    \n                  .","DOI":"10.1109\/TASLP.2014.2339736"},{"key":"132_CR21","doi-asserted-by":"publisher","unstructured":"SA Raczy\u0144ski, E Vincent, S Sagayama, Dynamic Bayesian networks for symbolic polyphonic pitch modeling. IEEE Trans. Audio, Speech, Lang. Process.21(9), 1830\u20131840 (2013). \n                    https:\/\/doi.org\/10.1109\/TASL.2013.2258012\n                    \n                  .","DOI":"10.1109\/TASL.2013.2258012"},{"key":"132_CR22","doi-asserted-by":"publisher","unstructured":"Y Jia, E Shelhamer, J Donahue, S Karayev, J Long, R Girshick, S Guadarrama, T Darrell, in Proceedings of the 22Nd ACM International Conference on Multimedia. MM \u201914. Caffe: Convolutional architecture for fast feature embedding (ACMNew York, 2014), pp. 675\u2013678. \n                    https:\/\/doi.org\/10.1145\/2647868.2654889\n                    \n                  . \n                    http:\/\/doi.acm.org\/10.1145\/2647868.2654889\n                    \n                  .","DOI":"10.1145\/2647868.2654889"},{"key":"132_CR23","doi-asserted-by":"publisher","first-page":"788","DOI":"10.1038\/44565","volume":"401","author":"DD Lee","year":"1999","unstructured":"DD Lee, HS Seung, Learning the parts of objects by non-negative matrix factorization. Nature. 401:, 788 (1999).","journal-title":"Nature"},{"key":"132_CR24","doi-asserted-by":"publisher","unstructured":"F Weninger, C Kirst, B Schuller, HJ Bungartz, in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. A discriminative approach to polyphonic piano note transcription using supervised non-negative matrix factorization, (2013), pp. 6\u201310. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2013.6637598\n                    \n                  .","DOI":"10.1109\/ICASSP.2013.6637598"},{"key":"132_CR25","doi-asserted-by":"publisher","unstructured":"K O\u2019Hanlon, MD Plumbley, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Polyphonic piano transcription using non-negative matrix factorisation with group sparsity, (2014), pp. 3112\u20133116. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2014.6854173\n                    \n                  .","DOI":"10.1109\/ICASSP.2014.6854173"},{"key":"132_CR26","unstructured":"T Nilsson, SI Adalbj\u00f6rnsson, NR Butt, A Jakobsson, in 21st European Signal Processing Conference (EUSIPCO 2013). Multi-pitch estimation of inharmonic signals, (2013), pp. 1\u20135."},{"key":"132_CR27","doi-asserted-by":"publisher","unstructured":"B Fuentes, R Badeau, G Richard, Harmonic adaptive latent component analysis of audio and application to music transcription. IEEE Trans. Audio, Speech, Lang. Process.21(9), 1854\u20131866 (2013). \n                    https:\/\/doi.org\/10.1109\/TASL.2013.2260741\n                    \n                  .","DOI":"10.1109\/TASL.2013.2260741"},{"key":"132_CR28","unstructured":"N Boulanger-Lewandowski, Y Bengio, P Vincent, in Proceedings of the 13th International Society for Music Information Retrieval Conference. Discriminative non-negative matrix factorization for multiple pitch estimation (Porto, Portugal, 2012)."},{"key":"132_CR29","doi-asserted-by":"publisher","unstructured":"M Genussov, I Cohen, Multiple fundamental frequency estimation based on sparse representations in a structured dictionary. Digit. Signal Proc.23(1), 390\u2013400 (2013). \n                    https:\/\/doi.org\/10.1016\/j.dsp.2012.08.012\n                    \n                  .","DOI":"10.1016\/j.dsp.2012.08.012"},{"key":"132_CR30","doi-asserted-by":"publisher","unstructured":"TST Chan, YH Yang, Informed group-sparse representation for singing voice separation. IEEE Signal Proc. Lett.24(2), 156\u2013160 (2017). \n                    https:\/\/doi.org\/10.1109\/LSP.2017.2647810\n                    \n                  .","DOI":"10.1109\/LSP.2017.2647810"},{"key":"132_CR31","doi-asserted-by":"publisher","unstructured":"K O\u2019Hanlon, MD Plumbley, in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Automatic music transcription using row weighted decompositions, (2013), pp. 16\u201320. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2013.6637600\n                    \n                  .","DOI":"10.1109\/ICASSP.2013.6637600"},{"key":"132_CR32","doi-asserted-by":"publisher","unstructured":"A Lef\u00e8vre, F Bach, C F\u00e9votte, in 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Itakura-saito nonnegative matrix factorization with group sparsity, (2011), pp. 21\u201324. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2011.5946318\n                    \n                  .","DOI":"10.1109\/ICASSP.2011.5946318"},{"key":"132_CR33","doi-asserted-by":"publisher","unstructured":"N Bertin, C Fevotte, R Badeau, in 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. A tempering approach for itakura-saito non-negative matrix factorization. with application to music transcription, (2009), pp. 1545\u20131548. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2009.4959891\n                    \n                  .","DOI":"10.1109\/ICASSP.2009.4959891"},{"key":"132_CR34","doi-asserted-by":"publisher","unstructured":"K O\u2019Hanlon, MB Sandler, in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). An iterative hard thresholding approach to l\n                           0 sparse hellinger nmf, (2016), pp. 4737\u20134741. \n                    https:\/\/doi.org\/10.1109\/ICASSP.2016.7472576\n                    \n                  .","DOI":"10.1109\/ICASSP.2016.7472576"},{"key":"132_CR35","doi-asserted-by":"publisher","unstructured":"E Vincent, N Bertin, R Badeau, Adaptive harmonic spectral decomposition for multiple pitch estimation. IEEE Trans. Audio, Speech, Lang. Process.18(3), 528\u2013537 (2010). \n                    https:\/\/doi.org\/10.1109\/TASL.2009.2034186\n                    \n                  .","DOI":"10.1109\/TASL.2009.2034186"},{"key":"132_CR36","doi-asserted-by":"publisher","unstructured":"T Tolonen, M Karjalainen, A computationally efficient multipitch analysis model. IEEE Trans. Audio, Speech, Lang. Process.8(6), 708\u2013716 (2000). \n                    https:\/\/doi.org\/10.1109\/89.876309\n                    \n                  .","DOI":"10.1109\/89.876309"},{"key":"132_CR37","unstructured":"A Klapuri, in Proceedings of the 7th International Conference on Music Information Retrieval. Multiple fundamental frequency estimation by summing harmonic amplitudes (Victoria (BC), Canada, 2006)."},{"key":"132_CR38","doi-asserted-by":"publisher","unstructured":"S Sigtia, E Benetos, S Dixon, An end-to-end neural network for polyphonic piano music transcription. IEEE Trans. Audio, Speech, Lang. Process.24(5), 927\u2013939 (2016). \n                    https:\/\/doi.org\/10.1109\/taslp.2016.2533858\n                    \n                  .","DOI":"10.1109\/taslp.2016.2533858"},{"key":"132_CR39","unstructured":"R Kelz, M Dorfer, F Korzeniowski, S B\u00f6ck, A Arzt, G Widmer, On the potential of simple framewise approaches to piano transcription (2016). \n                    http:\/\/arxiv.org\/abs\/1612.05153\n                    \n                  ."},{"key":"132_CR40","unstructured":"C Hawthorne, E Elsen, J Song, A Roberts, I Simon, C Raffel, J Engel, S Oore, D Eck, Onsets and frames: Dual-objective piano transcription (2017). \n                    http:\/\/arxiv.org\/abs\/1710.11153\n                    \n                  ."},{"key":"132_CR41","doi-asserted-by":"publisher","unstructured":"S Bahrampour, A Ray, NM Nasrabadi, KW Jenkins, Quality-based multimodal classification using tree-structured sparsity. 2014 IEEE Conf. Comput. Vision and Pattern Recognition (2014). \n                    https:\/\/doi.org\/10.1109\/cvpr.2014.524\n                    \n                  .","DOI":"10.1109\/cvpr.2014.524"},{"key":"132_CR42","doi-asserted-by":"publisher","unstructured":"C Bao, H Ji, Y Quan, Z Shen, Dictionary learning for sparse coding: Algorithms and convergence analysis. IEEE Trans. Pattern Anal. Mach. Intell.38(7), 1356\u20131369 (2016). \n                    https:\/\/doi.org\/10.1109\/TPAMI.2015.2487966\n                    \n                  .","DOI":"10.1109\/TPAMI.2015.2487966"},{"key":"132_CR43","doi-asserted-by":"publisher","unstructured":"J Mairal, F Bach, J Ponce, Task-driven dictionary learning. IEEE Trans. Pattern Anal.Mach. Intell.34(4), 791\u2013804 (2012). \n                    https:\/\/doi.org\/10.1109\/TPAMI.2011.156\n                    \n                  .","DOI":"10.1109\/TPAMI.2011.156"},{"key":"132_CR44","doi-asserted-by":"publisher","unstructured":"T Goldstein, S Osher, The split bregman method for l1-regularized problems. Siam J Imaging Sci.2(2), 323\u2013343 (2009). \n                    https:\/\/doi.org\/10.1137\/080725891\n                    \n                  .","DOI":"10.1137\/080725891"},{"key":"132_CR45","doi-asserted-by":"publisher","unstructured":"RE Carrillo, KE Barner, Lorentzian iterative hard thresholding: Robust compressed sensing with prior information. IEEE Trans. Sig. Process.61(19), 4822\u20134833 (2013). \n                    https:\/\/doi.org\/10.1109\/TSP.2013.2274275\n                    \n                  .","DOI":"10.1109\/TSP.2013.2274275"},{"key":"132_CR46","doi-asserted-by":"publisher","unstructured":"D Han, X Yuan, A note on the alternating direction method of multipliers. J. Optim. Nutr.155(1), 227\u2013238 (2012). \n                    https:\/\/doi.org\/10.1007\/s10957-012-0003-z\n                    \n                  .","DOI":"10.1007\/s10957-012-0003-z"},{"key":"132_CR47","doi-asserted-by":"publisher","unstructured":"J Bolte, S Sabach, M Teboulle, Proximal alternating linearized minimization for nonconvex and nonsmooth problems. Math. Program.146(1), 459\u2013494 (2014). \n                    https:\/\/doi.org\/10.1007\/s10107-013-0701-9\n                    \n                  .","DOI":"10.1007\/s10107-013-0701-9"},{"key":"132_CR48","doi-asserted-by":"publisher","unstructured":"Z Jiang, Z Lin, LS Davis, Label consistent k-svd: learning a discriminative dictionary for recognition. IEEE Trans. Pattern Anal. Mach. Intell.35(11), 2651\u20132664 (2013). \n                    https:\/\/doi.org\/10.1109\/TPAMI.2013.88\n                    \n                  .","DOI":"10.1109\/TPAMI.2013.88"},{"key":"132_CR49","first-page":"19","volume":"11","author":"J Mairal","year":"2010","unstructured":"J Mairal, F Bach, J Ponce, G Sapiro, Online learning for matrix factorization and sparse coding. J. Mach. Learn. Res.11:, 19\u201360 (2010).","journal-title":"J. Mach. Learn. Res."},{"key":"132_CR50","doi-asserted-by":"publisher","unstructured":"A Rodriguez, A Laio, Clustering by fast search and find of density peaks. Science. 344(6191), 1492\u20131496 (2014). \n                    https:\/\/doi.org\/10.1126\/science.1242072\n                    \n                  . \n                    http:\/\/arxiv.org\/abs\/http:\/\/science.sciencemag.org\/content\/344\/6191\/1492.full.pdf\n                    \n                  .","DOI":"10.1126\/science.1242072"}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-018-0132-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-018-0132-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-018-0132-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,9,11]],"date-time":"2019-09-11T19:07:25Z","timestamp":1568228845000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-018-0132-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,9,12]]},"references-count":50,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2018,12]]}},"alternative-id":["132"],"URL":"https:\/\/doi.org\/10.1186\/s13636-018-0132-x","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2018,9,12]]},"assertion":[{"value":"2 November 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 August 2018","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 September 2018","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"The authors declare that they have no competing interests.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}},{"value":"Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Publisher\u2019s Note"}}],"article-number":"11"}}