{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,14]],"date-time":"2026-03-14T06:20:35Z","timestamp":1773469235509,"version":"3.50.1"},"reference-count":35,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T00:00:00Z","timestamp":1754524800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T00:00:00Z","timestamp":1754524800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Nature Science Foundation of China","doi-asserted-by":"crossref","award":["62301109"],"award-info":[{"award-number":["62301109"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1007\/s00034-025-03275-7","type":"journal-article","created":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T12:47:09Z","timestamp":1754570829000},"page":"1221-1236","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Temporal Harmonic-Graph Convolutional Network for Vocal Melody Extraction from Polyphonic Music"],"prefix":"10.1007","volume":"45","author":[{"given":"Shanshan","family":"Liu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8445-7398","authenticated-orcid":false,"given":"Weiwei","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhaohui","family":"Zheng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lingyu","family":"Yan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,8,7]]},"reference":[{"key":"3275_CR1","first-page":"155","volume":"14","author":"RM Bittner","year":"2014","unstructured":"R.M. Bittner, J. Salamon, M. Tierney, M. Mauch, C. Cannam, J.P. Bello, MedleyDB: a multitrack dataset for annotation-intensive MIR research. Int. Soc. Music Inf. Retriev. Conf. 14, 155\u2013160 (2014)","journal-title":"Int. Soc. Music Inf. Retriev. Conf."},{"key":"3275_CR2","doi-asserted-by":"publisher","unstructured":"M.-T. Chen, B.-J. Li, T.-S. Chi, CNN based two-stage multi-resolution end-to-end model for singing melody extraction, in IEEE Int. Conf. Acoust., Speech, Signal Process, pp. 1005\u20131009 (2019). https:\/\/doi.org\/10.1109\/ICASSP.2019.8683630","DOI":"10.1109\/ICASSP.2019.8683630"},{"key":"3275_CR3","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-4012","author":"K Cho","year":"2014","unstructured":"K. Cho, B.V. Merrienboer, D. Bahdanau, Y. Bengio, On the properties of neural machine translation: encoder-decoder approaches. Comput. Sci. (2014). https:\/\/doi.org\/10.3115\/v1\/W14-4012","journal-title":"Comput. Sci."},{"key":"3275_CR4","unstructured":"M. Chen, Z. Wei, Z. Huang, B. Ding, Y. Li, Simple and deep graph convolutional networks, in Int. Conf Mach. Learn., pp. 1725\u20131735 (2020)"},{"key":"3275_CR5","doi-asserted-by":"publisher","unstructured":"X. Du, B. Zhu, Q. Kong, Z. Ma, Singing melody extraction from polyphonic music based on spectral correlation modeling, in IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 241\u2013245 (2021). https:\/\/doi.org\/10.1109\/ICASSP39728.2021.9414190","DOI":"10.1109\/ICASSP39728.2021.9414190"},{"key":"3275_CR6","doi-asserted-by":"publisher","unstructured":"A.O. Gathekar, A.M. Deshpande, Implementation of melody extraction algorithms from polyphonic audio for music information retrieval, in IEEE Int. Conf. Adv. Electron., pp. 6\u201311 (2017). https:\/\/doi.org\/10.1109\/ICAECCT.2016.7942546","DOI":"10.1109\/ICAECCT.2016.7942546"},{"key":"3275_CR7","doi-asserted-by":"publisher","unstructured":"Y. Gao, X. Du, B. Zhu, X. Sun, W. Li, Z. Ma, An hrnet-blstm model with two-stage training for singing melody extraction, in IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 56\u201360 (2021). https:\/\/doi.org\/10.1109\/ICASSP39728.2021.9414431","DOI":"10.1109\/ICASSP39728.2021.9414431"},{"issue":"14","key":"3275_CR8","doi-asserted-by":"publisher","first-page":"19945","DOI":"10.1007\/s11042-022-12432-y","volume":"81","author":"A George","year":"2022","unstructured":"A. George, X.A. Mary, S.T. George, Development of an intelligent model for musical key estimation using machine learning techniques. Multimed. Tools Appl. 81(14), 19945\u201319964 (2022). https:\/\/doi.org\/10.1007\/s11042-022-12432-y","journal-title":"Multimed. Tools Appl."},{"key":"3275_CR9","doi-asserted-by":"publisher","unstructured":"Y. Gao, B. Zhu, W. Li, K. Li, Y. Wu, F. Huang, Vocal melody extraction via DNN-based pitch estimation and salience-based pitch refinement, in IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 1000\u20131004 (2019). https:\/\/doi.org\/10.1109\/ICASSP.2019.8683608","DOI":"10.1109\/ICASSP.2019.8683608"},{"key":"3275_CR10","doi-asserted-by":"publisher","unstructured":"T.-H. Hsieh, K.-H. Cheng, Z.-C. Fan, Y.-C. Yang, Y.-H. Yang, Addressing the confounds of accompaniments in singer identification, in IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 1\u20135 (2020). https:\/\/doi.org\/10.1109\/ICASSP40776.2020.9054069","DOI":"10.1109\/ICASSP40776.2020.9054069"},{"issue":"2","key":"3275_CR11","doi-asserted-by":"publisher","first-page":"310","DOI":"10.1109\/TASL.2009.2026503","volume":"18","author":"CL Hsu","year":"2009","unstructured":"C.L. Hsu, J.S.R. Jang, On the improvement of singing voice separation for monaural recordings using the MIR1k dataset. IEEE Trans. Audio Speech Lang. Process. 18(2), 310\u2013319 (2009). https:\/\/doi.org\/10.1109\/TASL.2009.2026503","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"3275_CR12","unstructured":"S. Kum, C. Oh, J. Nam, Melody extraction on vocal segments using multi-column deep neural networks, in Int. Soc. Music Inf. Retriev. Conf., pp. 819\u2013825 (2016)"},{"issue":"12","key":"3275_CR13","doi-asserted-by":"publisher","first-page":"6038","DOI":"10.3837\/tiis.2017.12.019","volume":"11","author":"J Lee","year":"2017","unstructured":"J. Lee, D. Jang, K. Yoon, Automatic melody extraction algorithm using a convolutional neural network. KSII T. Internet Inf. 11(12), 6038\u20136053 (2017). https:\/\/doi.org\/10.3837\/tiis.2017.12.019","journal-title":"KSII T. Internet Inf."},{"key":"3275_CR14","unstructured":"G.E. Poliner, D.P. Ellis, A classification approach to melody transcription, in ISMIR, vol. 2005, p. 6 (2005)"},{"issue":"4","key":"3275_CR15","doi-asserted-by":"publisher","first-page":"1247","DOI":"10.1109\/TASL.2006.889797","volume":"15","author":"GE Poliner","year":"2007","unstructured":"G.E. Poliner, D.P.W. Ellis, A.F. Ehmann, E. G\u00f3mez, Melody transcription from music audio: approaches and evaluation. IEEE Trans. Audio Speech Lang. Process. 15(4), 1247\u20131256 (2007). https:\/\/doi.org\/10.1109\/TASL.2006.889797","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"4","key":"3275_CR16","doi-asserted-by":"publisher","first-page":"313","DOI":"10.1080\/08839514.2015.1016389","volume":"29","author":"R Panda","year":"2015","unstructured":"R. Panda, B. Rocha, R.P. Paiva, Music emotion recognition with standard and melodic audio features. Appl. Artif. Intell. 29(4), 313\u2013334 (2015). https:\/\/doi.org\/10.1080\/08839514.2015.1016389","journal-title":"Appl. Artif. Intell."},{"key":"3275_CR17","doi-asserted-by":"publisher","first-page":"272","DOI":"10.1016\/j.patrec.2013.04.006","volume":"36","author":"M Rocamora","year":"2014","unstructured":"M. Rocamora, P. Cancela, A. Pardo, Query by humming: automatically building the database from music recordings. Pattern Recogn. Lett. 36, 272\u2013280 (2014). https:\/\/doi.org\/10.1016\/j.patrec.2013.04.006","journal-title":"Pattern Recogn. Lett."},{"issue":"12","key":"3275_CR18","doi-asserted-by":"publisher","first-page":"1514","DOI":"10.1016\/j.patrec.2009.12.032","volume":"31","author":"R Ramirez","year":"2010","unstructured":"R. Ramirez, E. Maestre, X. Serra, Automatic performer identification in commercial monophonic jazz performances. Pattern Recogn. Lett. 31(12), 1514\u20131523 (2010). https:\/\/doi.org\/10.1016\/j.patrec.2009.12.032","journal-title":"Pattern Recogn. Lett."},{"issue":"6","key":"3275_CR19","doi-asserted-by":"publisher","first-page":"1759","DOI":"10.1109\/TASL.2012.2188515","volume":"20","author":"J Salamon","year":"2012","unstructured":"J. Salamon, E. Gomez, Melody extraction from polyphonic music signals using pitch contour characteristics. IEEE Trans. Audio Speech Lang. Process. 20(6), 1759\u20131770 (2012). https:\/\/doi.org\/10.1109\/TASL.2012.2188515","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"2","key":"3275_CR20","doi-asserted-by":"publisher","first-page":"118","DOI":"10.1109\/MSP.2013.2271648","volume":"31","author":"J Salamon","year":"2014","unstructured":"J. Salamon, E. G\u00f3mez, D.P.W. Ellis, G. Richard, Melody extraction from polyphonic music signals: approaches, applications, and challenges. IEEE Signal Process. Mag. 31(2), 118\u2013134 (2014). https:\/\/doi.org\/10.1109\/MSP.2013.2271648","journal-title":"IEEE Signal Process. Mag."},{"key":"3275_CR21","doi-asserted-by":"publisher","first-page":"340","DOI":"10.1016\/j.patrec.2019.09.024","volume":"128","author":"A Skoki","year":"2019","unstructured":"A. Skoki, S. Ljubic, J. Lerga, I. Stajduhar, Automatic music transcription for traditional woodwind instruments sopele. Pattern Recogn. Lett. 128, 340\u2013347 (2019). https:\/\/doi.org\/10.1016\/j.patrec.2019.09.024","journal-title":"Pattern Recogn. Lett."},{"key":"3275_CR22","doi-asserted-by":"publisher","first-page":"107945","DOI":"10.1016\/j.cnsns.2024.107945","volume":"132","author":"X Song","year":"2024","unstructured":"X. Song, Z. Peng, S. Song, V. Stojanovic, Anti-disturbance state estimation for pdt-switched rdnns utilizing time-sampling and space-splitting measurements. Commun. Nonlinear Sci. Numer. Simul. 132, 107945 (2024). https:\/\/doi.org\/10.1016\/j.cnsns.2024.107945","journal-title":"Commun. Nonlinear Sci. Numer. Simul."},{"issue":"1","key":"3275_CR23","doi-asserted-by":"publisher","first-page":"45","DOI":"10.1007\/s13735-012-0026-0","volume":"2","author":"J Salamon","year":"2013","unstructured":"J. Salamon, J. Serr\u00e0, E. G\u00f3mez, Tonal representations for music retrieval: from version identification to query-by-humming. Int. J. Multimedia Inf. Retrieval 2(1), 45\u201358 (2013). https:\/\/doi.org\/10.1007\/s13735-012-0026-0","journal-title":"Int. J. Multimedia Inf. Retrieval"},{"key":"3275_CR24","doi-asserted-by":"crossref","unstructured":"Su, L. Vocal melody extraction using patch-based CNN, in Conf. Acoust., Speech, Signal Process. pp. 371\u2013375 (2018).","DOI":"10.1109\/ICASSP.2018.8462420"},{"issue":"16","key":"3275_CR25","doi-asserted-by":"publisher","first-page":"2285","DOI":"10.1016\/j.patrec.2012.08.020","volume":"33","author":"W-H Tsai","year":"2012","unstructured":"W.-H. Tsai, Y.-M. Tu, C.-H. Ma, An fft-basedf fast melody comparison method for query-by-singing\/humming systems. Pattern Recogn. Lett. 33(16), 2285\u20132291 (2012). https:\/\/doi.org\/10.1016\/j.patrec.2012.08.020","journal-title":"Pattern Recogn. Lett."},{"key":"3275_CR26","doi-asserted-by":"publisher","unstructured":"Y. Tao, H. Tao, Z. Zhuang, V. Stojanovic, W. Paszke, Quantized iterative learning control of communication-constrained systems with encoding and decoding mechanism. T. I. Meas. Control 46(2024). https:\/\/doi.org\/10.1177\/01423312231225782","DOI":"10.1177\/01423312231225782"},{"key":"3275_CR27","doi-asserted-by":"publisher","first-page":"1599","DOI":"10.1109\/LSP.2022.3189313","volume":"29","author":"X Wang","year":"2022","unstructured":"X. Wang, L. Liu, J.Q. Shi, Computationally efficient dilated convolutional model for melody extraction. IEEE Signal Process. Lett. 29, 1599\u20131603 (2022). https:\/\/doi.org\/10.1109\/LSP.2022.3189313","journal-title":"IEEE Signal Process. Lett."},{"issue":"10","key":"3275_CR28","doi-asserted-by":"publisher","first-page":"7050","DOI":"10.1109\/TII.2021.3056867","volume":"17","author":"M Xia","year":"2021","unstructured":"M. Xia, H. Shao, X. Ma, C.W. Silva, A stacked GRU-RNN-based approach for predicting renewable energy and electricity load for smart grid operation. IEEE T. Ind. Inform. 17(10), 7050\u20137059 (2021). https:\/\/doi.org\/10.1109\/TII.2021.3056867","journal-title":"IEEE T. Ind. Inform."},{"key":"3275_CR29","doi-asserted-by":"publisher","unstructured":"S. Yu, X. Chen, W. Li, Hierarchical graph-based neural network for singing melody extraction, in IEEE Int. Conf. Acoust., Speech, Signal Process (ICASSP), pp. 626\u2013630 (2022). https:\/\/doi.org\/10.1109\/ICASSP43922.2022.9747629","DOI":"10.1109\/ICASSP43922.2022.9747629"},{"key":"3275_CR30","doi-asserted-by":"publisher","unstructured":"S. Yu, J. Liu, Y. Yu, W. Li, A scalable sparse transformer model for singing melody extraction, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1071\u20131075 (2024). https:\/\/doi.org\/10.1109\/ICASSP48485.2024.10447953","DOI":"10.1109\/ICASSP48485.2024.10447953"},{"key":"3275_CR31","doi-asserted-by":"publisher","unstructured":"T.C. Yeh, M.J. Wu, J.S.R. Jang, W.L. Chang, I.B. Liao, A hybrid approach to singing pitch extraction based on trend estimation and hidden markov models, in IEEE Int. Conf. Acoust., Speech, Signal Process., Kyoto, Japan, pp. 457\u2013460 (2012). https:\/\/doi.org\/10.1109\/ICASSP.2012.6287915","DOI":"10.1109\/ICASSP.2012.6287915"},{"key":"3275_CR32","doi-asserted-by":"publisher","first-page":"1006","DOI":"10.1109\/LSP.2021.3080625","volume":"28","author":"S Yu","year":"2021","unstructured":"S. Yu, Y. Yu, X. Chen, W. Li, HANME: Hierarchical attention network for singing melody extraction. IEEE Signal Process. Lett. 28, 1006\u20131010 (2021). https:\/\/doi.org\/10.1109\/LSP.2021.3080625","journal-title":"IEEE Signal Process. Lett."},{"issue":"9","key":"3275_CR33","doi-asserted-by":"publisher","first-page":"1620","DOI":"10.1109\/TASLP.2018.2834722","volume":"26","author":"W Zhang","year":"2018","unstructured":"W. Zhang, Z. Chen, F. Yin, Q. Zhang, Melody extraction from polyphonic music using particle filter and dynamic programming. IEEE\/ACM Trans. Audio, Speech, Lang. Process. 26(9), 1620\u20131632 (2018). https:\/\/doi.org\/10.1109\/TASLP.2018.2834722","journal-title":"IEEE\/ACM Trans. Audio, Speech, Lang. Process."},{"key":"3275_CR34","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.apacoust.2020.107338","volume":"166","author":"W Zhang","year":"2020","unstructured":"W. Zhang, R. Wang, Q. Zhang, S. Fang, A joint pitch estimation and voicing detection method for melody extraction. Appl. Acoust. 166, 1\u201311 (2020). https:\/\/doi.org\/10.1016\/j.apacoust.2020.107338","journal-title":"Appl. Acoust."},{"key":"3275_CR35","doi-asserted-by":"publisher","first-page":"109491","DOI":"10.1016\/j.apacoust.2023.109491","volume":"211","author":"W Zhang","year":"2023","unstructured":"W. Zhang, L. Yan, Q. Zhang, J. Gao, Graph modeling for vocal melody extraction from polyphonic music. Appl. Acoust. 211, 109491 (2023). https:\/\/doi.org\/10.1016\/j.apacoust.2023.109491","journal-title":"Appl. Acoust."}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03275-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-025-03275-7","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03275-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,14]],"date-time":"2026-03-14T05:40:22Z","timestamp":1773466822000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-025-03275-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8,7]]},"references-count":35,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2026,2]]}},"alternative-id":["3275"],"URL":"https:\/\/doi.org\/10.1007\/s00034-025-03275-7","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"value":"0278-081X","type":"print"},{"value":"1531-5878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,8,7]]},"assertion":[{"value":"1 July 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 July 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 July 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 August 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no conflict of interest regarding this work.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}