{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T01:09:28Z","timestamp":1773277768625,"version":"3.50.1"},"reference-count":27,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2019,2,21]],"date-time":"2019-02-21T00:00:00Z","timestamp":1550707200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,2,21]],"date-time":"2019-02-21T00:00:00Z","timestamp":1550707200000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100010418","name":"Institute for Information and communications Technology Promotion","doi-asserted-by":"publisher","award":["2013-0-00131"],"award-info":[{"award-number":["2013-0-00131"]}],"id":[{"id":"10.13039\/501100010418","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100010418","name":"Institute for Information and communications Technology Promotion","doi-asserted-by":"publisher","award":["R7124-16-0004"],"award-info":[{"award-number":["R7124-16-0004"]}],"id":[{"id":"10.13039\/501100010418","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Supercomput"],"published-print":{"date-parts":[[2020,10]]},"DOI":"10.1007\/s11227-019-02785-x","type":"journal-article","created":{"date-parts":[[2019,2,21]],"date-time":"2019-02-21T03:22:51Z","timestamp":1550719371000},"page":"8193-8213","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["Speech and music pitch trajectory classification using recurrent neural networks for monaural speech segregation"],"prefix":"10.1007","volume":"76","author":[{"given":"Han-Gyu","family":"Kim","sequence":"first","affiliation":[]},{"given":"Gil-Jin","family":"Jang","sequence":"additional","affiliation":[]},{"given":"Yung-Hwan","family":"Oh","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3398-9543","authenticated-orcid":false,"given":"Ho-Jin","family":"Choi","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,2,21]]},"reference":[{"key":"2785_CR1","unstructured":"Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, Corrado GS, Davis A, Dean J, Devin M et\u00a0al (2016) Tensorflow: large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467"},{"issue":"1","key":"2785_CR2","first-page":"1","volume":"6","author":"S Choi","year":"2005","unstructured":"Choi S, Cichocki A, Park HM, Lee SY (2005) Blind source separation and independent component analysis: a review. Neural Inf Process Lett Rev 6(1):1\u201357","journal-title":"Neural Inf Process Lett Rev"},{"issue":"2\u20133","key":"2785_CR3","first-page":"195","volume":"7","author":"JL Elman","year":"1991","unstructured":"Elman JL (1991) Distributed representations, simple recurrent networks, and grammatical structure. Mach Learn 7(2\u20133):195\u2013225","journal-title":"Mach Learn"},{"key":"2785_CR4","unstructured":"Garofolo JS, Lamel LF, Fisher WM, Fiscus JG, Pallett DS, Dahlgren NL (1933) Darpa timit acoustic-phonetic continuous speech corpus CD-ROM. NASA STI\/Recon Technical Report N 93, pp 1\u201379"},{"key":"2785_CR5","unstructured":"Goodfellow I, Bengio Y, Courville A. Deep learning (2016). http:\/\/www.deeplearningbook.org . Book in preparation for MIT Press"},{"key":"2785_CR6","first-page":"753","volume":"2005","author":"A Graves","year":"2005","unstructured":"Graves A, Fern\u00e1ndez S, Schmidhuber J (2005) Bidirectional lstm networks for improved phoneme classification and recognition. Artif Neural Netw Formal Models Appl 2005:753\u2013753","journal-title":"Artif Neural Netw Formal Models Appl"},{"key":"2785_CR7","doi-asserted-by":"crossref","unstructured":"Graves A, Jaitly N, Mohamed Ar (2013) Hybrid speech recognition with deep bidirectional lstm. In: 2013 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, pp 273\u2013278","DOI":"10.1109\/ASRU.2013.6707742"},{"key":"2785_CR8","unstructured":"Greff K, Srivastava RK, Koutn\u00edk J, Steunebrink BR, Schmidhuber J (2015) LSTM: a search space odyssey. arXiv preprint arXiv:1503.04069"},{"key":"2785_CR9","doi-asserted-by":"crossref","unstructured":"Hershey JR, Chen Z, Le\u00a0Roux J, Watanabe S (2016) Deep clustering: discriminative embeddings for segmentation and separation. In: 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, pp 31\u201335","DOI":"10.1109\/ICASSP.2016.7471631"},{"issue":"8","key":"2785_CR10","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"issue":"5","key":"2785_CR11","doi-asserted-by":"publisher","first-page":"1135","DOI":"10.1109\/TNN.2004.832812","volume":"15","author":"G Hu","year":"2004","unstructured":"Hu G, Wang D (2004) Monaural speech segregation based on pitch tracking and amplitude modulation. IEEE Trans Neural Netw 15(5):1135\u20131150","journal-title":"IEEE Trans Neural Netw"},{"key":"2785_CR12","unstructured":"Huang Z, Xu W, Yu K (2015) Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint arXiv:1508.01991"},{"issue":"6","key":"2785_CR13","doi-asserted-by":"publisher","first-page":"168","DOI":"10.1109\/LSP.2003.811630","volume":"10","author":"GJ Jang","year":"2003","unstructured":"Jang GJ, Lee TW, Oh YH (2003) Single channel signal separation using time-domain basis functions. IEEE Signal Process Lett 10(6):168\u2013171","journal-title":"IEEE Signal Process Lett"},{"key":"2785_CR14","doi-asserted-by":"crossref","unstructured":"Kim HG, Jang GJ, Park JS, Oh YH (2013) Monaural speech segregation based on pitch track correction using an ensemble Kalman filter. In: Proceedings of Interspeech","DOI":"10.21437\/Interspeech.2013-233"},{"key":"2785_CR15","first-page":"556","volume":"13","author":"DD Lee","year":"2001","unstructured":"Lee DD, Seung HS (2001) Algorithms for non-negative matrix factorization. Adv Neural Inf Process Syst 13:556\u2013562","journal-title":"Adv Neural Inf Process Syst"},{"key":"2785_CR16","doi-asserted-by":"crossref","unstructured":"Mikolov T, Karafi\u00e1t M, Burget L, Cernock\u1ef3 J, Khudanpur S (2010) Recurrent neural network based language model. In: Interspeech, p 3","DOI":"10.1109\/ICASSP.2011.5947611"},{"key":"2785_CR17","volume-title":"Advanced data mining techniques","author":"DL Olson","year":"2008","unstructured":"Olson DL, Delen D (2008) Advanced data mining techniques. Springer, Berlin"},{"key":"2785_CR18","unstructured":"Patterson RD, Nimmo-Smith I, Holdsworth J, Rice P (1988) An efficient auditory filterbank based on the gammatone function. Technical report. Annex B of the SVos Final Report: the auditory filterbank, APU Report 2341"},{"key":"2785_CR19","doi-asserted-by":"crossref","unstructured":"Raj B, Virtanen T, Chaudhuri S, Singh R (2010) Non-negative matrix factorization based compensation of music for automatic speech recognition. In: Proceedings of INTERSPEECH, pp 717\u2013720","DOI":"10.21437\/Interspeech.2010-268"},{"key":"2785_CR20","first-page":"793","volume":"13","author":"ST Roweis","year":"2001","unstructured":"Roweis ST (2001) One microphone source separation. Adv Neural Inf Process Syst 13:793\u2013799","journal-title":"Adv Neural Inf Process Syst"},{"issue":"3","key":"2785_CR21","doi-asserted-by":"publisher","first-page":"72","DOI":"10.1162\/comj.2008.32.3.72","volume":"32","author":"MP Ryyn\u00e4nen","year":"2008","unstructured":"Ryyn\u00e4nen MP, Klapuri AP (2008) Automatic transcription of melody, bass line, and chords in polyphonic music. Comput Music J 32(3):72\u201386","journal-title":"Comput Music J"},{"key":"2785_CR22","doi-asserted-by":"publisher","first-page":"494","DOI":"10.1007\/978-3-540-30110-3_63","volume":"3195","author":"P Smaragdis","year":"2004","unstructured":"Smaragdis P (2004) Non-negative matrix factor deconvolution; extraction of multiple sound sources from monophonic inputs. Indep Compon Anal Blind Signal Sep 3195:494\u2013499","journal-title":"Indep Compon Anal Blind Signal Sep"},{"key":"2785_CR23","doi-asserted-by":"crossref","unstructured":"Smaragdis P, Brown JC (2003) Non-negative matrix factorization for polyphonic music transcription. In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp 177\u2013180","DOI":"10.1109\/ASPAA.2003.1285860"},{"issue":"1","key":"2785_CR24","first-page":"1929","volume":"15","author":"N Srivastava","year":"2014","unstructured":"Srivastava N, Hinton GE, Krizhevsky A, Sutskever I, Salakhutdinov R (2014) Dropout: a simple way to prevent neural networks from overfitting. J Mach Learn Res 15(1):1929\u20131958","journal-title":"J Mach Learn Res"},{"issue":"3","key":"2785_CR25","doi-asserted-by":"publisher","first-page":"684","DOI":"10.1109\/72.761727","volume":"10","author":"DL Wang","year":"1999","unstructured":"Wang DL, Brown GJ (1999) Separation of speech from interfering sounds based on oscillatory correlation. IEEE Trans Neural Netw 10(3):684\u2013697","journal-title":"IEEE Trans Neural Netw"},{"key":"2785_CR26","unstructured":"Weintraub M (1985) A theory and computational model of auditory monaural sounds separation. Ph.D. Thesis. Stanford University"},{"issue":"6","key":"2785_CR27","doi-asserted-by":"publisher","first-page":"80","DOI":"10.2307\/3001968","volume":"1","author":"F Wilcoxon","year":"1945","unstructured":"Wilcoxon F (1945) Individual comparisons by ranking methods. Biom Bull 1(6):80\u201383","journal-title":"Biom Bull"}],"container-title":["The Journal of Supercomputing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11227-019-02785-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-019-02785-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-019-02785-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,9,12]],"date-time":"2022-09-12T05:47:19Z","timestamp":1662961639000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11227-019-02785-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,2,21]]},"references-count":27,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2020,10]]}},"alternative-id":["2785"],"URL":"https:\/\/doi.org\/10.1007\/s11227-019-02785-x","relation":{},"ISSN":["0920-8542","1573-0484"],"issn-type":[{"value":"0920-8542","type":"print"},{"value":"1573-0484","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,2,21]]},"assertion":[{"value":"21 February 2019","order":1,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}