{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2022,4,3]],"date-time":"2022-04-03T14:38:11Z","timestamp":1648996691423},"reference-count":24,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2018,4,18]],"date-time":"2018-04-18T00:00:00Z","timestamp":1524009600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Speech Technol"],"published-print":{"date-parts":[[2018,6]]},"DOI":"10.1007\/s10772-018-9509-6","type":"journal-article","created":{"date-parts":[[2018,4,18]],"date-time":"2018-04-18T08:26:32Z","timestamp":1524039992000},"page":"309-318","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Singing voice separation using mono-channel mask"],"prefix":"10.1007","volume":"21","author":[{"given":"Pallavi P.","family":"Ingale","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sanjay L.","family":"Nalbalwar","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,4,18]]},"reference":[{"key":"9509_CR1","unstructured":"Boersma, P., & Weenink, D. (2005). Praat: Doing phonetics by computer (Version 4.2.34) [Computer program]. Retrieved January 12, 2005."},{"key":"9509_CR2","doi-asserted-by":"crossref","unstructured":"Driedger, J., & M\u00fcller, M. (2015). Extracting singing voice from music recordings by cascading audio decomposition techniques. In2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 126\u2013130). IEEE.","DOI":"10.1109\/ICASSP.2015.7177945"},{"issue":"6","key":"9509_CR3","doi-asserted-by":"publisher","first-page":"1180","DOI":"10.1109\/JSTSP.2011.2158801","volume":"5","author":"J Durrieu","year":"2011","unstructured":"Durrieu, J., David, B., & Richard, G. (2011). A musically motivated mid-level representation for pitch estimation and musical audio source separation. IEEE Journal of Selected Topics in Signal Processing, 5(6), 1180\u20131191.","journal-title":"IEEE Journal of Selected Topics in Signal Processing"},{"key":"9509_CR4","unstructured":"F\u00e9votte, C., Gribonval, R., & Vincent, E. (2005). BSS_EVAL toolbox user guide\u2013Revision 2.0."},{"issue":"1","key":"9509_CR5","doi-asserted-by":"publisher","first-page":"257","DOI":"10.1121\/1.396427","volume":"83","author":"DJ Hermes","year":"1986","unstructured":"Hermes, D. J. (1986). Measurement of pitch by subharmonic summation. The Journal of the Acoustical Society of America, 83(1), 257\u2013264.","journal-title":"The Journal of the Acoustical Society of America"},{"key":"9509_CR6","unstructured":"Hsu, C. L., & Jang, J. S. R. (2010). Singing pitch extraction by voice vibrato\/tremolo estimation and instrument partial deletion. In ISMIR (pp. 525-530)."},{"key":"9509_CR7","first-page":"485","volume-title":"Topics in acoustic echo and noise control","author":"G Hu","year":"2006","unstructured":"Hu, G., & Wang, D. (2006). An auditory scene analysis approach to monaural speech segregation. In E. Hansler & G. Schmidt (Eds.), Topics in acoustic echo and noise control (pp. 485\u2013515). Heidelberg: Springer."},{"issue":"4","key":"9509_CR8","doi-asserted-by":"publisher","first-page":"643","DOI":"10.1109\/TASLP.2015.2396681","volume":"23","author":"Y Hu","year":"2015","unstructured":"Hu, Y., & Liu, G. (2015). Separation of singing voice using nonnegative matrix partial co-factorization for singer identification. IEEE Transactions on Audio, Speech, and Language Processing, 23(4), 643\u2013653.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"9509_CR24","doi-asserted-by":"crossref","unstructured":"Huang, P. S., Chen, S. D., Smaragdis, P., & Hasegawa-Johnson, M. (2012). Singing-voice separation from monaural recordings using robust principal component analysis. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 57\u201360). IEEE.","DOI":"10.1109\/ICASSP.2012.6287816"},{"issue":"11","key":"9509_CR9","doi-asserted-by":"publisher","first-page":"2084","DOI":"10.1109\/TASLP.2016.2577879","volume":"24","author":"Y Ikemiya","year":"2016","unstructured":"Ikemiya, Y., Itoyama, K., & Yoshii, K. (2016). Singing voice separation and vocal F0 estimation based on mutual combination of robust principal component analysis and subharmonic summation. IEEE\/ACM Transactions on Audio, Speech, and Language Processing, 24(11), 2084\u20132095.","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"9509_CR10","unstructured":"Li, Y., & Wang, D. (2005). Detecting pitch of singing voice in polyphonic audio. In IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings of ICASSP-05 (Vol. 3, pp. iii\u201317). IEEE."},{"issue":"4","key":"9509_CR11","doi-asserted-by":"publisher","first-page":"1475","DOI":"10.1109\/TASL.2006.889789","volume":"15","author":"Y Li","year":"2007","unstructured":"Li, Y., & Wang, D. (2007). Separation of singing voice from music accompaniment for monaural recordings. IEEE Transactions on Audio, Speech, and Language Processing, 15(4), 1475\u20131487.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"9509_CR12","doi-asserted-by":"crossref","unstructured":"Mesaros, A., & Virtanen, T. (2010). Recognition of phonemes and words in singing. In IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP) (pp. 2146-2149). IEEE.","DOI":"10.1109\/ICASSP.2010.5495585"},{"key":"9509_CR13","doi-asserted-by":"crossref","unstructured":"Nwe, T. L., & Li, H. (2008). On fusion of timbre-motivated features for singing voice detection and singer identification. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2008). (pp. 2225\u20132228). IEEE.","DOI":"10.1109\/ICASSP.2008.4518087"},{"key":"9509_CR14","volume-title":"Fundamentals of speech recognition","author":"LR Rabiner","year":"1993","unstructured":"Rabiner, L. R., & Juang, B. H. (1993). Fundamentals of speech recognition. Engliwood Cliffs: Prentice-Hall."},{"issue":"1","key":"9509_CR15","doi-asserted-by":"publisher","first-page":"73","DOI":"10.1109\/TASL.2012.2213249","volume":"21","author":"Z Rafii","year":"2013","unstructured":"Rafii, Z., & Pardo, B. (2013). Repeating pattern extraction technique (REPET): A simple method for music\/voice separation. IEEE Transactions on Audio, Speech, and Language Processing, 21(1), 73\u201384.","journal-title":"IEEE transactions on audio, speech, and language processing"},{"issue":"8","key":"9509_CR16","doi-asserted-by":"publisher","first-page":"2145","DOI":"10.1109\/TASL.2010.2042124","volume":"18","author":"V Rao","year":"2010","unstructured":"Rao, V., & Rao, P. (2010). Vocal melody extraction in the presence of pitched accompaniment in polyphonic music. IEEE Transactions on Audio, Speech, and Language Processing, 18(8), 2145\u20132154.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"1","key":"9509_CR17","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1016\/0167-6393(95)00009-D","volume":"17","author":"DA Reynolds","year":"1995","unstructured":"Reynolds, D. A. (1995). Speaker identification and verification using Gaussian mixture speaker models. Speech Communication, 17(1), 91\u2013108.","journal-title":"Speech Communication"},{"issue":"6","key":"9509_CR18","doi-asserted-by":"publisher","first-page":"1759","DOI":"10.1109\/TASL.2012.2188515","volume":"20","author":"J Salamon","year":"2012","unstructured":"Salamon, J., & G\u00f3mez, E. (2012). Melody extraction from polyphonic music signals using pitch contour characteristics. IEEE Transactions on Audio, Speech, and Language Processing, 20(6), 1759\u20131770.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"9509_CR19","doi-asserted-by":"crossref","unstructured":"Shao, Y., Srinivasan, S., & Wang, D. (2007). Incorporating auditory feature uncertainties in robust speaker identification. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2007). (Vol. 4, pp. IV-277). IEEE.","DOI":"10.1109\/ICASSP.2007.366903"},{"issue":"1","key":"9509_CR20","doi-asserted-by":"publisher","first-page":"228","DOI":"10.1109\/TASLP.2013.2287052","volume":"22","author":"H Tachibana","year":"2014","unstructured":"Tachibana, H., Ono, N., & Sagayama, S. (2014). Singing voice enhancement in monaural music signals based on two-stage harmonic\/percussive sound separation on multiple resolution spectrograms. IEEE\/ACM Transactions on Audio, Speech and Language Processing (TASLP), 22(1), 228\u2013237.","journal-title":"IEEE\/ACM Transactions on Audio, Speech and Language Processing (TASLP)"},{"key":"9509_CR21","volume-title":"Probability","author":"T Veerarajan","year":"2008","unstructured":"Veerarajan, T. (2008). Probability. Statistics and Random Processes: Tata McGraw-Hill."},{"issue":"3","key":"9509_CR22","doi-asserted-by":"publisher","first-page":"1066","DOI":"10.1109\/TASL.2006.885253","volume":"15","author":"T Virtanen","year":"2007","unstructured":"Virtanen, T. (2007). Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria. IEEE Transactions on Audio, Speech, and Language Processing, 15(3), 1066\u20131074.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"10","key":"9509_CR23","doi-asserted-by":"publisher","first-page":"2096","DOI":"10.1109\/TASL.2013.2266773","volume":"21","author":"B Zhu","year":"2013","unstructured":"Zhu, B., Li, W., Li, R., & Xue, X. (2013). Multi-stage non-negative matrix factorization for monaural singing voice separation. IEEE Transactions on Audio, Speech, and Language Processing, 21(10), 2096\u20132107.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"}],"container-title":["International Journal of Speech Technology"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10772-018-9509-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-018-9509-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-018-9509-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,4,17]],"date-time":"2019-04-17T19:11:38Z","timestamp":1555528298000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10772-018-9509-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,4,18]]},"references-count":24,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2018,6]]}},"alternative-id":["9509"],"URL":"https:\/\/doi.org\/10.1007\/s10772-018-9509-6","relation":{},"ISSN":["1381-2416","1572-8110"],"issn-type":[{"value":"1381-2416","type":"print"},{"value":"1572-8110","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,4,18]]},"assertion":[{"value":"16 May 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 April 2018","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 April 2018","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}