{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,5,30]],"date-time":"2025-05-30T12:10:01Z","timestamp":1748607001802,"version":"3.41.0"},"reference-count":32,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2015,9,4]],"date-time":"2015-09-04T00:00:00Z","timestamp":1441324800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2015,12]]},"DOI":"10.1186\/s13636-015-0067-4","type":"journal-article","created":{"date-parts":[[2015,9,3]],"date-time":"2015-09-03T01:38:21Z","timestamp":1441244301000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Multimodal voice conversion based on non-negative matrix factorization"],"prefix":"10.1186","volume":"2015","author":[{"given":"Kenta","family":"Masaka","sequence":"first","affiliation":[]},{"given":"Ryo","family":"Aihara","sequence":"additional","affiliation":[]},{"given":"Tetsuya","family":"Takiguchi","sequence":"additional","affiliation":[]},{"given":"Yasuo","family":"Ariki","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2015,9,4]]},"reference":[{"key":"67_CR1","unstructured":"DD Lee, HS Seung, Algorithms for non-negative matrix factorization. Advances in Neural Information Processing System 13, 556\u2013562 (2000)."},{"issue":"3","key":"67_CR2","doi-asserted-by":"publisher","first-page":"1066","DOI":"10.1109\/TASL.2006.885253","volume":"15","author":"T Virtanen","year":"2007","unstructured":"T Virtanen, Monaural sound source separation by non-negative matrix factorization with temporal continuity and sparseness criteria. IEEE Trans. Audio, Speech, Lang. Process. 15(3), 1066\u20131074 (2007).","journal-title":"IEEE Trans. Audio, Speech, Lang. Process."},{"key":"67_CR3","doi-asserted-by":"crossref","unstructured":"MN Schmidt, RK Olsson, in Interspeech. Single-channel speech separation using sparse non-negative matrix factorization (Pittsburgh, Pennsylvania, USA, 2006).","DOI":"10.21437\/Interspeech.2006-655"},{"issue":"7","key":"67_CR4","doi-asserted-by":"publisher","first-page":"2067","DOI":"10.1109\/TASL.2011.2112350","volume":"19","author":"JF Gemmeke","year":"2011","unstructured":"JF Gemmeke, T Viratnen, A Hurmalainen, Exemplar-based sparse representations for noise robust automatic speech recognition. IEEE Trans. Audio, Speech and Language Processing. 19(7), 2067\u20132080 (2011).","journal-title":"IEEE Trans. Audio, Speech and Language Processing"},{"key":"67_CR5","doi-asserted-by":"crossref","unstructured":"R Takashima, T Takiguchi, Y Ariki, in SLT. Exemplar-based voice conversion in noisy environment (Miami, Florida, USA, 2012), pp. 313\u2013317.","DOI":"10.1109\/SLT.2012.6424242"},{"issue":"2","key":"67_CR6","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1109\/89.661472","volume":"6","author":"Y Stylianou","year":"1998","unstructured":"Y Stylianou, O Cappe, E Moilines, Continuous probabilistic transform for voice conversion. IEEE Trans. Speech and Audio Processing. 6(2), 131\u2013142 (1998).","journal-title":"IEEE Trans. Speech and Audio Processing"},{"key":"67_CR7","doi-asserted-by":"crossref","unstructured":"G Potamianos, HP Graf, in ICASSP. Discriminative training of HMM stream exponents for audio-visual speech recognition (Seattle, Washingron, USA, 1998), pp. 3733\u20133736.","DOI":"10.1109\/ICASSP.1998.679695"},{"key":"67_CR8","unstructured":"A Verma, T Faruquie, C Neti, S Basu, A Senior, in ASRU. Late integration in audio-visual continuous speech recognition (Keystone, Colorado, USA, 1999)."},{"key":"67_CR9","doi-asserted-by":"crossref","unstructured":"MJ Tomlinson, MJ Russell, NM Brooke, in ICASSP. Integrating audio and visual information to provide highly robust speech recognition (Atlanta, Georgia, USA, 1996), pp. 821\u2013824.","DOI":"10.1109\/ICASSP.1996.543247"},{"key":"67_CR10","doi-asserted-by":"crossref","unstructured":"Y Komai, N Yang, T Takiguchi, Y Ariki, in ACM Multimedia. Robust aam-based audio-visual speech recognition against face direction changes (Nara, Japan, 2012), pp. 1161\u20131164.","DOI":"10.1145\/2393347.2396408"},{"key":"67_CR11","doi-asserted-by":"publisher","first-page":"681","DOI":"10.1109\/34.927467","volume":"23","author":"GJE Cootes","year":"2001","unstructured":"Timothy F, GJE Cootes, CJ Taylor, Active appearance models. IEEE Trans. Pattern. Anal. Mach. Intell. 23, 681\u2013685 (2001).","journal-title":"IEEE Trans. Pattern. Anal. Mach. Intell"},{"key":"67_CR12","doi-asserted-by":"crossref","unstructured":"C Veaux, X Robet, in Interspeech. Intonation conversion from neutral to expressive speech (Florence, Italy, 2011), pp. 2765\u20132768.","DOI":"10.21437\/Interspeech.2011-692"},{"issue":"5","key":"67_CR13","doi-asserted-by":"publisher","first-page":"134","DOI":"10.5923\/j.ajsp.20120205.06","volume":"2","author":"R Aihara","year":"2012","unstructured":"R Aihara, R Takashima, T Takiguchi, Y Ariki, GMM-based emotional voice conversion using spectrum and prosody features. Am. J. Signal Process. 2(5), 134\u2013138 (2012).","journal-title":"Am. J. Signal Process"},{"issue":"1","key":"67_CR14","doi-asserted-by":"publisher","first-page":"134","DOI":"10.1016\/j.specom.2011.07.007","volume":"54","author":"K Nakamura","year":"2012","unstructured":"K Nakamura, T Toda, H Saruwatari, K Shikano, Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech. Speech Comm. 54(1), 134\u2013146 (2012).","journal-title":"Speech Comm"},{"key":"67_CR15","doi-asserted-by":"crossref","unstructured":"R Aihara, R Takashima, T Takiguchi, Y Ariki, in ICASSP. Individuality-preserving voice conversion for articulation disorders based on Non-negative Matrix Factorization (Lyon, France, 2013), pp. 8037\u20138040.","DOI":"10.1109\/ICASSP.2013.6639230"},{"key":"67_CR16","doi-asserted-by":"crossref","unstructured":"K Nakamura, T Toda, H Saruwatari, K Shikano, in Interspeech. Speaking aid system for total laryngectomees using voice conversion of body transmitted artificial speech (Pittsburgh, Pennsylvania, USA, 2006), pp. 148\u2013151.","DOI":"10.21437\/Interspeech.2006-419"},{"key":"67_CR17","doi-asserted-by":"crossref","unstructured":"A Kain, MW Macon, in ICASSP. Spectral voice conversion for text-to-speech synthesis (Las Vegas, Nevada, USA, 1998), pp. 285\u2013288.","DOI":"10.1109\/ICASSP.1998.674423"},{"key":"67_CR18","unstructured":"M Abe, S Nakamura, K Shikano, H Kuwabara, in ICASSP. Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models (New York, USA, 1988), pp. 655\u2013658."},{"key":"67_CR19","doi-asserted-by":"publisher","first-page":"175","DOI":"10.1016\/0167-6393(92)90012-V","volume":"11","author":"H Valbret","year":"1992","unstructured":"H Valbret, E Moulines, JP Tubach, Voice transformation using PSOLA technique. Speech Comm. 11, 175\u2013187 (1992).","journal-title":"Speech Comm"},{"issue":"8","key":"67_CR20","doi-asserted-by":"publisher","first-page":"2222","DOI":"10.1109\/TASL.2007.907344","volume":"15","author":"T Toda","year":"2007","unstructured":"T Toda, A Black, K Tokuda, Voice conversion based on maximum likelihood estimation of spectral parameter trajectory. IEEE Trans. Audio, Speech, Lang. Process. 15(8), 2222\u20132235 (2007).","journal-title":"IEEE Trans. Audio, Speech, Lang. Process."},{"key":"67_CR21","doi-asserted-by":"publisher","first-page":"912","DOI":"10.1109\/TASL.2010.2041699","volume":"18","author":"E Helander","year":"2010","unstructured":"E Helander, T Virtanen, J Nurminen, M Gabbouj, Voice conversion using partial least squares regression. IEEE Trans. Audio, Speech, Lang. Process. 18, 912\u2013921 (2010).","journal-title":"IEEE Trans. Audio, Speech, Lang. Process."},{"key":"67_CR22","doi-asserted-by":"crossref","unstructured":"CH Lee, CH Wu, in Interspeech. Map-based adaptation for speech conversion using adaptation data selection and non-parallel training (Pittsburgh, Pennsylvania, USA, 2006), pp. 2254\u20132257.","DOI":"10.21437\/Interspeech.2006-579"},{"key":"67_CR23","doi-asserted-by":"crossref","unstructured":"T Toda, Y Ohtani, K Shikano, in Interspeech. Eigenvoice conversion based on Gaussian mixture model (Pittsburgh, Pennsylvania, USA, 2006), pp. 2446\u20132449.","DOI":"10.21437\/Interspeech.2006-613"},{"key":"67_CR24","doi-asserted-by":"crossref","unstructured":"D Saito, K Yamamoto, N Minematsu, K Hirose, in Interspeech. One-to-many voice conversion based on tensor representation of speaker space (Florence, Italy, 2011), pp. 653\u2013656.","DOI":"10.21437\/Interspeech.2011-268"},{"key":"67_CR25","doi-asserted-by":"crossref","unstructured":"R Aihara, R Takashima, T Takiguchi, Y Ariki, in ICASSP. Voice conversion based on non-negative matrix factorization using phoneme-categorized dictionary (Florence, Italy, 2014), pp. 7944\u20137948.","DOI":"10.1109\/ICASSP.2014.6855137"},{"key":"67_CR26","doi-asserted-by":"publisher","first-page":"1506","DOI":"10.1109\/TASLP.2014.2333242","volume":"22","author":"Z Wu","year":"2014","unstructured":"Z Wu, T Virtanen, ES Chng, H Li, Exemplar-based sparse representation with residual compensation for voice conversion. IEEE\/ACM Transactions on Audio, Speech, and Language. 22, 1506\u20131521 (2014).","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language"},{"key":"67_CR27","doi-asserted-by":"crossref","unstructured":"K Masaka, R Aihara, T Takiguchi, Y Ariki, in ICASSP. Mutimodal voice conversion using non-negative matrix factorization in noisy environments (Florence, Italy, 2014), pp. 1561\u20131565.","DOI":"10.1109\/ICASSP.2014.6853856"},{"key":"67_CR28","doi-asserted-by":"crossref","unstructured":"K Masaka, R Aihara, T Takiguchi, Y Ariki, in Interspeech. Multimodal exemplar-based voice conversion using lip features in noisy (Singapore, 2014), pp. 1159\u20131163.","DOI":"10.21437\/Interspeech.2014-295"},{"key":"67_CR29","doi-asserted-by":"crossref","unstructured":"T Virtanen, BT Raj, JF Gemmeke, HV Hamme, in ICASSP. Active-set newton algorithm for non-negative sparse coding of audio (Florence, Italy, 2014), pp. 3092\u20133096.","DOI":"10.1109\/ICASSP.2014.6854169"},{"issue":"7","key":"67_CR30","first-page":"1","volume":"SLP-82","author":"T Satoshi","year":"2010","unstructured":"T Satoshi, M Chiyomi, Censrec-1-av an evaluation framework for multimodal speech recognition (japanese). Technical report. SLP-82(7), 1\u20136 (2010).","journal-title":"Technical report"},{"issue":"5","key":"67_CR31","doi-asserted-by":"publisher","first-page":"363","DOI":"10.1250\/ast.30.363","volume":"30","author":"N Kitaoka","year":"2009","unstructured":"N Kitaoka, T Yamada, S Tsuge, C Miyajima, K Yamamoto, T Nishiura, M Nakayama, Y Denda, M Fujimoto, T Takiguchi, S Tamura, S Matsuda, T Ogawa, S Kuroiwa, K Takeda, S Nakamura, CENSREC-1-C: An evaluation framework for voice activity detection under noisy environments. Acoustical Science and Technology. 30(5), 363\u2013371 (2009).","journal-title":"Acoustical Science and Technology"},{"key":"67_CR32","unstructured":"INTERNATIONAL TELECOMMUNICATION UNION, Methods for objective and subjective assessment of quality. ITU-T Recommendation, 800\u2013899 (2003)."}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0067-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-015-0067-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0067-4","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-015-0067-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,30]],"date-time":"2025-05-30T11:28:46Z","timestamp":1748604526000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-015-0067-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,9,4]]},"references-count":32,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2015,12]]}},"alternative-id":["67"],"URL":"https:\/\/doi.org\/10.1186\/s13636-015-0067-4","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2015,9,4]]},"article-number":"24"}}