{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,6,7]],"date-time":"2024-06-07T12:10:11Z","timestamp":1717762211507},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2015,2,25]],"date-time":"2015-02-25T00:00:00Z","timestamp":1424822400000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2015,12]]},"DOI":"10.1186\/s13636-014-0044-3","type":"journal-article","created":{"date-parts":[[2015,2,24]],"date-time":"2015-02-24T12:42:55Z","timestamp":1424781775000},"update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":10,"title":["Voice conversion using speaker-dependent conditional restricted Boltzmann machine"],"prefix":"10.1186","volume":"2015","author":[{"given":"Toru","family":"Nakashika","sequence":"first","affiliation":[]},{"given":"Tetsuya","family":"Takiguchi","sequence":"additional","affiliation":[]},{"given":"Yasuo","family":"Ariki","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2015,2,25]]},"reference":[{"key":"44_CR1","unstructured":"A Kain, MW Macon, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Spectral voice conversion for text-to-speech synthesis, (1998), pp. 285\u2013288."},{"key":"44_CR2","unstructured":"C Veaux, X Robet, in Proceedings of Interspeech. Intonation conversion from neutral to expressive speech, (2011), pp. 2765\u20132768."},{"issue":"1","key":"44_CR3","doi-asserted-by":"publisher","first-page":"134","DOI":"10.1016\/j.specom.2011.07.007","volume":"54","author":"K Nakamura","year":"2012","unstructured":"K Nakamura, T Toda, H Saruwatari, K Shikano, Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech. Speech Commun. 54(1), 134\u2013146 (2012).","journal-title":"Speech Commun"},{"key":"44_CR4","unstructured":"L Deng, A Acero, L Jiang, J Droppo, X Huang, in Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). High-performance robust speech recognition using stereo training data, (2001), pp. 301\u2013304."},{"key":"44_CR5","unstructured":"A Kunikoshi, Y Qiao, N Minematsu, K Hirose, in Proceedings of Interspeech. Speech generation from hand gestures based on space mapping, (2009), pp. 308\u2013311."},{"issue":"2","key":"44_CR6","doi-asserted-by":"publisher","first-page":"4","DOI":"10.1109\/MASSP.1984.1162229","volume":"1","author":"R Gray","year":"1984","unstructured":"R Gray, Vector quantization. ASSP Mag. IEEE. 1(2), 4\u201329 (1984).","journal-title":"ASSP Mag. IEEE"},{"issue":"2","key":"44_CR7","doi-asserted-by":"publisher","first-page":"175","DOI":"10.1016\/0167-6393(92)90012-V","volume":"11","author":"H Valbret","year":"1992","unstructured":"H Valbret, E Moulines, J-P Tubach, Voice transformation using PSOLA technique. Speech Commun. 11(2), 175\u2013187 (1992).","journal-title":"Speech Commun"},{"issue":"2","key":"44_CR8","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1109\/89.661472","volume":"6","author":"Y Stylianou","year":"1998","unstructured":"Y Stylianou, Capp\u00e9 O, E Moulines, Continuous probabilistic transform for voice conversion. IEEE Trans. Speech Audio Process. 6(2), 131\u2013142 (1998).","journal-title":"IEEE Trans. Speech Audio Process"},{"issue":"8","key":"44_CR9","doi-asserted-by":"publisher","first-page":"2222","DOI":"10.1109\/TASL.2007.907344","volume":"15","author":"T Toda","year":"2007","unstructured":"T Toda, AW Black, K Tokuda, Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory. IEEE Trans. Audio Speech Lang. Process. 15(8), 2222\u20132235 (2007).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"issue":"5","key":"44_CR10","doi-asserted-by":"publisher","first-page":"912","DOI":"10.1109\/TASL.2010.2041699","volume":"18","author":"E Helander","year":"2010","unstructured":"E Helander, T Virtanen, J Nurminen, Gabbouj, Voice conversion using partial least squares regression. IEEE Trans. Audio Speech Lang. Process. 18(5), 912\u2013921 (2010).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"key":"44_CR11","unstructured":"C-H Lee, C-H Wu, in Proceedings of Interspeech. Map-based adaptation for speech conversion using adaptation data selection and non-parallel training, (2006), pp. 2254\u20132257."},{"key":"44_CR12","unstructured":"T Toda, Y Ohtani, K Shikano, in Proceedings of Interspeech. Eigenvoice conversion based on gaussian mixture model, (2006), pp. 2446\u20132449."},{"key":"44_CR13","unstructured":"D Saito, Yamamoto K, N Minematsu, K Hirose, in Proceedings of Interspeech. One-to-many voice conversion based on tensor representation of speaker space, (2011), pp. 653\u2013656."},{"key":"44_CR14","unstructured":"D Saito, S Watanabe, A Nakamura, N Minematsu, in Proceedings of Interspeech. Probabilistic integration of joint density model and speaker model for voice conversion, (2010), pp. 1728\u20131731."},{"key":"44_CR15","unstructured":"Z Jian, Z Yang, in Proceedings of International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel\/Distributed Computing. Voice conversion using canonical correlation analysis based on Gaussian mixture model, (2007), pp. 210\u2013215."},{"key":"44_CR16","unstructured":"R Takashima, T Takiguchi, Y Ariki, in IEEE Spoken Language Technology Workshop (SLT). Exemplar-based voice conversion in noisy environment, (2012), pp. 313\u2013317."},{"issue":"2","key":"44_CR17","doi-asserted-by":"publisher","first-page":"207","DOI":"10.1016\/0167-6393(94)00058-I","volume":"16","author":"M Narendranath","year":"1995","unstructured":"M Narendranath, HA Murthy, S Rajendran, B Yegnanarayana, Transformation of formants for voice conversion using artificial neural networks. Speech Commun. 16(2), 207\u2013216 (1995).","journal-title":"Speech Commun"},{"key":"44_CR18","unstructured":"S Desai, EV Raghavendra, B Yegnanarayana, AW Black, K Prahallad, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Voice conversion using artificial neural networks, (2009), pp. 3893\u20133896."},{"key":"44_CR19","unstructured":"Y-J Wu, H Kawai, J Ni, R-H Wang, in Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Minimum segmentation error based discriminative training for speech synthesis application, (2004), p. 629."},{"issue":"1","key":"44_CR20","doi-asserted-by":"publisher","first-page":"203","DOI":"10.1109\/TASL.2006.876778","volume":"15","author":"E McDermott","year":"2007","unstructured":"E McDermott, TJ Hazen, J Le Roux, A Nakamura, S Katagiri, Discriminative training for large-vocabulary speech recognition using minimum classification error. IEEE Trans. Audio Speech Lang. Process. 15(1), 203\u2013223 (2007).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"issue":"5","key":"44_CR21","first-page":"816","volume":"90","author":"T Tomoki","year":"2007","unstructured":"T Tomoki, K Tokuda, A speech parameter generation algorithm considering global variance for HMM-based speech synthesis. IEICE Trans. Inform. Syst. 90(5), 816\u2013824 (2007).","journal-title":"IEICE Trans. Inform. Syst"},{"issue":"5","key":"44_CR22","doi-asserted-by":"publisher","first-page":"1492","DOI":"10.1109\/TASL.2011.2182511","volume":"20","author":"Z-H Ling","year":"2012","unstructured":"Z-H Ling, L-R Dai, Minimum Kullback-Leibler divergence parameter generation for HMM-based speech synthesis. IEEE Trans. Audio Speech Lang. Process. 20(5), 1492\u20131502 (2012).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"key":"44_CR23","doi-asserted-by":"crossref","unstructured":"Z-H Ling, Y-J Wu, Y-P Wang, L Qin, R-H Wang, in Blizzard Challenge Workshop. USTC system for blizzard challenge 2006 an improved HMM-based speech synthesis method, (2006).","DOI":"10.21437\/Blizzard.2006-6"},{"key":"44_CR24","unstructured":"Z Wu, T Virtanen, T Kinnunen, ES Chng, H Li, in Proceedings of the 8th ISCA Speech Synthesis Workshop. Exemplar-based voice conversion using non-negative spectrogram deconvolution, (2013), pp. 221\u2013226."},{"key":"44_CR25","unstructured":"T Nakashika, R Takashima, T Takiguchi, Y Ariki, in Proceedings of Interspeech. Voice conversion in high-order eigen space using deep belief nets, (2013), pp. 369\u2013372."},{"key":"44_CR26","first-page":"194","volume":"1","author":"P Smolensky","year":"1986","unstructured":"P Smolensky, Information processing in dynamical systems: foundations of harmony theory. Parallel Distributed Process. 1, 194\u2013281 (1986).","journal-title":"Parallel Distributed Process"},{"issue":"7","key":"44_CR27","doi-asserted-by":"publisher","first-page":"1527","DOI":"10.1162\/neco.2006.18.7.1527","volume":"18","author":"GE Hinton","year":"2006","unstructured":"GE Hinton, S Osindero, Y-W Teh, A fast learning algorithm for deep belief nets. Neural Comput. 18(7), 1527\u20131554 (2006).","journal-title":"Neural Comput"},{"issue":"10","key":"44_CR28","doi-asserted-by":"publisher","first-page":"2129","DOI":"10.1109\/TASL.2013.2269291","volume":"21","author":"Z-H Ling","year":"2013","unstructured":"Z-H Ling, L Deng, D Yu, Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech synthesis. IEEE Trans. Audio Speech Lang. Process. 21(10), 2129\u20132139 (2013).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"issue":"1","key":"44_CR29","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1109\/TASL.2011.2109382","volume":"20","author":"A-R Mohamed","year":"2012","unstructured":"A-R Mohamed, GE Dahl, G Hinton, Acoustic modeling using deep belief networks. Audio Speech Lang. Process. IEEE Trans. 20(1), 14\u201322 (2012).","journal-title":"Audio Speech Lang. Process. IEEE Trans"},{"key":"44_CR30","first-page":"1339","volume":"22","author":"V Nair","year":"2009","unstructured":"V Nair, G Hinton, 3-D object recognition with deep belief nets. Adv. Neural Inform. Process. Syst. 22, 1339\u20131347 (2009).","journal-title":"Adv. Neural Inform. Process. Syst"},{"key":"44_CR31","unstructured":"T Deselaers, S Hasan, O Bender, H Ney, in Proceedings of the Fourth Workshop on Statistical Machine Translation. A deep learning approach to machine transliteration, (2009), pp. 233\u2013241."},{"key":"44_CR32","doi-asserted-by":"crossref","unstructured":"Z Wu, ES Chng, H Li, in Proceedings of the IEEE China Summit and International Conference on Signal and Information Processing (ChinaSIP). Conditional restricted Boltzmann machine for voice conversion, (2013).","DOI":"10.1109\/ChinaSIP.2013.6625307"},{"key":"44_CR33","unstructured":"C Ling-Hui, L Zhen-Hua, S Yan, D Li-Rong, in Proceedings of Interspeech. Joint spectral distribution modeling using restricted Boltzmann machines for voice conversion, (2013), pp. 3052\u20133056."},{"issue":"1","key":"44_CR34","doi-asserted-by":"publisher","first-page":"147","DOI":"10.1207\/s15516709cog0901_7","volume":"9","author":"DH Ackley","year":"1985","unstructured":"DH Ackley, GE Hinton, TJ Sejnowski, A learning algorithm for Boltzmann machines. Cogn. Sci. 9(1), 147\u2013169 (1985).","journal-title":"Cogn. Sci"},{"key":"44_CR35","first-page":"912","volume":"4","author":"Y Freund","year":"1991","unstructured":"Y Freund, D Haussler, Unsupervised learning of distributions of binary vectors using two layer networks. Adv, Neural Inform. Process. Syst. 4, 912\u2013919 (1991).","journal-title":"Adv, Neural Inform. Process. Syst"},{"issue":"5786","key":"44_CR36","doi-asserted-by":"publisher","first-page":"504","DOI":"10.1126\/science.1127647","volume":"313","author":"GE Hinton","year":"2006","unstructured":"GE Hinton, RR Salakhutdinov, Reducing the dimensionality of data with neural networks. Science. 313(5786), 504\u2013507 (2006).","journal-title":"Science"},{"key":"44_CR37","unstructured":"G Hinton, in Tech. Rep. Department of Computer Science. A practical guide to training restricted Boltzmann machines (University of Toronto, 2010)."},{"key":"44_CR38","unstructured":"A Krizhevsky, G Hinton, Learning multiple layers of features from tiny images (Computer Science Department, University of Toronto, Tech. Rep, 2009)."},{"key":"44_CR39","unstructured":"K Cho, A Ilin, T Raiko, in Artificial Neural Networks and Machine Learning\u2013ICANN 2011. Improved learning of gaussian-bernoulli restricted Boltzmann machines, (2011), pp. 10\u201317."},{"key":"44_CR40","unstructured":"GW Taylor, GE Hinton, ST Roweis, in Advances in Neural Information Processing Systems. Modeling human motion using binary latent variables, (2006), pp. 1345\u20131352."},{"key":"44_CR41","unstructured":"R Pascanu, T Mikolov, Y Bengio, On the difficulty of training recurrent neural networks. (2012)."},{"issue":"4","key":"44_CR42","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1016\/0167-6393(90)90011-W","volume":"9","author":"A Kurematsu","year":"1990","unstructured":"A Kurematsu, K Takeda, Y Sagisaka, S Katagiri, H Kuwabara, K Shikano, ATR japanese speech database as a tool of speech recognition and synthesis. Speech Communication. 9(4), 357\u2013363 (1990).","journal-title":"Speech Communication"},{"key":"44_CR43","unstructured":"H Kawahara, M Morise, T Takahashi, R Nisimura, T Irino, H Banno, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Tandem-straight: a temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, f0, and aperiodicity estimation, (2008), pp. 3933\u20133936."},{"key":"44_CR44","unstructured":"B Milner, X Shao, in Proceedings of Interspeech. Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model, (2002), pp. 2421\u20132424."}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-014-0044-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-014-0044-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-014-0044-3","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-014-0044-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,7]],"date-time":"2024-06-07T11:15:38Z","timestamp":1717758938000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-014-0044-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,2,25]]},"references-count":44,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2015,12]]}},"alternative-id":["44"],"URL":"https:\/\/doi.org\/10.1186\/s13636-014-0044-3","relation":{},"ISSN":["1687-4722"],"issn-type":[{"value":"1687-4722","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,2,25]]},"assertion":[{"value":"28 February 2014","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 December 2014","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 February 2015","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"8"}}