{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,23]],"date-time":"2024-10-23T00:34:04Z","timestamp":1729643644814,"version":"3.28.0"},"reference-count":39,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,11]]},"DOI":"10.23919\/apsipa.2018.8659543","type":"proceedings-article","created":{"date-parts":[[2019,3,18]],"date-time":"2019-03-18T23:11:49Z","timestamp":1552950709000},"page":"823-828","source":"Crossref","is-referenced-by-count":12,"title":["Error Reduction Network for DBLSTM-based Voice Conversion"],"prefix":"10.23919","author":[{"given":"Mingyang","family":"Zhang","sequence":"first","affiliation":[]},{"given":"Berrak","family":"Sisman","sequence":"additional","affiliation":[]},{"given":"Sai Sirisha","family":"Rallabandi","sequence":"additional","affiliation":[]},{"given":"Haizhou","family":"Li","sequence":"additional","affiliation":[]},{"given":"Li","family":"Zhao","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/PACRIM.1993.407206"},{"key":"ref38","first-page":"547","article-title":"Introducing currennt: The munich open-source cuda recurrent neural network toolkit","volume":"16","author":"weninger","year":"2015","journal-title":"The Journal of Machine Learning Research"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2808196.2811641"},{"key":"ref32","doi-asserted-by":"crossref","first-page":"2362","DOI":"10.21437\/Interspeech.2010-646","article-title":"Context-sensitive multimodal emotion recognition from speech and facial expression using bidirectional lstm modeling","author":"w\u00f6llmer","year":"2010","journal-title":"Proc INTERSPEECH 2010"},{"key":"ref31","article-title":"Tts synthesis with bidirectional lstm based recurrent neural networks","author":"fan","year":"2014","journal-title":"Fifteenth Annual Conference of the International Speech Communication Association"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952599"},{"key":"ref37","article-title":"The Kaldi Speech Recognition Toolkit","author":"povey","year":"2011","journal-title":"IEEE ASRU"},{"key":"ref36","first-page":"223","article-title":"The cmu arctic speech databases","author":"kominek","year":"2004","journal-title":"Proc Fifth ISCA Speech Synthesis Workshop"},{"key":"ref35","doi-asserted-by":"crossref","first-page":"3379","DOI":"10.21437\/Interspeech.2017-694","article-title":"Denoising recurrent neural network for deep bidirectional lstm based voice conversion","author":"wu","year":"2017","journal-title":"Proc Interspeech 2017"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00085-5"},{"key":"ref10","first-page":"677","article-title":"Sparse representation of phonetic features for voice conversion with and without parallel data","author":"\u00e7i?man","year":"2017","journal-title":"Automatic Speech Recognition and Understanding (ASRU) 2017 IEEE Workshop on"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2017.8282288"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ISCSLP.2014.6936725"},{"key":"ref13","first-page":"2759","article-title":"System fusion for high-performance voice conversion","volume":"2015","author":"tian","year":"2015","journal-title":"Proceedings of the Conference of the International Speech Communication Association-Interspeech"},{"key":"ref14","first-page":"1","author":"tian","year":"2016","journal-title":"An Exemplar-based Approach to Frequency Warping for Voice Conversion"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2522655"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/EUSIPCO.2016.7760371"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2353991"},{"key":"ref18","first-page":"369","article-title":"Voice conversion in high-order eigen space using deep belief nets","author":"nakashika","year":"2013","journal-title":"InterSpeech"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2014.7078543"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707742"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.907344"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178896"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2011.07.007"},{"key":"ref6","doi-asserted-by":"crossref","first-page":"3384","DOI":"10.21437\/Interspeech.2017-841","article-title":"Speaker dependent approach for enhancing a glossectomy patient's speech via gmm-based voice conversion","author":"tanaka","year":"2017","journal-title":"Proc Interspeech 2017"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638983"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178894"},{"key":"ref8","doi-asserted-by":"crossref","first-page":"1506","DOI":"10.1109\/TASLP.2014.2333242","article-title":"Exemplar-based sparse representation with residual compensation for voice conversion","volume":"22","author":"wu","year":"2014","journal-title":"IEEE\/ACM Transactions on Audio Speech and Language Processing"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2165944"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2012.2205241"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1587\/transfun.E96.A.1946"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.674423"},{"key":"ref20","first-page":"1","article-title":"Voice conversion from non-parallel corpora using variational autoencoder","author":"hsu","year":"2016","journal-title":"Signal and Information Processing Association Annual Summit and Conference (APSIPA) 2016 Asia-Pacific"},{"key":"ref22","first-page":"2278","article-title":"High-order sequence modeling using speaker-dependent recurrent temporal restricted Boltzmann machines for voice conversion","author":"nakashika","year":"2014","journal-title":"Proceedings of the Conference of the International Speech Communication Association-Interspeech"},{"journal-title":"Voice conversion from unaligned corpora using variational autoencoding wasserstein generative adversarial networks","year":"2017","author":"hsu","key":"ref21"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/72.279181"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2379589"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2005.06.042"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"}],"event":{"name":"2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)","start":{"date-parts":[[2018,11,12]]},"location":"Honolulu, HI, USA","end":{"date-parts":[[2018,11,15]]}},"container-title":["2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8648538\/8659446\/08659543.pdf?arnumber=8659543","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,9,14]],"date-time":"2023-09-14T16:47:48Z","timestamp":1694710068000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8659543\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,11]]},"references-count":39,"URL":"https:\/\/doi.org\/10.23919\/apsipa.2018.8659543","relation":{},"subject":[],"published":{"date-parts":[[2018,11]]}}}