{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,16]],"date-time":"2026-05-16T02:29:08Z","timestamp":1778898548718,"version":"3.51.4"},"reference-count":58,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,9]]},"DOI":"10.23919\/eusipco.2018.8553236","type":"proceedings-article","created":{"date-parts":[[2018,12,4]],"date-time":"2018-12-04T00:36:41Z","timestamp":1543883801000},"page":"2100-2104","source":"Crossref","is-referenced-by-count":259,"title":["CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks"],"prefix":"10.23919","author":[{"given":"Takuhiro","family":"Kaneko","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hirokazu","family":"Kameoka","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2011-268","article-title":"One-to-many voice conversion based on tensor representation of speaker space","author":"saito","year":"2011","journal-title":"Proc INTERSPEECH"},{"key":"ref38","first-page":"2446","article-title":"Eigenvoice conversion based on Gaussian mixture model","author":"toda","year":"2006","journal-title":"Proc INTERSPEECH"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853604"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-1066"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953088"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"3389","DOI":"10.21437\/Interspeech.2017-962","article-title":"Generative adversarial network-based postfilter for STFT spectrograms","author":"kaneko","year":"2017","journal-title":"Proc INTERSPEECH"},{"key":"ref37","first-page":"2254","article-title":"MAP-based adaptation for speech conversion using adaptation data selection and non-parallel training","author":"lee","year":"2006","journal-title":"Proc ICSLP"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.857790"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-116"},{"key":"ref34","first-page":"4605","article-title":"Text-independent voice conversion based on state mapped codebook","author":"zhang","year":"2008","journal-title":"Proc ICASSP"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.20"},{"key":"ref27","first-page":"2672","article-title":"Generative adversarial nets","author":"goodfellow","year":"2014","journal-title":"Proceedings of NPIS"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953090"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.674423"},{"key":"ref1","author":"kaneko","year":"2017","journal-title":"Parallel-data-free voice conversion using cycle-consistent adversarial networks"},{"key":"ref20","doi-asserted-by":"crossref","first-page":"1506","DOI":"10.1109\/TASLP.2014.2333242","article-title":"Exemplar-based sparse representation with residual compensation for voice conversion","volume":"22","author":"wu","year":"2014","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.244"},{"key":"ref21","doi-asserted-by":"crossref","first-page":"1453","DOI":"10.21437\/Interspeech.2008-419","article-title":"On the impact of alignment on voice conversion performance","author":"helander","year":"2008","journal-title":"Proc INTERSPEECH"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.310"},{"key":"ref23","first-page":"1857","article-title":"Learning to discover cross-domain relations with generative adversarial networks","author":"kim","year":"2017","journal-title":"Proc ICML"},{"key":"ref26","article-title":"Unsupervised cross-domain image generation","author":"taigman","year":"2017","journal-title":"Proc ICLR"},{"key":"ref25","first-page":"933","article-title":"Language modeling with gated convolutional networks","author":"dauphin","year":"2017","journal-title":"Proc ICML"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref51","author":"ulyanov","year":"2016","journal-title":"Instance normalization The missing ingredient for fast stylization"},{"key":"ref58","first-page":"693","article-title":"F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential","author":"kobayashi","year":"2016","journal-title":"Proc SLT"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-1331"},{"key":"ref56","article-title":"Empirical evaluation of rectified activations in convolutional network","author":"xu","year":"2015","journal-title":"Proc ICML Workshop"},{"key":"ref55","article-title":"Rectifier nonlinearities improve neural network acoustic models","author":"maas","year":"2013","journal-title":"Proc ICML Workshop"},{"key":"ref54","first-page":"807","article-title":"Rectified linear units improve restricted Boltzmann machines","author":"nair","year":"2010","journal-title":"Proc ICML"},{"key":"ref53","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2015","journal-title":"Proc ICLR"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.304"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.907344"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2041699"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2593263"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2353991"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1587\/transinf.E97.D.1403"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2047683"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2014.7078543"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2017.8282025"},{"key":"ref17","first-page":"2278","article-title":"High-order sequence modeling using speaker-dependent recurrent temporal restricted Boltzmann machines for voice conversion","author":"nakashika","year":"2014","journal-title":"Proc INTERSPEECH"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178896"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1587\/transfun.E96.A.1946"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2011.07.007"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2007.05.001"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2008.09.006"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2012.2205241"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-970"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2041113"},{"key":"ref49","first-page":"694","article-title":"Perceptual losses for real-time style transfer and super-resolution","author":"johnson","year":"2016","journal-title":"Proc ECCV"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/89.661472"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/FSKD.2007.347"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1587\/transinf.2015EDP7457"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.207"},{"key":"ref47","first-page":"2266","article-title":"Maximum likelihood voice conversion based on GMM with STRAIGHT mixed excitation","author":"ohtani","year":"2006","journal-title":"Proc INTERSPEECH"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953215"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2016.7820786"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref43","doi-asserted-by":"crossref","first-page":"3364","DOI":"10.21437\/Interspeech.2017-63","article-title":"Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks","author":"hsu","year":"2017","journal-title":"Proc INTERSPEECH"}],"event":{"name":"2018 26th European Signal Processing Conference (EUSIPCO)","location":"Rome","start":{"date-parts":[[2018,9,3]]},"end":{"date-parts":[[2018,9,7]]}},"container-title":["2018 26th European Signal Processing Conference (EUSIPCO)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8537458\/8552938\/08553236.pdf?arnumber=8553236","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,27]],"date-time":"2022-01-27T00:39:29Z","timestamp":1643243969000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8553236\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,9]]},"references-count":58,"URL":"https:\/\/doi.org\/10.23919\/eusipco.2018.8553236","relation":{},"subject":[],"published":{"date-parts":[[2018,9]]}}}