{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,29]],"date-time":"2024-10-29T19:29:55Z","timestamp":1730230195470,"version":"3.28.0"},"reference-count":24,"publisher":"IEEE","license":[{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019,5]]},"DOI":"10.1109\/icassp.2019.8682938","type":"proceedings-article","created":{"date-parts":[[2019,4,17]],"date-time":"2019-04-17T20:01:56Z","timestamp":1555531316000},"page":"6810-6814","source":"Crossref","is-referenced-by-count":6,"title":["A Compact Framework for Voice Conversion Using Wavenet Conditioned on Phonetic Posteriorgrams"],"prefix":"10.1109","author":[{"given":"Hui","family":"Lu","sequence":"first","affiliation":[]},{"given":"Zhiyong","family":"Wu","sequence":"additional","affiliation":[]},{"given":"Runnan","family":"Li","sequence":"additional","affiliation":[]},{"given":"Shiyin","family":"Kang","sequence":"additional","affiliation":[]},{"given":"Jia","family":"Jia","sequence":"additional","affiliation":[]},{"given":"Helen","family":"Meng","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"doi-asserted-by":"publisher","key":"ref10","DOI":"10.1109\/ICME.2016.7552917"},{"key":"ref11","first-page":"125","article-title":"WaveNet: A generative model for raw audio","author":"van den oord","year":"2016","journal-title":"[in] Proc SSW"},{"key":"ref12","doi-asserted-by":"crossref","first-page":"1138","DOI":"10.21437\/Interspeech.2017-986","article-title":"Statistical voice conversion with WaveNet-based waveform generation","volume":"2017","author":"kobayashi","year":"2017","journal-title":"[in] Proc Interspeech"},{"doi-asserted-by":"publisher","key":"ref13","DOI":"10.21437\/Interspeech.2018-1528"},{"doi-asserted-by":"publisher","key":"ref14","DOI":"10.21437\/Interspeech.2018-1190"},{"key":"ref15","doi-asserted-by":"crossref","DOI":"10.21437\/Odyssey.2018-28","article-title":"The voice conversion challenge 2018: Promoting development of parallel and nonparallel methods","author":"lorenzo-trueba","year":"2018"},{"key":"ref16","first-page":"5998","article-title":"Attention is all you need","author":"vaswani","year":"2017","journal-title":"[in] Proc Advances in Neural Information Processing Systems"},{"doi-asserted-by":"publisher","key":"ref17","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref18","doi-asserted-by":"crossref","first-page":"1039","DOI":"10.1016\/j.specom.2009.04.004","article-title":"Statistical parametric speech synthesis","volume":"51","author":"zen","year":"2009","journal-title":"Speech Communication"},{"key":"ref19","article-title":"Deep voice: Real-time neural text-to-speech","author":"arik","year":"2017","journal-title":"[in] Proc ICML"},{"doi-asserted-by":"publisher","key":"ref4","DOI":"10.1109\/ICASSP.2015.7178896"},{"key":"ref3","doi-asserted-by":"crossref","first-page":"1506","DOI":"10.1109\/TASLP.2014.2333242","article-title":"Exemplarbased sparse representation with residual compensation for voice conversion","volume":"22","author":"wu","year":"2014","journal-title":"IEEE\/ACM Transactions on Audio Speech and Language Processing"},{"doi-asserted-by":"publisher","key":"ref6","DOI":"10.1250\/ast.27.349"},{"doi-asserted-by":"publisher","key":"ref5","DOI":"10.1587\/transinf.2015EDP7457"},{"doi-asserted-by":"publisher","key":"ref8","DOI":"10.1109\/ICASSP.2018.8462342"},{"doi-asserted-by":"publisher","key":"ref7","DOI":"10.1109\/TASL.2009.2038669"},{"doi-asserted-by":"publisher","key":"ref2","DOI":"10.1109\/89.661472"},{"doi-asserted-by":"publisher","key":"ref1","DOI":"10.1016\/j.specom.2017.01.008"},{"doi-asserted-by":"publisher","key":"ref9","DOI":"10.1109\/APSIPA.2016.7820786"},{"year":"2016","author":"ba","article-title":"Layer normalization","key":"ref20"},{"key":"ref22","article-title":"The kaldi speech recognition toolkit","author":"povey","year":"2011","journal-title":"[in] IEEE 2011 workshop on automatic speech recognition and understanding IEEE Signal Processing Society number EPFLCONF-192584"},{"key":"ref21","article-title":"The cmu arctic speech databases","author":"kominek","year":"2004","journal-title":"[in] Fifth ISCA workshop on speech synthesis"},{"doi-asserted-by":"publisher","key":"ref24","DOI":"10.21437\/Interspeech.2016-1066"},{"key":"ref23","article-title":"Timit acoustic phonetic continuous speech corpus","author":"garofolo","year":"1993","journal-title":"Linguistic Data Consortium"}],"event":{"name":"ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2019,5,12]]},"location":"Brighton, United Kingdom","end":{"date-parts":[[2019,5,17]]}},"container-title":["ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8671773\/8682151\/08682938.pdf?arnumber=8682938","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,15]],"date-time":"2022-07-15T03:07:31Z","timestamp":1657854451000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8682938\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,5]]},"references-count":24,"URL":"https:\/\/doi.org\/10.1109\/icassp.2019.8682938","relation":{},"subject":[],"published":{"date-parts":[[2019,5]]}}}