{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T16:46:31Z","timestamp":1765039591212,"version":"3.28.0"},"reference-count":23,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7,18]]},"DOI":"10.1109\/ijcnn52387.2021.9533583","type":"proceedings-article","created":{"date-parts":[[2021,9,20]],"date-time":"2021-09-20T21:27:41Z","timestamp":1632173261000},"page":"1-7","source":"Crossref","is-referenced-by-count":6,"title":["Hierarchical disentangled representation learning for singing voice conversion"],"prefix":"10.1109","author":[{"given":"Naoya","family":"Takahashi","sequence":"first","affiliation":[{"name":"R&#x0026;D Center, Sony,Tokyo,Japan"}]},{"given":"Mayank Kumar","family":"Singh","sequence":"additional","affiliation":[{"name":"R&#x0026;D Center, Sony,Tokyo,Japan"}]},{"given":"Yuki","family":"Mitsufuji","sequence":"additional","affiliation":[{"name":"R&#x0026;D Center, Sony,Tokyo,Japan"}]}],"member":"263","reference":[{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1761"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/MIPR.2019.00059"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054199"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1862"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054582"},{"key":"ref15","article-title":"Generating Diverse High-Fidelity Images with VQ-VAE-2","author":"razavi","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref16","article-title":"Hierarchical quantized autoencoders","author":"williams","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053520"},{"key":"ref18","article-title":"Hierarchical generative modeling for controllable speech synthesis","author":"hsu","year":"0","journal-title":"Proc ICLR"},{"key":"ref19","article-title":"Progressive growing of gans for improved quality, stability, and variation","author":"karras","year":"0","journal-title":"Proc ICLR"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-63"},{"key":"ref3","article-title":"Statis-tical singing voice conversion based on direct waveform modification with global variance","author":"kobayashi","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref6","article-title":"Non-parallel voice conversion using variational autoencoders conditioned by phonetic pos-teriorgrams and d-vectors","author":"saito","year":"0","journal-title":"Proc ICASSP"},{"key":"ref5","article-title":"Neural discrete representation learning","author":"van den oord","year":"0","journal-title":"Proc NIPS"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.23919\/EUSIPCO.2018.8553236"},{"key":"ref7","article-title":"ACVAE-VC: Nonparallel voice conversion with auxiliary classifier variational autoen-coder","author":"kameoka","year":"2018","journal-title":"Trans ASLP"},{"key":"ref2","article-title":"Applying voice conversion to concate-native singing-voice synthesis","author":"villavicencio","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref1","article-title":"Statis-tical singing voice conversion with direct waveform modification based on the spectrum differential","author":"kobayashi","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2236"},{"key":"ref20","article-title":"Wavenet: A generative model for raw audio","author":"van den oord","year":"2016","journal-title":"ArXiv Preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1587\/transinf.2015EDP7457"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2013.6694316"},{"key":"ref23","first-page":"2579","article-title":"Visualizing data using t-SNE","volume":"9","author":"van der maaten","year":"2008","journal-title":"Journal of Machine Learning Research"}],"event":{"name":"2021 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2021,7,18]]},"location":"Shenzhen, China","end":{"date-parts":[[2021,7,22]]}},"container-title":["2021 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9533266\/9533267\/09533583.pdf?arnumber=9533583","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,8,2]],"date-time":"2022-08-02T23:32:49Z","timestamp":1659483169000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9533583\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7,18]]},"references-count":23,"URL":"https:\/\/doi.org\/10.1109\/ijcnn52387.2021.9533583","relation":{},"subject":[],"published":{"date-parts":[[2021,7,18]]}}}