{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,27]],"date-time":"2025-07-27T07:46:58Z","timestamp":1753602418318},"reference-count":45,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,4,14]],"date-time":"2024-04-14T00:00:00Z","timestamp":1713052800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,4,14]],"date-time":"2024-04-14T00:00:00Z","timestamp":1713052800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,4,14]]},"DOI":"10.1109\/icassp48485.2024.10445914","type":"proceedings-article","created":{"date-parts":[[2024,3,18]],"date-time":"2024-03-18T18:56:31Z","timestamp":1710788191000},"page":"12561-12565","source":"Crossref","is-referenced-by-count":1,"title":["Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator"],"prefix":"10.1109","author":[{"given":"Takuhiro","family":"Kaneko","sequence":"first","affiliation":[{"name":"NTT Corporation,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hirokazu","family":"Kameoka","sequence":"additional","affiliation":[{"name":"NTT Corporation,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kou","family":"Tanaka","sequence":"additional","affiliation":[{"name":"NTT Corporation,Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"journal-title":"WaveNet: A generative model for raw audio","year":"2016","author":"van den Oord","key":"ref1"},{"article-title":"Efficient neural audio synthesis","volume-title":"ICML","author":"Kalchbrenner","key":"ref2"},{"article-title":"Parallel WaveNet: Fast high-fidelity speech synthesis","volume-title":"ICML","author":"van den Oord","key":"ref3"},{"article-title":"ClariNet: Parallel wave generation in end-to-end text-to-speech","volume-title":"ICLR","author":"Ping","key":"ref4"},{"key":"ref5","article-title":"Glow: Generative flow with invertible 1\u00d71 convolutions","author":"Kingma","year":"2018","journal-title":"NeurIPS"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683143"},{"key":"ref7","article-title":"Generative modeling by estimating gradients of the data distribution","author":"Song","year":"2019","journal-title":"NeurIPS"},{"key":"ref8","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020","journal-title":"NeurIPS"},{"article-title":"WaveGrad: Estimating gradients for waveform generation","volume-title":"ICLR","author":"Chen","key":"ref9"},{"article-title":"DiffWave: A versatile diffusion model for audio synthesis","volume-title":"ICLR","author":"Kong","key":"ref10"},{"article-title":"Generative adversarial nets","volume-title":"NIPS","author":"Goodfellow","key":"ref11"},{"key":"ref12","article-title":"MelGAN: Generative adversarial networks for conditional waveform synthesis","author":"Kumar","year":"2019","journal-title":"NeurIPS"},{"article-title":"Parallel Wave-GAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram","volume-title":"ICASSP","author":"Yamamoto","key":"ref13"},{"key":"ref14","article-title":"HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis","author":"Kong","year":"2020","journal-title":"NeurIPS"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1238"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/SLT48900.2021.9383551"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413605"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2021-845"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU51503.2021.9688194"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746713"},{"article-title":"Chunked autoregressive GAN for conditional waveform synthesis","volume-title":"ICLR","author":"Morrison","key":"ref21"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-11152"},{"key":"ref23","doi-asserted-by":"crossref","DOI":"10.1109\/SLT54892.2023.10022496","article-title":"WaveFit: An iterative and non-autoregressive neural vocoder based on fixed-point iteration","volume-title":"SLT","author":"Koizumi"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096288"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096374"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-1726"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-677"},{"article-title":"mixup: Beyond empirical risk minimization","volume-title":"ICLR","author":"Zhang","key":"ref28"},{"article-title":"Learning from between-class examples for deep sound recognition","volume-title":"ICLR","author":"Tokozume","key":"ref29"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00612"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2680"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-103"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/SLT48900.2021.9383605"},{"journal-title":"Conditional generative adversarial nets","year":"2014","author":"Mirza","key":"ref34"},{"article-title":"The LJ speech dataset","year":"2017","author":"Ito","key":"ref35"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.304"},{"article-title":"Autoencoding beyond pixels using a learned similarity metric","volume-title":"ICML","author":"Larsen","key":"ref37"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-970"},{"key":"ref39","article-title":"Differentiable augmentation for data-efficient GAN training","author":"Zhao","year":"2020","journal-title":"NeurIPS"},{"key":"ref40","article-title":"Training generative adversarial networks with limited data","author":"Karras","year":"2020","journal-title":"NeurIPS"},{"article-title":"Adam: A method for stochastic optimization","volume-title":"ICLR","author":"Kingma","key":"ref41"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-439"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-970"},{"key":"ref44","article-title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","author":"Baevski","year":"2020","journal-title":"NeurIPS"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2441"}],"event":{"name":"ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2024,4,14]]},"location":"Seoul, Korea, Republic of","end":{"date-parts":[[2024,4,19]]}},"container-title":["ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10445798\/10445803\/10445914.pdf?arnumber=10445914","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,2]],"date-time":"2024-08-02T04:37:38Z","timestamp":1722573458000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10445914\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,4,14]]},"references-count":45,"URL":"https:\/\/doi.org\/10.1109\/icassp48485.2024.10445914","relation":{},"subject":[],"published":{"date-parts":[[2024,4,14]]}}}