{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,10]],"date-time":"2026-07-10T00:12:28Z","timestamp":1783642348192,"version":"3.55.0"},"reference-count":53,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/OAPA.html"}],"funder":[{"name":"ImPACT Program of Council for Science, Technology, and Innovation (Cabinet Office, Government of Japan)"},{"DOI":"10.13039\/501100004298","name":"SECOM Science and Technology Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004298","id-type":"DOI","asserted-by":"publisher"}]},{"name":"JSPS KAKENHI","award":["16H06681"],"award-info":[{"award-number":["16H06681"]}]},{"name":"JSPS KAKENHI","award":["JP17H06101"],"award-info":[{"award-number":["JP17H06101"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2018,1]]},"DOI":"10.1109\/taslp.2017.2761547","type":"journal-article","created":{"date-parts":[[2017,10,9]],"date-time":"2017-10-09T18:11:18Z","timestamp":1507572678000},"page":"84-96","source":"Crossref","is-referenced-by-count":149,"title":["Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks"],"prefix":"10.1109","volume":"26","author":[{"given":"Yuki","family":"Saito","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shinnosuke","family":"Takamichi","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hiroshi","family":"Saruwatari","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","first-page":"1959","article-title":"Statistical parametric speech synthesis using weighted multi-distribution deep belief network","author":"kang","year":"2014","journal-title":"Proc INTERSPEECH"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1587\/transinf.E97.D.1429"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2939672.2939778"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1126\/science.1127647"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178816"},{"key":"ref30","first-page":"1060","article-title":"Generative adversarial text-to-image synthesis","author":"reed","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref37","first-page":"315","article-title":"Deep sparse rectifier neural networks","author":"glorot","year":"2011","journal-title":"Proc 14th Int Conf Artif Intell Statist"},{"key":"ref36","doi-asserted-by":"crossref","first-page":"1518","DOI":"10.1126\/science.1205438","article-title":"Detecting novel associations in large data sets","volume":"334","author":"reshef","year":"2011","journal-title":"Science"},{"key":"ref35","article-title":"NIPS 2016 tutorial: Generative adversarial networks","author":"goodfellow","year":"2017"},{"key":"ref34","first-page":"1718","article-title":"Generative moment matching networks","author":"li","year":"0","journal-title":"Proceedings of the 32nd Intl Conf on Machine Learning"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-71050-9"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1561\/0100000004"},{"key":"ref29","first-page":"2464","article-title":"Multi-task learning deep neural networks for speech feature denoising","author":"huang","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1988.196677"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2009.04.004"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2076805"},{"key":"ref22","first-page":"271","article-title":"f-GAN: Training generative neural samplers using variational divergence minimization","author":"nowozin","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1515\/9783110197105.515"},{"key":"ref24","first-page":"2794","article-title":"Least squares generative adversarial networks","author":"mao","year":"2017","journal-title":"IEEE Int Conf Comput Vision (ICCV)"},{"key":"ref23","first-page":"214","article-title":"Wasserstein GAN","author":"arjovsky","year":"0","journal-title":"Proc 34th Int Conf Mach Learn"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1162\/neco.2007.19.3.780"},{"key":"ref25","first-page":"556","article-title":"Algorithms for non-negative matrix factorization","author":"lee","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref50","article-title":"The NAIST text-to-speech system for the Blizzard Challenge 2015","author":"takamichi","year":"2015","journal-title":"Proc Blizzard Challenge Workshop"},{"key":"ref51","doi-asserted-by":"crossref","first-page":"94","DOI":"10.21437\/Interspeech.2012-34","article-title":"Implementation of computationally efficient real-time voice conversion","author":"toda","year":"2012","journal-title":"Proc INTERSPEECH"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-1288"},{"key":"ref52","first-page":"2087","article-title":"A comparison of features for synthetic speech detection","author":"sahidullah","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-584"},{"key":"ref11","doi-asserted-by":"crossref","first-page":"1155","DOI":"10.21437\/Interspeech.2012-362","article-title":"Histogram-based spectral equalization for HMM-based speech synthesis using mel-LSP","author":"ohtani","year":"2012","journal-title":"Proc INTERSPEECH"},{"key":"ref40","first-page":"5907","article-title":"StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks","author":"zhang","year":"2017","journal-title":"IEEE Int Conf Comput Vision (ICCV)"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2522655"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178894"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472749"},{"key":"ref15","first-page":"2917","article-title":"Analysis of spectral enhancement using global variance in HMM-based speech synthesis","author":"nose","year":"2014","journal-title":"Proc INTERSPEECH"},{"key":"ref16","first-page":"7962","article-title":"Statistical parametric speech synthesis using deep neural networks","author":"zen","year":"2013","journal-title":"Proc Int Conf Acoust Speech Signal Process"},{"key":"ref17","first-page":"2672","article-title":"Generative adversarial nets","author":"goodfellow","year":"0","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2526653"},{"key":"ref19","first-page":"2097","article-title":"Robust deep feature for spoofing detection the SJTU system for ASVspoof 2015 Challenge","author":"chen","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2014.2359987"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/89.661472"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.907344"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2013.2251852"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2551865"},{"key":"ref7","first-page":"89","article-title":"Minimum generation error training for HMM-based speech synthesis","author":"wu","year":"2006","journal-title":"Proc Int Conf Acoust Speech Signal Process"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00085-5"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-1066"},{"key":"ref46","first-page":"1089","article-title":"A large-scale Japanese speech database","author":"sagisaka","year":"1990","journal-title":"Proc Int Conf Spoken Lang Process"},{"key":"ref45","article-title":"WaveNet: A generative model for raw audio","author":"oord","year":"2016"},{"key":"ref48","first-page":"2266","article-title":"Maximum likelihood voice conversion based on GMM with STRAIGHT mixed excitation","author":"ohtani","year":"2006","journal-title":"Proc INTERSPEECH"},{"key":"ref47","first-page":"1","article-title":"Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system STRAIGHT","author":"kawahara","year":"2001","journal-title":"Proc 7th Int Workshop Models Anal Vocal Emissions Biomed Appl"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953090"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2015.10.007"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472757"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-522"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/8124117\/08063435.pdf?arnumber=8063435","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,8,4]],"date-time":"2022-08-04T03:57:29Z","timestamp":1659585449000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/8063435\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,1]]},"references-count":53,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2017.2761547","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"value":"2329-9290","type":"print"},{"value":"2329-9304","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,1]]}}}