{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T18:23:53Z","timestamp":1772907833838,"version":"3.50.1"},"reference-count":66,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2016,4,1]],"date-time":"2016-04-01T00:00:00Z","timestamp":1459468800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"name":"JSPS KAKENHI","award":["26280060"],"award-info":[{"award-number":["26280060"]}]},{"name":"JSPS Fellows","award":["26.10354"],"award-info":[{"award-number":["26.10354"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2016,4]]},"DOI":"10.1109\/taslp.2016.2522655","type":"journal-article","created":{"date-parts":[[2016,1,27]],"date-time":"2016-01-27T19:12:30Z","timestamp":1453921950000},"page":"755-767","source":"Crossref","is-referenced-by-count":55,"title":["Postfilters to Modify the Modulation Spectrum for Statistical Parametric Speech Synthesis"],"prefix":"10.1109","volume":"24","author":[{"given":"Shinnosuke","family":"Takamichi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tomoki","family":"Toda","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alan W.","family":"Black","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Graham","family":"Neubig","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sakriani","family":"Sakti","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Satoshi","family":"Nakamura","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639067"},{"key":"ref38","first-page":"1992","article-title":"Reduction of reverberation effects in the MFCC modulation spectrum for improved classification of acoustic signals","author":"gergen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2013.2283459"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2013.2288599"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1093\/ietisy\/e90-d.5.816"},{"key":"ref30","first-page":"397","article-title":"Optimizations and fitting procedures for the Liljencrants-Fant model for statistical parametric speech synthesis","author":"muthukumar","year":"0","journal-title":"Proc Int Conf Acoust Speech Signal Process (ICASSP)"},{"key":"ref37","first-page":"4453","article-title":"Phoneme recognition using spectral envelop and modulation frequency features","author":"thomas","year":"0","journal-title":"Proc Int Conf Acoust Speech Signal Process (ICASSP)"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1121\/1.409836"},{"key":"ref35","article-title":"Implementation of computationally efficient real-time voice conversion","author":"toda","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639196"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1093\/ietisy\/e90-d.5.825"},{"key":"ref62","first-page":"1","article-title":"Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system STRAIGHT","author":"kawahara","year":"0","journal-title":"Proc 2nd Int Workshop Models Anal Vocal Emissions for Biomed Applicat (MAVEBA)"},{"key":"ref61","first-page":"1089","article-title":"A large-scale Japanese speech database","author":"sagisaka","year":"0","journal-title":"Proc Int Conf Spoken Lang (ICSLP)"},{"key":"ref63","first-page":"2266","article-title":"Maximum likelihood voice conversion based on GMM with STRAIGHT mixed excitation","author":"ohtani","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref28","first-page":"287","article-title":"An attempt to develop a singing synthesizer by collaborative creation","author":"morise","year":"0","journal-title":"Proc Stockholm Music Acoustics Conf (SMAC 2003)"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2003.1318474"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00085-5"},{"key":"ref65","year":"0","journal-title":"Speech Signal Processing Toolkit (SPTK)"},{"key":"ref66","year":"0","journal-title":"Amazon Mechanical Turk"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178768"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854451"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1250\/ast.33.1"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1996.541110"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1093\/ietisy\/e90-d.2.533"},{"key":"ref21","first-page":"577","article-title":"An investigation of implementation performance analysis of DNN based speech synthesis system","author":"oura","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref24","article-title":"Exploring rich expressive information from audiobook data using cluster adaptive training","author":"chen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1093\/ietisy\/e90-d.9.1406"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4960401"},{"key":"ref25","article-title":"The Blizzard challenge 2011","author":"king","year":"0","journal-title":"Proc Blizzard Challenge Workshop"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865703305013"},{"key":"ref51","article-title":"A state duration generation algorithm considering global variance for HMM-based speech synthesis","author":"pan","year":"0","journal-title":"Proc Annu Summit Conf Asia-Pac Signal Inf Process Assoc (APSIPA ASC)"},{"key":"ref59","first-page":"2917","article-title":"Analysis of spectral enhancement using global variance in HMM-based speech synthesis","author":"nose","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2165280"},{"key":"ref57","first-page":"1954","article-title":"DNN-based stochastic postfilter for HMM-based speech synthesis","author":"chen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178813"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853601"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511816338"},{"key":"ref53","first-page":"3067","article-title":"A hybrid approach to electrolaryngeal speech enhansement based on spectral subtraction and statistical voice conversion","author":"tanaka","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2076805"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/89.661472"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2009.04.004"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1121\/1.408467"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1995.479684"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2013.2251852"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.907344"},{"key":"ref15","article-title":"CLUSTERGEN: A statistical parametric synthesizer using trajectory modeling","author":"black","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2013.2283461"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2165944"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854321"},{"key":"ref19","first-page":"369","article-title":"Voice conversion in high-order eigen space using deep belief nets","author":"nakashika","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref4","first-page":"2769","article-title":"Speaker-adaptive speech synthesis based on eigenvoice conversion and language-dependent prosodic conversion in speech-to-speech translation","author":"hattori","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref3","first-page":"1","article-title":"Singing voice conversion method based on many-to-many eigenvoice conversion and training data generation using a singing-to-singing synthesis system","author":"doi","year":"0","journal-title":"Proc Asia Pac Signal Inf Process Assoc Annu Summit Conf (APSIPA ASC)"},{"key":"ref6","first-page":"95","article-title":"Text to speech in new languages without a standardized orthography","author":"sitaram","year":"0","journal-title":"Proceedings of 8th Speech Synthesis Workshop"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854069"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2014.2359987"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6855139"},{"key":"ref49","first-page":"140","article-title":"MDL-based context-dependent subword modeling for speech recognition","volume":"28","author":"shinoda","year":"2007","journal-title":"J Acoust Soc Jpn (E)"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1988.196677"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2014.7041540"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/GlobalSIP.2014.7032177"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2000.861820"},{"key":"ref47","first-page":"2347","article-title":"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis","author":"yoshimura","year":"0","journal-title":"Proc EUROSPEECH"},{"key":"ref42","first-page":"1076","article-title":"Low-delay voice conversion based on maximum likelihood estimation of spectral parameter trajectory","author":"muramatsu","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICSLP.1996.607318"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853604"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178816"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/7422174\/7393764.pdf?arnumber=7393764","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:02:26Z","timestamp":1642003346000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7393764\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,4]]},"references-count":66,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2016.2522655","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"value":"2329-9290","type":"print"},{"value":"2329-9304","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016,4]]}}}