{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T18:12:15Z","timestamp":1776881535505,"version":"3.51.2"},"reference-count":38,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,1,19]]},"DOI":"10.1109\/slt48900.2021.9383525","type":"proceedings-article","created":{"date-parts":[[2021,3,25]],"date-time":"2021-03-25T20:46:54Z","timestamp":1616705214000},"page":"316-322","source":"Crossref","is-referenced-by-count":7,"title":["Synth2Aug: Cross-Domain Speaker Recognition with TTS Synthesized Speech"],"prefix":"10.1109","author":[{"given":"Yiling","family":"Huang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yutian","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jason","family":"Pelecanos","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Quan","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref38","article-title":"TIMIT acoustic-phonetic continuous speech corpus","author":"garofolo","year":"1992","journal-title":"Linguistic Data Consortium"},{"key":"ref33","first-page":"2410","article-title":"Efficient neural audio synthesis","author":"kalchbrenner","year":"2018","journal-title":"International Conference on Machine Learning"},{"key":"ref32","article-title":"Long short-term memory recurrent neural network architectures for large scale acoustic modeling","author":"sak","year":"2014","journal-title":"InterSpeech"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178863"},{"key":"ref30","article-title":"Application of SpecAugment to deep speaker embedding learning","author":"wang","year":"2020","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)"},{"key":"ref37","article-title":"Robust signal-to-noise ratio estimation based on waveform amplitude distribution analysis","author":"kim","year":"2008","journal-title":"Ninth Annual Conference of the International Speech Communication Association"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2441"},{"key":"ref35","article-title":"Auto-encoding variational bayes","author":"kingma","year":"2014","journal-title":"International Conference on Learning Representations"},{"key":"ref34","article-title":"Hierarchical generative modeling for controllable speech synthesis","author":"hsu","year":"2018","journal-title":"International Conference on Learning Representations"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU46091.2019.9003938"},{"key":"ref11","article-title":"Data augmentation versus noise compensation for x-vector speaker recognition systems in noisy environments","author":"mohammadamini","year":"2020"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1987.1169544"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953152"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-1510"},{"key":"ref15","doi-asserted-by":"crossref","DOI":"10.1109\/CISP-BMEI51763.2020.9263564","article-title":"You do not need more data: Improving end-to-end speech recognition by text-to-speech data augmentation","author":"laptev","year":"2020"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/SSD.2019.8893184"},{"key":"ref17","first-page":"7029","article-title":"Improving speech recognition using consistent predictions on synthesized speech","author":"wang","year":"2020","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)"},{"key":"ref18","article-title":"WaveNet: A generative model for raw audio","author":"van den oord","year":"2016"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461368"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2680"},{"key":"ref4","article-title":"Locally-connected and convolutional neural networks for small foot-print speaker recognition","author":"chen","year":"2015","journal-title":"Sixteenth Annual Conference of the International Speech Communication Association"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2020.101114"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854363"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2016.7846261"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ISRITI48646.2019.9034603"},{"key":"ref5","article-title":"Deep speaker: an end-to-end neural speaker embedding system","volume":"650","author":"li","year":"2017"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462665"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472652"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461375"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1508"},{"key":"ref1","doi-asserted-by":"crossref","first-page":"999","DOI":"10.21437\/Interspeech.2017-620","article-title":"Deep neural network embeddings for text-independent speaker verification","author":"snyder","year":"2017","journal-title":"InterSpeech"},{"key":"ref20","first-page":"214","article-title":"Deep Voice 3: 2000-speaker neural text-to-speech","author":"ping","year":"2018","journal-title":"Proc ICLR"},{"key":"ref22","article-title":"Sample efficient adaptive text-to-speech","author":"chen","year":"2019","journal-title":"International Conference on Learning Representations"},{"key":"ref21","first-page":"4480","article-title":"Transfer learning from speaker verification to multispeaker text-to-speech synthesis","author":"jia","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-01931-4_18"},{"key":"ref23","article-title":"&#x2018;STC Spoofing&#x2019; database for text-dependent speaker recognition evaluation","author":"simonchik","year":"2014","journal-title":"Spoken Language Technologies for UnderResourced Languages"},{"key":"ref26","first-page":"1508","article-title":"ASVspoof 2017: Automatic speaker verification spoofing and countermeasures challenge evaluation plan","volume":"10","author":"kinnunen","year":"2017","journal-title":"Training"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-11581-8_59"}],"event":{"name":"2021 IEEE Spoken Language Technology Workshop (SLT)","location":"Shenzhen, China","start":{"date-parts":[[2021,1,19]]},"end":{"date-parts":[[2021,1,22]]}},"container-title":["2021 IEEE Spoken Language Technology Workshop (SLT)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9383468\/9383452\/09383525.pdf?arnumber=9383525","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,22]],"date-time":"2022-12-22T13:16:14Z","timestamp":1671714974000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9383525\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,1,19]]},"references-count":38,"URL":"https:\/\/doi.org\/10.1109\/slt48900.2021.9383525","relation":{},"subject":[],"published":{"date-parts":[[2021,1,19]]}}}