{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,27]],"date-time":"2025-07-27T07:17:59Z","timestamp":1753600679902},"reference-count":30,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,1,9]],"date-time":"2023-01-09T00:00:00Z","timestamp":1673222400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,1,9]],"date-time":"2023-01-09T00:00:00Z","timestamp":1673222400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,1,9]]},"DOI":"10.1109\/slt54892.2023.10023322","type":"proceedings-article","created":{"date-parts":[[2023,1,27]],"date-time":"2023-01-27T13:54:03Z","timestamp":1674827643000},"page":"970-976","source":"Crossref","is-referenced-by-count":3,"title":["NIX-TTS: Lightweight and End-to-End Text-to-Speech Via Module-Wise Distillation"],"prefix":"10.1109","author":[{"given":"Rendi","family":"Chevi","sequence":"first","affiliation":[{"name":"Kata.ai Research Team,ID"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Radityo Eko","family":"Prasojo","sequence":"additional","affiliation":[{"name":"Kata.ai Research Team,ID"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alham Fikri","family":"Aji","sequence":"additional","affiliation":[{"name":"Amazon,UK"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Andros","family":"Tjandra","sequence":"additional","affiliation":[{"name":"Meta AI,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sakriani","family":"Sakti","sequence":"additional","affiliation":[{"name":"Japan Advanced Institute of Science and Technology,JP"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","first-page":"3918","article-title":"Parallel wavenet: Fast high-fidelity speech synthesis","author":"oord","year":"2018","journal-title":"Proc International Conference on Machine Learning (ICML)"},{"key":"ref12","article-title":"Distilling the knowledge in a neural network","author":"hinton","year":"2015","journal-title":"Proc NIPS Deep Learning and Representation Learning Workshop"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683143"},{"key":"ref14","article-title":"ClariNet: Parallel wave generation in end-to-end text-to-speech","author":"ping","year":"2018","journal-title":"Proc International Conference on Learning Representations (ICLR)"},{"key":"ref30","first-page":"12449","article-title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","author":"baevski","year":"2020","journal-title":"Proc Conference on Neural Information Processing Systems (NeurIPS)"},{"key":"ref11","article-title":"On the interplay between spar-sity, naturalness, intelligibility, and prosody in speech synthesis","author":"lai","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414403"},{"key":"ref2","article-title":"End-to-end adversarial text-to-speech","author":"donahue","year":"2020","journal-title":"Proc International Conference on Learning Repre-sentations (ICLR)"},{"key":"ref1","article-title":"Fast speech 2: Fast and high-quality end-to-end text to speech","author":"ren","year":"2020","journal-title":"Proc International Conference on Learning Representations (ICLR)"},{"key":"ref17","article-title":"Densityes-timation using real NVP","author":"dinh","year":"2017","journal-title":"Proc International Conference on Learning Representations (ICLR)"},{"key":"ref16","article-title":"Attention is all you need","author":"vaswani","year":"2017","journal-title":"Proc Conference on Neural Information Processing Systems (NeurIPS)"},{"key":"ref19","article-title":"Searching for activation functions","author":"ramachandran","year":"2018","journal-title":"Proc International Conference on Learning Representations (ICLR)"},{"key":"ref18","first-page":"17022","article-title":"Hifi-GAN: Generative ad-versarial networks for efficient and high fidelity speech synthesis","author":"kong","year":"2020","journal-title":"Proc Conference on Neural Information Processing Systems (NeurIPS)"},{"key":"ref24","first-page":"1558","article-title":"Autoencoding beyond pixels using a learned similarity metric","author":"larsen","year":"2016","journal-title":"Proc International Conference on Machine Learning (ICML)"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.304"},{"key":"ref26","article-title":"Ddsp: Differen-tiable digital signal processing","author":"engel","year":"2019","journal-title":"Proc International Conference on Learning Representations (ICLR)"},{"key":"ref25","first-page":"13062","article-title":"A spectral energy distance for 9 parallel speech synthesis","author":"gritsenko","year":"2020","journal-title":"Proc Conference on Neural Information Processing Systems (NeurIPS)"},{"key":"ref20","article-title":"RAD-TTS: Parallel flow-based TTS with robust alignment learning and diverse synthesis","author":"shih","year":"2021","journal-title":"Proc International Conference on Machine Learning (ICML) Workshop on Invertible Neural Nets and Nor-malizing Flows (INNF)"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.195"},{"key":"ref21","article-title":"One TTS alignment to rule them all","author":"badlani","year":"2021","journal-title":"ArXiv Preprint"},{"journal-title":"Comprehensive-transformer-TTS","year":"2022","author":"lee","key":"ref28"},{"journal-title":"The LJ speech dataset","year":"2017","author":"ito","key":"ref27"},{"key":"ref29","article-title":"Decoupled weight decay regularization","author":"loshchilov","year":"2018","journal-title":"Proc International Conference on Learning Representations (ICLR)"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461368"},{"key":"ref7","article-title":"Talknet 2: Non-autoregressive depth-wise separable convolutional model for speech synthesis with explicit pitch and duration prediction","author":"beliaev","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-188"},{"key":"ref4","first-page":"5530","article-title":"Conditional variational au-toencoder with adversarial learning for end-to-end text-to-speech","author":"kim","year":"2021","journal-title":"Proc International Conference on Ma-chine Learning (ICML)"},{"key":"ref3","first-page":"8067","article-title":"Glow-TTS: A generative flow for text-to-speech via monotonic alignment search","author":"kim","year":"2020","journal-title":"Proc Conference on Neural Information Processing Systems (NeurIPS)"},{"key":"ref6","article-title":"Bidirectional variational inference for non-autoregressive text-to-speech","author":"lee","year":"2021","journal-title":"Proc International Conference on Learning Repre-sentations (ICLR)"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2867"}],"event":{"name":"2022 IEEE Spoken Language Technology Workshop (SLT)","start":{"date-parts":[[2023,1,9]]},"location":"Doha, Qatar","end":{"date-parts":[[2023,1,12]]}},"container-title":["2022 IEEE Spoken Language Technology Workshop (SLT)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10022052\/10022330\/10023322.pdf?arnumber=10023322","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,2,20]],"date-time":"2023-02-20T17:08:54Z","timestamp":1676912934000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10023322\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,1,9]]},"references-count":30,"URL":"https:\/\/doi.org\/10.1109\/slt54892.2023.10023322","relation":{},"subject":[],"published":{"date-parts":[[2023,1,9]]}}}