{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,21]],"date-time":"2025-12-21T06:23:59Z","timestamp":1766298239241,"version":"3.28.0"},"reference-count":20,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,6,4]],"date-time":"2023-06-04T00:00:00Z","timestamp":1685836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,6,4]],"date-time":"2023-06-04T00:00:00Z","timestamp":1685836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,6,4]]},"DOI":"10.1109\/icassp49357.2023.10097264","type":"proceedings-article","created":{"date-parts":[[2023,5,5]],"date-time":"2023-05-05T13:28:30Z","timestamp":1683293310000},"page":"1-5","source":"Crossref","is-referenced-by-count":3,"title":["Performance Comparison of TTS Models for Brazilian Portuguese to Establish a Baseline"],"prefix":"10.1109","author":[{"given":"Wilmer","family":"Lobato","sequence":"first","affiliation":[{"name":"Alana AI Research,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Felipe","family":"Farias","sequence":"additional","affiliation":[{"name":"Alana AI Research,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"William","family":"Cruz","sequence":"additional","affiliation":[{"name":"Alana AI Research,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Marcellus","family":"Amadeus","sequence":"additional","affiliation":[{"name":"Alana AI Research,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","first-page":"1","article-title":"Convers&#x00E3;o Texto-Fala para o Portugu&#x00EA;s Brasileiro Utilizando Tacotron 2 com Vocoder Griffin-Lim","author":"rosa","year":"2021","journal-title":"XXXIX Simp&#x00F3;sio Brasileiro de Telecomunica&#x00E7;&#x00F5;es e Processamento de Sinais - SBrT 2021"},{"key":"ref12","article-title":"Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech","author":"popov","year":"2021","journal-title":"Proceedings of the 38th International Conference on Machine Learning PMLR"},{"key":"ref15","article-title":"Um Framework para Desenvolvimento de Sistemas TTS Personalizados no Portugu&#x00EA;s do Brasil","author":"costa","year":"2012","journal-title":"XXX Simp&#x00F3;sio Brasileiro de Telecomunia&#x00E7;&#x00F5;es - SBrT 2012"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.14209\/sbrt.2010.84"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-1565"},{"key":"ref11","article-title":"Glow-TTS: A generative flow for textto-speech via monotonic alignment search","volume":"2020 decem","author":"kim","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref10","article-title":"Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech","author":"kim","year":"2021","journal-title":"Proceedings of the 38th International Conference on Machine Learning PMLR"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/MC.2017.3571053"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1186\/s13173-014-0021-9"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-98305-5_32"},{"year":"2021","key":"ref16","article-title":"Audio corpora for Brazilian Portuguese"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2004-668"},{"key":"ref18","first-page":"234","article-title":"U-net: Convolutional networks for biomedical image segmentation","volume":"9351","author":"ronneberger","year":"2015"},{"key":"ref8","article-title":"HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis","author":"kong","year":"2020","journal-title":"Conference on Neural Information Processing Systems (NeurIPS)"},{"key":"ref7","first-page":"1","article-title":"WaveNet: A generative model for raw audio","author":"van den oord","year":"2016"},{"article-title":"A Survey on Neural Speech Synthesis","year":"2021","author":"tan","key":"ref9"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461829"},{"article-title":"SCGlowTTS: an Efficient Zero-Shot Multi-Speaker TextTo-Speech Model","year":"2021","author":"casanova","key":"ref3"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1984.1164317"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461368"}],"event":{"name":"ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2023,6,4]]},"location":"Rhodes Island, Greece","end":{"date-parts":[[2023,6,10]]}},"container-title":["ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10094559\/10094560\/10097264.pdf?arnumber=10097264","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,10,23]],"date-time":"2023-10-23T18:35:40Z","timestamp":1698086140000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10097264\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,4]]},"references-count":20,"URL":"https:\/\/doi.org\/10.1109\/icassp49357.2023.10097264","relation":{},"subject":[],"published":{"date-parts":[[2023,6,4]]}}}