{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,21]],"date-time":"2026-05-21T16:26:48Z","timestamp":1779380808264,"version":"3.53.1"},"reference-count":242,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"10","license":[{"start":{"date-parts":[[2023,10,1]],"date-time":"2023-10-01T00:00:00Z","timestamp":1696118400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,10,1]],"date-time":"2023-10-01T00:00:00Z","timestamp":1696118400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,10,1]],"date-time":"2023-10-01T00:00:00Z","timestamp":1696118400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62206194"],"award-info":[{"award-number":["62206194"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Beijing Academy of Artificial Intelligence"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2023,10]]},"DOI":"10.1109\/tpami.2023.3277122","type":"journal-article","created":{"date-parts":[[2023,5,18]],"date-time":"2023-05-18T17:20:34Z","timestamp":1684430434000},"page":"11407-11427","source":"Crossref","is-referenced-by-count":72,"title":["A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond"],"prefix":"10.1109","volume":"45","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-5069-7260","authenticated-orcid":false,"given":"Yisheng","family":"Xiao","sequence":"first","affiliation":[{"name":"Soochow University, Suzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3530-590X","authenticated-orcid":false,"given":"Lijun","family":"Wu","sequence":"additional","affiliation":[{"name":"Microsoft Research, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8360-5483","authenticated-orcid":false,"given":"Junliang","family":"Guo","sequence":"additional","affiliation":[{"name":"Microsoft Research, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6286-7529","authenticated-orcid":false,"given":"Juntao","family":"Li","sequence":"additional","affiliation":[{"name":"Soochow University, Suzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3895-5510","authenticated-orcid":false,"given":"Min","family":"Zhang","sequence":"additional","affiliation":[{"name":"Soochow University, Suzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9095-0776","authenticated-orcid":false,"given":"Tao","family":"Qin","sequence":"additional","affiliation":[{"name":"Microsoft Research, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0476-8020","authenticated-orcid":false,"given":"Tie-Yan","family":"Liu","sequence":"additional","affiliation":[{"name":"Microsoft Research, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"An Introduction to Machine Translation","author":"Hutchins","year":"1992"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1146\/annurev.neuro.26.041002.131047"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1406.1078"},{"key":"ref5","first-page":"3104","article-title":"Sequence to sequence learning with neural networks","volume-title":"Proc. 27th Int. Conf. Neural Inf. Process. Syst.","author":"Sutskever"},{"key":"ref6","article-title":"Googles neural machine translation system: Bridging the gap between human and machine translation","author":"Wu","year":"2016"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D15-1166"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1162"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2010-343"},{"issue":"10","key":"ref10","first-page":"255","article-title":"Convolutional networks for images, speech, and time series","volume":"3361","author":"LeCun","year":"1995","journal-title":"Handbook Brain Theory Neural Netw."},{"key":"ref11","first-page":"1243","article-title":"Convolutional sequence to sequence learning","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"Gehring"},{"key":"ref12","article-title":"A structured self-attentive sentence embedding","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Lin"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref14","article-title":"Universal transformers","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Dehghani"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1558"},{"key":"ref16","article-title":"Non-autoregressive neural machine translation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Gu"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1044"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1633"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.385"},{"key":"ref20","article-title":"Understanding and improving lexical choice in non-autoregressive translation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Ding"},{"key":"ref21","article-title":"Self-distillation mixup training for non-autoregressive neural machine translation","author":"Guo","year":"2021"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33015377"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33013723"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6289"},{"key":"ref25","first-page":"3016","article-title":"Fast structured decoding for sequence models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Sun"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.265"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/9780470544037"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1149"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1426"},{"key":"ref31","article-title":"Sequence level training with recurrent neural networks","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Ranzato"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1397"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.126"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref35","first-page":"11181","article-title":"Levenshtein transformer","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Gu"},{"key":"ref36","first-page":"5144","article-title":"Non-autoregressive machine translation with disentangled context transformer","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kasai"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.coling-main.25"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.83"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.155"},{"key":"ref40","first-page":"9410","article-title":"Directed acyclic transformer for non-autoregressive machine translation","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"Huang"},{"key":"ref41","first-page":"2849","article-title":"Order-agnostic cross entropy for non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Du"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.442"},{"key":"ref43","article-title":"Distilling the knowledge in a neural network","author":"Hinton","year":"2015"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/d16-1139"},{"key":"ref45","article-title":"Understanding knowledge distillation in non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Zhou"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.15"},{"key":"ref47","first-page":"1607","article-title":"Born again neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Furlanello"},{"key":"ref48","first-page":"5719","article-title":"Mixture models for diverse machine translation: Tricks of the trade","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Shen"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.spnlp-1.10"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.266"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.171"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.277"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.575"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.247"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/taslp.2022.3221043"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.45"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.463"},{"key":"ref58","first-page":"5976","article-title":"Insertion transformer: Flexible sequence generation via insertion operations","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Stern"},{"key":"ref59","article-title":"Semi-autoregressive training improves mask-predict decoding","author":"Ghazvininejad","year":"2020"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.36"},{"key":"ref61","article-title":"Improving non-autoregressive translation models without distillation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Huang"},{"key":"ref62","article-title":"Step-unrolled denoising autoencoders for text generation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Savinov"},{"key":"ref63","first-page":"7011","article-title":"InsNet: An efficient, flexible, and performant insertion-based text generation model","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Lu"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1437"},{"key":"ref65","article-title":"Non-autoregressive transformer by position learning","author":"Bao","year":"2019"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1122"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6413"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i15.17618"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.1"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.458"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.eacl-main.105"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.11"},{"key":"ref73","article-title":"LAVA NAT: A non-autoregressive translation model with look-around decoding and vocabulary attention","author":"Li","year":"2020"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.coling-main.389"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i10.21323"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.iwslt-1.47"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.322"},{"key":"ref78","article-title":"Fuzzy alignments in directed acyclic graph for non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Ma"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i01.5351"},{"key":"ref80","first-page":"3515","article-title":"Aligned cross entropy for non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Marjan"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.150"},{"key":"ref82","first-page":"5035","article-title":"ngram-OAXE: Phrase-based order-agnostic cross entropy for non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Comput. Linguistics","author":"Du"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.339"},{"key":"ref84","first-page":"8159","article-title":"Non-monotonic latent alignments for ctc-based non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Shao"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.277"},{"key":"ref86","article-title":"Lossless speedup of autoregressive translation with generalized aggressive decoding","author":"Xia","year":"2022"},{"key":"ref87","article-title":"KERMIT: Generative insertion-based modeling for sequences","author":"Chan","year":"2019"},{"key":"ref88","first-page":"81","article-title":"Diformer: Directional transformer for neural machine translation","volume-title":"Proc. 23rd Annu. Conf. Eur. Assoc. Mach. Transl.","author":"Wang"},{"key":"ref89","article-title":"Hybrid-regressive neural machine translation","author":"Wang","year":"2022"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1125"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1573"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.251"},{"key":"ref93","first-page":"9249","article-title":"An EM approach to non-autoregressive conditional sequence generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sun"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.313"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/534"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.371"},{"key":"ref97","article-title":"Incorporating BERT into parallel sequence decoding with adapters","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Guo"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.eacl-main.18"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.466"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553380"},{"key":"ref101","article-title":"switch-GLAT: Multilingual parallel machine translation via code-switch decoder","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Song"},{"key":"ref102","first-page":"10890","article-title":"R-drop: Regularized dropout for neural networks","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Liang"},{"key":"ref103","first-page":"6716","article-title":"Non-monotonic sequential text generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Welleck"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00292"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.548"},{"key":"ref106","article-title":"Non-autoregressive machine translation with translation memories","author":"Xu","year":"2022"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.2197\/ipsjjip.31.344"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.coling-main.2"},{"key":"ref109","first-page":"2390","article-title":"Fast decoding in sequence models using discrete latent variables","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kaiser"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i11.26587"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1336"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.blackboxnlp-1.14"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.464"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.465"},{"key":"ref115","article-title":"Improving fluency of non-autoregressive machine translation","author":"Kasner","year":"2020"},{"key":"ref116","article-title":"Incorporating bert into neural machine translation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Zhu"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.208"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.129"},{"key":"ref119","article-title":"Deep encoder, shallow decoder: Reevaluating non-autoregressive machine translation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kasai"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.179"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W15-3049"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W18-6319"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.213"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.236"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-emnlp.161"},{"key":"ref127","article-title":"FastSpeech: Fast, robust and controllable text to speech","volume-title":"Proc. 33rd Int. Conf. Neural Inf. Process. Syst.","author":"Ren"},{"key":"ref128","first-page":"7586","article-title":"Non-autoregressive neural text-to-speech","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Peng"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.467"},{"key":"ref130","article-title":"Improving non-autoregressive generation with mixup training","author":"Jiang","year":"2021"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU51503.2021.9688157"},{"key":"ref132","article-title":"Non-autoregressive transformer-based end-to-end ASR using BERT","author":"Yu","year":"2021"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414694"},{"key":"ref134","first-page":"8630","article-title":"BANG: Bridging autoregressive and non-autoregressive generation with large scale pretraining","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Qi"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.wnut-1.46"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.385"},{"key":"ref137","article-title":"Non-autoregressive neural dialogue generation","author":"Han","year":"2020"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.169"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.156"},{"key":"ref140","article-title":"A self-paced mixed distillation method for non-autoregressive generation","author":"Qi","year":"2022"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.520"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.68"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.154"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-1906"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2020.3044547"},{"key":"ref146","first-page":"1403","article-title":"Imputer: Sequence modelling via imputation and dynamic programming","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Chan"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2404"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-632"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1109\/SLT54892.2023.10022581"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414594"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-911"},{"key":"ref152","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746316"},{"key":"ref153","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413429"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414198"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49357.2023.10094820"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1109\/SLT54892.2023.10022825"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1109\/SLT54892.2023.10022705"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3082299"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49357.2023.10095186"},{"key":"ref160","article-title":"Acoustic-aware non-autoregressive spell correction with mask sample decoding","author":"Fan","year":"2022"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-10062"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.545"},{"key":"ref163","first-page":"29101","article-title":"A character-level length-control algorithm for non-autoregressive sentence summarization","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.708"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W19-8609"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1145\/3459637.3482229"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1145\/3545800"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.730"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.138"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1145\/3617680"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.330"},{"key":"ref172","article-title":"AutoTemplate: A simple recipe for lexically constrained text generation","author":"Iso","year":"2022"},{"key":"ref173","first-page":"4328","article-title":"Diffusion-LM improves controllable text generation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.144"},{"key":"ref175","article-title":"Fast image caption generation with position alignment","author":"Fei","year":"2019"},{"key":"ref176","article-title":"Masked non-autoregressive image captioning","author":"Gao","year":"2019"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/107"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20059-5_7"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547840"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.206"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i1.25137"},{"key":"ref182","first-page":"9472","article-title":"Learning distinct and representative modes for image captioning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Chen"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-44693-1_46"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.206"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-2121"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.21437\/SSW.2021-17"},{"key":"ref187","article-title":"VARA-TTS: Non-autoregressive text-to-speech synthesis based on very deep VAE with residual attention","author":"Liu","year":"2021"},{"key":"ref188","article-title":"Bidirectional variational inference for non-autoregressive text-to-speech","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Lee"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.564"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-1452"},{"key":"ref191","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413889"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-52"},{"key":"ref193","first-page":"8067","article-title":"Glow-TTS: A generative flow for text-to-speech via monotonic alignment search","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kim"},{"key":"ref194","first-page":"813","article-title":"Hierarchical and multi-scale variational autoencoder for diverse and natural non-autoregressive text-to-speech","volume-title":"Proc. Annu. Conf. Int. Speech Commun. Assoc.","author":"Jae-Sung Bae"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.30"},{"key":"ref196","article-title":"Controllable and lossless non-autoregressive end-to-end text-to-speech","author":"Liu","year":"2022"},{"key":"ref197","article-title":"Improved speech-to-text translation with the fisher and callhome spanish-english speech translation corpus","volume-title":"Proc. IEEE Spoken Lang. Technol. Workshop","author":"Post"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.92"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9415093"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1109\/icassp39728.2021.9415093"},{"key":"ref201","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.151"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.americasnlp-1.7"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU51503.2021.9687894"},{"key":"ref204","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sohl-Dickstein"},{"key":"ref205","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Ho"},{"key":"ref206","article-title":"DiffWave: A versatile diffusion model for audio synthesis","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kong"},{"key":"ref207","article-title":"Symbolic music generation with diffusion models","author":"Mittal","year":"2021"},{"key":"ref208","first-page":"8162","article-title":"Improved denoising diffusion probabilistic models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Nichol"},{"key":"ref209","first-page":"17981","article-title":"Structured denoising diffusion models in discrete state-spaces","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Austin"},{"key":"ref210","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Saharia"},{"key":"ref211","article-title":"Hierarchical text-conditional image generation with clip latents","author":"Ramesh","year":"2022"},{"key":"ref212","first-page":"16784","article-title":"GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Nichol"},{"key":"ref213","first-page":"12 454","article-title":"Argmax flows and multinomial diffusion: Learning categorical distributions","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","volume":"34","author":"Hoogeboom","year":"2021"},{"key":"ref214","article-title":"Autoregressive diffusion models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Hoogeboom"},{"key":"ref215","article-title":"DiffuSeq: Sequence to sequence text generation with diffusion models","author":"Gong","year":"2022"},{"key":"ref216","first-page":"25702","article-title":"Latent diffusion energy-based model for interpretable text modelling","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Yu"},{"key":"ref217","article-title":"DiffusER: Discrete diffusion via edit-based reconstruction","author":"Reid","year":"2022"},{"key":"ref218","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W19-2304"},{"key":"ref219","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.764"},{"key":"ref220","article-title":"Generating videos with dynamics-aware implicit generative adversarial networks","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Yu"},{"key":"ref221","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413973"},{"key":"ref222","article-title":"Streaming non-autoregressive model for any-to-many voice conversion","author":"Chen","year":"2022"},{"key":"ref223","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548194"},{"key":"ref224","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2021-349"},{"key":"ref225","article-title":"Non-autoregressive model for full-line code completion","author":"Liu","year":"2022"},{"key":"ref226","article-title":"A study on the autoregressive and non-autoregressive multi-label learning","author":"Barezi","year":"2020"},{"key":"ref227","doi-asserted-by":"publisher","DOI":"10.1109\/tkde.2023.3319672\/mm1"},{"key":"ref228","first-page":"9356","article-title":"On the learning of non-autoregressive transformers","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Huang"},{"key":"ref229","article-title":"Using perturbed length-aware positional encoding for non-autoregressive neural machine translation","author":"Oka","year":"2021"},{"key":"ref230","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.79"},{"key":"ref231","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1288"},{"key":"ref232","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.15"},{"key":"ref233","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.152"},{"key":"ref234","article-title":"Non-autoregressive dialog state tracking","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Le"},{"key":"ref235","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746770"},{"key":"ref236","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-1556"},{"key":"ref237","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2021-1770"},{"key":"ref238","doi-asserted-by":"publisher","DOI":"10.1109\/SLT48900.2021.9383629"},{"key":"ref239","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00358"},{"key":"ref240","article-title":"Classifier-free diffusion guidance","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst. Workshop","author":"Ho"},{"key":"ref241","doi-asserted-by":"publisher","DOI":"10.1145\/3577530.3577539"},{"key":"ref242","first-page":"808","article-title":"Conditional deep hierarchical variational autoencoder for voice conversion","volume-title":"Proc. Asia-Pacific Signal Inf. Process. Assoc. Annu. Summit Conf.","author":"Akuzawa"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/34\/10241246\/10129160.pdf?arnumber=10129160","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,7]],"date-time":"2024-06-07T17:29:55Z","timestamp":1717781395000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10129160\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10]]},"references-count":242,"journal-issue":{"issue":"10"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2023.3277122","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,10]]}}}