{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T16:55:40Z","timestamp":1778604940401,"version":"3.51.4"},"reference-count":80,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2019,9,1]],"date-time":"2019-09-01T00:00:00Z","timestamp":1567296000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,9,1]],"date-time":"2019-09-01T00:00:00Z","timestamp":1567296000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,9,1]],"date-time":"2019-09-01T00:00:00Z","timestamp":1567296000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100004663","name":"Ministry of Science and Technology, Taiwan","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004663","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2019,9]]},"DOI":"10.1109\/taslp.2019.2922832","type":"journal-article","created":{"date-parts":[[2019,6,13]],"date-time":"2019-06-13T19:51:59Z","timestamp":1560455519000},"page":"1481-1493","source":"Crossref","is-referenced-by-count":34,"title":["Audio Word2vec: Sequence-to-Sequence Autoencoding for Unsupervised Learning of Audio Segmentation and Representation"],"prefix":"10.1109","volume":"27","author":[{"given":"Yi-Chen","family":"Chen","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sung-Feng","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9654-5747","authenticated-orcid":false,"given":"Hung-yi","family":"Lee","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu-Hsuan","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8472-3596","authenticated-orcid":false,"given":"Chia-Hao","family":"Shen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref73","article-title":"Wasserstein GAN","author":"arjovsky","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref72","first-page":"1295","article-title":"Joint learning of speaker and phonetic similarities with siamese networks","author":"zeghidour","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-1098"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1066"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"ref77","first-page":"345","article-title":"Globalphone: A multilingual speech and text database developed at Karlsruhe University","author":"schultz","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref74","first-page":"5769","article-title":"Improved training of wasserstein GANs","author":"gulrajani","year":"0","journal-title":"Proc 31st Int Conf Neural Inf Process Syst"},{"key":"ref39","article-title":"Multi-view recurrent neural acoustic word embeddings","author":"he","year":"2016"},{"key":"ref75","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","author":"sutton","year":"0","journal-title":"Proc 12th Int Conf Neural Inf Process Syst"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472619"},{"key":"ref78","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref79","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017"},{"key":"ref33","first-page":"1574","article-title":"A hybrid HMM\/DNN approach to keyword spotting of short words","author":"chen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2013.2248721"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7179089"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707765"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178970"},{"key":"ref36","first-page":"1053","article-title":"Word embeddings for speech recognition","author":"bengio","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2017.2759726"},{"key":"ref34","first-page":"2442","article-title":"Exploiting discriminative point process models for spoken term detection","author":"norouzian","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6289077"},{"key":"ref62","first-page":"501","article-title":"A segment model based approach to speech recoginition","author":"lee","year":"0","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2010.5495637"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6289081"},{"key":"ref28","article-title":"Hierarchical multiscale recurrent neural networks","author":"chung","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2517567"},{"key":"ref27","article-title":"Estimating or propagating gradients through stochastic neurons for conditional computation","author":"bengio","year":"2013"},{"key":"ref65","first-page":"719","article-title":"An embedded segmental K-means model for unsupervised segmentation and clustering of speech","author":"kamper","year":"0","journal-title":"Proc IEEE Autom Speech Recognit Understanding Workshop"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1112"},{"key":"ref29","first-page":"1559","article-title":"Support vector machines versus fast scoring in the low-dimensional total variability space for speaker verification","author":"dehak","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref68","first-page":"3104","article-title":"Sequence to sequence learning with neural networks","author":"sutskever","year":"0","journal-title":"Proc 27th Int Conf Neural Inf Process Syst"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/K16-1002"},{"key":"ref2","doi-asserted-by":"crossref","first-page":"501","DOI":"10.1109\/TASLP.2017.2782360","article-title":"Multitask learning for phone recognition of underresourced languages using mismatched transcription","volume":"26","author":"chen","year":"2018","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2621659"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2009.5372931"},{"key":"ref22","first-page":"3822","article-title":"Gate activation signal analysis for gated recurrent neural networks and its correlation with phoneme boundaries","author":"wang","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2017.04.008"},{"key":"ref24","first-page":"3989","article-title":"Unsupervised optimal phoneme segmentation: Objectives, algorithm and comparisons","author":"qiao","year":"0","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref23","first-page":"2817","article-title":"Basic cuts revisited: Temporal segmentation of speech into phone-like units with statistical learning at a pre-linguistic level","author":"r\u00e4s\u00e4nen","year":"0","journal-title":"Proc 3rd Annu Meeting of the Cogn Sci Soc"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462002"},{"key":"ref25","first-page":"40","article-title":"A nonparametric Bayesian approach to acoustic model discovery","author":"lee","year":"0","journal-title":"Proc 50th Annu Meeting Assoc for Comput Linguist Long Papers-Vol 1"},{"key":"ref50","first-page":"941","article-title":"Phonetic-and-semantic embedding of spoken words with applications in spoken content retrieval","author":"chen","year":"0","journal-title":"Proc IEEE Spoken Lang Technol Workshop"},{"key":"ref51","first-page":"214","article-title":"Unsupervised adaptation with domain separation networks for robust speech recognition","author":"meng","year":"0","journal-title":"Proc IEEE Autom Speech Recognit Understanding Workshop"},{"key":"ref59","first-page":"798","article-title":"Word discovery with beta process factor analysis","author":"vanhainen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref58","article-title":"An iterative approach to model merging for speech pattern discovery","author":"wang","year":"0","journal-title":"Proc Asia-Pac Signal Inf Process Assoc"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2007.911723"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.909282"},{"key":"ref55","first-page":"1676","article-title":"Towards spoken term discovery at scale with zero resources","author":"jansen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref54","first-page":"1693","article-title":"Towards unsupervised training of speaker independent acoustic models","author":"jansen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2006.1660179"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2017.2778948"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-82"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461305"},{"key":"ref40","first-page":"2874","article-title":"Query-by-example search with discriminative neural acoustic word embeddings","author":"settle","year":"2017"},{"key":"ref12","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","article-title":"Reducing the dimensionality of data with neural networks","volume":"313","author":"hinton","year":"2006","journal-title":"Science"},{"key":"ref13","first-page":"37","article-title":"Autoencoders, unsupervised learning, and deep architectures","volume":"7","author":"baldi","year":"0","journal-title":"Unsupervised and Transfer Learning Challenges in Machine Learning"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-1107"},{"key":"ref15","first-page":"3294","article-title":"Skip-thought vectors","author":"kiros","year":"0","journal-title":"Proc 28th Int Conf Neural Inf Process Syst"},{"key":"ref16","first-page":"843","article-title":"Unsupervised learning of video representations using LSTMs","author":"srivastava","year":"0","journal-title":"Proceedings of the 32nd Intl Conf on Machine Learning"},{"key":"ref17","first-page":"2096","article-title":"Domain-adversarial training of neural networks","volume":"17","author":"ganin","year":"2016","journal-title":"J Mach Learn Res"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2017.04.008"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6855121"},{"key":"ref80","article-title":"Unsupervised spoken term detection with spoken queries","author":"chan","year":"2012"},{"key":"ref4","first-page":"323","article-title":"The zero resource speech challenge 2017","author":"dunbar","year":"0","journal-title":"Proc IEEE Autom Speech Recognit Understanding Workshop"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639245"},{"key":"ref6","first-page":"3111","article-title":"Distributed representations of words and phrases and their compositionality","author":"mikolov","year":"0","journal-title":"Proc 26th Int Conf Neural Information Process Syst"},{"key":"ref5","first-page":"3169","article-title":"The zero resource speech challenge 2015","author":"versteegh","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref8","first-page":"1188","article-title":"Distributed representations of sentences and documents","author":"le","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref7","article-title":"Efficient estimation of word representations in vector space","author":"mikolov","year":"2013"},{"key":"ref49","first-page":"1876","article-title":"Unsupervised learning of disentangled and interpretable representations from sequential data","author":"hsu","year":"0","journal-title":"Proc 31st Int Conf Neural Inf Process Syst"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/E17-2076"},{"key":"ref46","article-title":"Towards learning semantic audio representations from unlabeled data","author":"jansen","year":"0","journal-title":"Proc NIPS Workshop Mach Learn Audio Signal Process"},{"key":"ref45","first-page":"503","article-title":"Discriminative acoustic word embeddings: Recurrent neural network-based approaches","author":"settle","year":"0","journal-title":"Proc IEEE Spoken Lang Technol Workshop"},{"key":"ref48","first-page":"1273","article-title":"Learning latent representations for speech generation and transformation","author":"hsu","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref47","first-page":"16","article-title":"Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation","author":"hsu","year":"0","journal-title":"Proc IEEE Autom Speech Recognit Understanding Workshop"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-2341"},{"key":"ref41","article-title":"Word-level acoustic modeling with convolutional vector regression","author":"maas","year":"0","journal-title":"Proc ICML Workshop on Representation Learning"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683639"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-2364"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/8736368\/08736337.pdf?arnumber=8736337","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,13]],"date-time":"2022-07-13T21:13:25Z","timestamp":1657746805000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8736337\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,9]]},"references-count":80,"journal-issue":{"issue":"9"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2019.2922832","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"value":"2329-9290","type":"print"},{"value":"2329-9304","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,9]]}}}