{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,5]],"date-time":"2025-11-05T20:56:06Z","timestamp":1762376166918,"version":"3.37.3"},"reference-count":46,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2017,3,1]],"date-time":"2017-03-01T00:00:00Z","timestamp":1488326400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Science Foundation of China","doi-asserted-by":"publisher","award":["61271389","61371136","61633013"],"award-info":[{"award-number":["61271389","61371136","61633013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012166","name":"National Basic Research Program","doi-asserted-by":"crossref","award":["2013CB329302"],"award-info":[{"award-number":["2013CB329302"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Doctoral Fund of Ministry of Education of China","award":["20130002120011"],"award-info":[{"award-number":["20130002120011"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2017,3]]},"DOI":"10.1109\/taslp.2016.2639323","type":"journal-article","created":{"date-parts":[[2016,12,13]],"date-time":"2016-12-13T19:26:41Z","timestamp":1481657201000},"page":"493-504","source":"Crossref","is-referenced-by-count":36,"title":["Collaborative Joint Training With Multitask Recurrent Model for Speech and Speaker Recognition"],"prefix":"10.1109","volume":"25","author":[{"given":"Zhiyuan","family":"Tang","sequence":"first","affiliation":[]},{"given":"Lantian","family":"Li","sequence":"additional","affiliation":[]},{"given":"Dong","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Ravichander","family":"Vipperla","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.881693"},{"key":"ref38","first-page":"390","article-title":"Perceptual integration of linguistic and nonlinguistic properties of speech","author":"nygaard","year":"2008","journal-title":"The Handbook of Speech Perception"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1121\/1.381065"},{"key":"ref32","first-page":"12","article-title":"Vocal tract normalization as demonstrated by reaction times","volume":"2","author":"summerfield","year":"1973","journal-title":"Rep Speech Res Prog"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1121\/1.1909003"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1080\/15475441.2005.9684216"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1159\/000262207"},{"key":"ref36","first-page":"363","article-title":"Speaker normalization in speech perception","author":"johnson","year":"2008","journal-title":"The Handbook of Speech Perception"},{"key":"ref35","first-page":"113","article-title":"Paying attention to differences among talkers","author":"nusbaum","year":"1992","journal-title":"Speech Perception Production and Linguistic Structure"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1121\/1.397688"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Odyssey.2016-25"},{"key":"ref40","first-page":"528","article-title":"Learning speech rate in speech recognition","author":"zeng","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2015.2420092"},{"key":"ref12","first-page":"1361","article-title":"On the combination of speech and speaker recognition","author":"benzeghiba","year":"0","journal-title":"Proc Eur Conf Speech Commun Technol"},{"key":"ref13","first-page":"1764","article-title":"Towards end-to-end speech recognition with recurrent neural networks","author":"graves","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref14","first-page":"338","article-title":"Long short-term memory recurrent neural network architectures for large scale acoustic modeling","author":"sak","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472652"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1023\/A:1007379606734"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2015.7415532"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639081"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639348"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1037\/0096-1523.29.6.1143"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2015.7415306"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1037\/0096-1523.26.5.1570"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854363"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707705"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1111\/j.1467-7687.2011.01052.x"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853591"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853887"},{"key":"ref7","first-page":"52","article-title":"Training universal background models for speaker recognition","author":"omar","year":"0","journal-title":"IEEE Odyssey Speaker and Language Recognition Workshop"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2205597"},{"key":"ref9","first-page":"293","article-title":"Deep neural networks for extracting Baum-Welch statistics for speaker recognition","author":"kenny","year":"0","journal-title":"IEEE Odyssey Speaker and Language Recognition Workshop"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2134090"},{"key":"ref46","article-title":"Parallel training of DNNs with natural gradient and parameter averaging","author":"povey","year":"2014","journal-title":"arXiv preprint arXiv 1410 7455"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639084"},{"key":"ref45","article-title":"The kaldi speech recognition toolkit","author":"povey","year":"0","journal-title":"Proc IEEE Workshop Autom Speech Recognit Understanding"},{"key":"ref22","first-page":"16","article-title":"Language independent and unsupervised acoustic models for speech recognition and keyword spotting","author":"knill","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638959"},{"key":"ref42","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","article-title":"Reducing the dimensionality of data with neural networks","volume":"313","author":"hinton","year":"2006","journal-title":"Science"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2016.7820893"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2013.50"},{"key":"ref23","first-page":"185","article-title":"Multi-task learning for text-dependent speaker verification","author":"chen","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"},{"key":"ref44","first-page":"17","article-title":"Deep learning of representations for unsupervised and transfer learning","volume":"27","author":"bengio","year":"2012","journal-title":"J Mach Learn Res"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1207\/s15326969eco0302_1"},{"key":"ref43","first-page":"153","article-title":"Greedy layer-wise training of deep networks","volume":"19","author":"bengio","year":"2007","journal-title":"Adv Neural Inf Process Syst"},{"key":"ref25","first-page":"1086","article-title":"Modeling speaker variability using long short-term memory networks for speech recognition","author":"li","year":"0","journal-title":"Proc Annu Conf Int Speech Commun Assoc"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/7819571\/07782371.pdf?arnumber=7782371","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:12:16Z","timestamp":1642003936000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7782371\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,3]]},"references-count":46,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2016.2639323","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"type":"print","value":"2329-9290"},{"type":"electronic","value":"2329-9304"}],"subject":[],"published":{"date-parts":[[2017,3]]}}}