{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T11:02:31Z","timestamp":1740135751924,"version":"3.37.3"},"reference-count":43,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2019,11,27]],"date-time":"2019-11-27T00:00:00Z","timestamp":1574812800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,11,27]],"date-time":"2019-11-27T00:00:00Z","timestamp":1574812800000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U1736210"],"award-info":[{"award-number":["U1736210"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2020,6]]},"DOI":"10.1007\/s00034-019-01315-7","type":"journal-article","created":{"date-parts":[[2019,11,27]],"date-time":"2019-11-27T14:03:40Z","timestamp":1574863420000},"page":"3125-3144","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Task-Driven Variability Model for Speaker Verification"],"prefix":"10.1007","volume":"39","author":[{"given":"Chen","family":"Chen","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4297-4300","authenticated-orcid":false,"given":"Jiqing","family":"Han","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,11,27]]},"reference":[{"key":"1315_CR1","unstructured":"D. Bans\u00e9, G.R. Doddington, D. Garcia-Romero, J.J. Godfrey, C.S. Greenberg, A.F. Martin, A. McCree, M. Przybocki, D.A. Reynolds, Summary and initial results of the 2013\u20132014 speaker recognition i-vector machine learning challenge, in Interspeech (2014), pp. 368\u2013372"},{"key":"1315_CR2","unstructured":"H. Bredin, Tristounet: triplet loss for speaker turn embedding, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (2017), pp. 5430\u20135434"},{"key":"1315_CR3","doi-asserted-by":"crossref","unstructured":"K. Chatfield, K. Simonyan, A. Vedaldi, A. Zisserman, Return of the devil in the details: delving deep into convolutional nets, in The British Machine Vision Conference (2014)","DOI":"10.5244\/C.28.6"},{"key":"1315_CR4","unstructured":"C. Chen, J. Han, Y. Pan, Speaker verification via estimating total variability space using probabilistic partial least squares, in Interspeech (2017), pp. 1537\u20131541"},{"key":"1315_CR5","unstructured":"S. Chopra, R. Hadsell, Y. LeCun, Learning a similarity metric discriminatively, with application to face verification, in 2005 IEEE Conference on Computer Vision and Pattern Recognition (2005), pp. 539\u2013546"},{"issue":"5","key":"1315_CR6","doi-asserted-by":"publisher","first-page":"995","DOI":"10.1109\/TASLP.2018.2806305","volume":"26","author":"S Cumani","year":"2018","unstructured":"S. Cumani, P. Laface, Scoring heterogeneous speaker vectors using nonlinear transformations and tied PLDA models. IEEE\/ACM Trans. Audio Speech Lang. Process. 26(5), 995\u20131009 (2018)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"4","key":"1315_CR7","doi-asserted-by":"publisher","first-page":"788","DOI":"10.1109\/TASL.2010.2064307","volume":"19","author":"N Dehak","year":"2011","unstructured":"N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, P. Ouellet, Front-end factor analysis for speaker verification. IEEE Trans. Audio Speech Lang. Process. 19(4), 788\u2013798 (2011)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"1315_CR8","unstructured":"D. Garcia-Romero, C.Y. Espy-Wilson, Analysis of i-vector length normalization in speaker recognition systems, in Interspeech (2011), pp. 249\u2013252"},{"key":"1315_CR9","unstructured":"R.L. Gorsuch, Factor analysis, edition: 2nd publisher. Lawrence Earlbaum Associates (1983)"},{"issue":"6","key":"1315_CR10","doi-asserted-by":"publisher","first-page":"74","DOI":"10.1109\/MSP.2015.2462851","volume":"32","author":"JH Hansen","year":"2015","unstructured":"J.H. Hansen, T. Hasan, Speaker recognition by machines and humans: a tutorial review. IEEE Signal Process. Mag. 32(6), 74\u201399 (2015)","journal-title":"IEEE Signal Process. Mag."},{"key":"1315_CR11","unstructured":"Y.Z. Isik, H. Erdogan, R. Sarikaya, S-vector: a discriminative representation derived from i-vector for speaker verification, in European Signal Processing Conference (2015), pp. 2097\u20132101"},{"issue":"5","key":"1315_CR12","doi-asserted-by":"publisher","first-page":"980","DOI":"10.1109\/TASL.2008.925147","volume":"16","author":"P Kenny","year":"2008","unstructured":"P. Kenny, P. Ouellet, N. Dehak, V. Gupta, P. Dumouchel, A study of interspeaker variability in speaker verification. IEEE Trans. Audio Speech Lang. Process. 16(5), 980\u2013988 (2008)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"4","key":"1315_CR13","first-page":"1435","volume":"15","author":"P Kenny","year":"2007","unstructured":"P. Kenny, G. Boulianne, P. Ouellet, P. Dumouchel, Joint factor analysis versus eigenchannels in speaker recognition. Digital Signal Process. 15(4), 1435\u20131447 (2007)","journal-title":"Digital Signal Process."},{"issue":"1","key":"1315_CR14","doi-asserted-by":"publisher","first-page":"12","DOI":"10.1016\/j.specom.2009.08.009","volume":"52","author":"T Kinnunen","year":"2010","unstructured":"T. Kinnunen, H. Li, An overview of text-independent speaker recognition: from features to supervectors. Speech Commun. 52(1), 12\u201340 (2010)","journal-title":"Speech Commun."},{"key":"1315_CR15","unstructured":"King-ASR-010: Chinese mandarin speech recognition corpus (desktop)-digit string-200 speakers. http:\/\/en.speechocean.com\/datacenter\/details\/41.html. Accessed 27 Nov 2019"},{"issue":"3","key":"1315_CR16","doi-asserted-by":"publisher","first-page":"485","DOI":"10.1007\/BF00939562","volume":"65","author":"CD Kolstad","year":"1990","unstructured":"C.D. Kolstad, L.S. Lasdon, Derivative evaluation and computational experience with large bilevel mathematical programs. J. Optim. Theory Appl. 65(3), 485\u2013499 (1990)","journal-title":"J. Optim. Theory Appl."},{"key":"1315_CR17","doi-asserted-by":"publisher","first-page":"3548","DOI":"10.1007\/s00034-019-01103-3","volume":"38","author":"MA Laskar","year":"2019","unstructured":"M.A. Laskar, R.H. Laskar, Integrating DNN-HMM technique with hierarchical multi-layer acoustic model for text-dependent speaker verification. Circuits Syst. Signal Process. 38, 3548\u20133572 (2019)","journal-title":"Circuits Syst. Signal Process."},{"issue":"Nov","key":"1315_CR18","first-page":"2579","volume":"9","author":"VDM Laurens","year":"2008","unstructured":"V.D.M. Laurens, G.E. Hinton, Visualizing data using t-SNE. J. Mach. Learn. Res. 9(Nov), 2579\u20132605 (2008)","journal-title":"J. Mach. Learn. Res."},{"key":"1315_CR19","unstructured":"Z. Lei, Y. Yang, Maximum likelihood i-vector space using PCA for speaker verification, in Interspeech (2011), pp. 2725\u20132728"},{"issue":"10","key":"1315_CR20","doi-asserted-by":"publisher","first-page":"1648","DOI":"10.1109\/TASLP.2015.2442757","volume":"23","author":"N Li","year":"2015","unstructured":"N. Li, M.W. Mak, SNR-invariant PLDA modeling in nonparametric subspace for robust speaker verification. IEEE\/ACM Trans. Audio Speech Lang. Process. 23(10), 1648\u20131659 (2015)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"1315_CR21","unstructured":"J. Ma, V.Sethu, E. Ambikairajah, K.A. Lee, Twin model G-PLDA for duration mismatch compensation in text-independent speaker verification, in Interspeech (2016), pp. 1853\u20131857"},{"issue":"12","key":"1315_CR22","doi-asserted-by":"publisher","first-page":"1775","DOI":"10.1109\/LSP.2018.2874814","volume":"25","author":"J Ma","year":"2018","unstructured":"J. Ma, V. Sethu, E. Ambikairajah, K.A. Lee, Generalized variability model for speaker verification. IEEE Signal Process. Lett. 25(12), 1775\u20131779 (2018)","journal-title":"IEEE Signal Process. Lett."},{"issue":"11","key":"1315_CR23","doi-asserted-by":"publisher","first-page":"1815","DOI":"10.1109\/TASLP.2019.2928143","volume":"27","author":"N Maghsoodi","year":"2019","unstructured":"N. Maghsoodi, H. Sameti, H. Zeinali, T. Stafylakis, Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors. IEEE\/ACM Trans. Audio Speech Lang. Process. 27(11), 1815\u20131825 (2019)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"1","key":"1315_CR24","doi-asserted-by":"publisher","first-page":"130","DOI":"10.1109\/TASLP.2015.2499038","volume":"24","author":"MW Mak","year":"2016","unstructured":"M.W. Mak, X. Pang, J.T. Chien, Mixture of PLDA for noise robust i-vector speaker verification. IEEE\/ACM Trans. Audio Speech Lang. Process. 24(1), 130\u2013142 (2016)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"1315_CR25","unstructured":"A. Nagrani, J. Chung, A. Zisserman, VoxCeleb: a large-scale speaker identification dataset, in Interspeech (2017), pp. 2616\u20132620"},{"issue":"2","key":"1315_CR26","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1142\/S0219843615500322","volume":"13","author":"MA Nematollahi","year":"2016","unstructured":"M.A. Nematollahi, S.A.R. Al-Haddad, Distant speaker recognition: an overview. Int. J. Humanoid Robot. 13(2), 1\u201345 (2016)","journal-title":"Int. J. Humanoid Robot."},{"key":"1315_CR27","unstructured":"S.J.D. Prince, J.H. Elder, Probabilistic linear discriminant analysis for inferences about identity, in Proceedings of IEEE International Conference on Computer Vision (2007), pp. 1\u20138"},{"key":"1315_CR28","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1006\/dspr.1999.0361","volume":"10","author":"DA Reynolds","year":"2000","unstructured":"D.A. Reynolds, T.F. Quatieri, R.B. Dunn, Speaker verification using adapted Gaussian mixture models. Digital Signal Process. 10, 19\u201341 (2000)","journal-title":"Digital Signal Process."},{"issue":"4","key":"1315_CR29","first-page":"1","volume":"1","author":"SO Sadjadi","year":"2013","unstructured":"S.O. Sadjadi, M. Slaney, A.L. Heck, MSR identity toolbox v1.0: A MATLAB toolbox for speaker recognition research. Speech Lang. Process. Tech. Comm. Newsl. 1(4), 1\u201332 (2013)","journal-title":"Speech Lang. Process. Tech. Comm. Newsl."},{"issue":"3","key":"1315_CR30","doi-asserted-by":"publisher","first-page":"504","DOI":"10.1109\/TASLP.2016.2515506","volume":"24","author":"SE Shepstone","year":"2016","unstructured":"S.E. Shepstone, K.A. Lee, H. Li, Z. Tan, S.H. Jensen, Total variability modeling using source-specific priors. IEEE\/ACM Trans. Audio Speech Lang. Process. 24(3), 504\u2013517 (2016)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"2","key":"1315_CR31","doi-asserted-by":"publisher","first-page":"276","DOI":"10.1109\/TEVC.2017.2712906","volume":"22","author":"A Sinha","year":"2018","unstructured":"A. Sinha, P. Malo, K. Deb, A review on bilevel optimization: from classical to evolutionary approaches and applications. IEEE Trans. Evol. Comput. 22(2), 276\u2013295 (2018)","journal-title":"IEEE Trans. Evol. Comput."},{"key":"1315_CR32","unstructured":"D. Snyder, D. Garcia-Romero, D. Povey, S. Khudanpur, Deep neural network embeddings for text-independent speaker verification, in Interspeech (2017), pp. 999\u20131003"},{"key":"1315_CR33","unstructured":"D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, S. Khudanpur, X-vectors: robust DNN embeddings for speaker recognition, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (2018), pp. 5329\u20135333"},{"issue":"3","key":"1315_CR34","doi-asserted-by":"publisher","first-page":"611","DOI":"10.1111\/1467-9868.00196","volume":"61","author":"M Tipping","year":"1999","unstructured":"M. Tipping, C. Bishop, Probabilistic principal component analysis. J. R. Stat. Soc. Ser. B (Stat. Method) 61(3), 611\u2013622 (1999)","journal-title":"J. R. Stat. Soc. Ser. B (Stat. Method)"},{"key":"1315_CR35","doi-asserted-by":"publisher","first-page":"43","DOI":"10.1016\/j.csl.2018.07.003","volume":"53","author":"R Travadi","year":"2019","unstructured":"R. Travadi, S. Narayanan, Efficient estimation and model generalization for the total variability model. Comput. Speech Lang. 53, 43\u201364 (2019)","journal-title":"Comput. Speech Lang."},{"issue":"6","key":"1315_CR36","doi-asserted-by":"publisher","first-page":"893","DOI":"10.1109\/LSP.2019.2910400","volume":"26","author":"R Travadi","year":"2019","unstructured":"R. Travadi, S. Narayanan, Total variability layer in deep neural network embeddings for speaker verification. IEEE Signal Process. Lett. 26(6), 893\u2013897 (2019)","journal-title":"IEEE Signal Process. Lett."},{"key":"1315_CR37","unstructured":"E. Variani, X. Lei, E. McDermott, I.L. Moreno, J. Gonzalez-Dominguez, Deep neural networks for small footprint text-dependent speaker verification, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (2014), pp. 4080\u20134084"},{"key":"1315_CR38","unstructured":"V. Vestman, T. Kinnunen, Supervector compression strategies to speed up i-vector system development (2018). arXiv preprint arXiv: 1805.01156"},{"issue":"12","key":"1315_CR39","doi-asserted-by":"publisher","first-page":"2327","DOI":"10.1109\/TASLP.2016.2607343","volume":"24","author":"J Villalba","year":"2016","unstructured":"J. Villalba, A. Miguel, A. Ortega, E. Lleida, Bayesian networks to model the variability of speaker verification scores in adverse environments. IEEE\/ACM Trans. Audio Speech Lang. Process. 24(12), 2327\u20132340 (2016)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"9","key":"1315_CR40","doi-asserted-by":"publisher","first-page":"3393","DOI":"10.1007\/s00034-015-0206-2","volume":"35","author":"Y Xu","year":"2016","unstructured":"Y. Xu, I. Mcloughlin, Y. Song, Improved i-vector representation for speaker diarization. Circuits Syst. Signal Process. 35(9), 3393\u20133404 (2016)","journal-title":"Circuits Syst. Signal Process."},{"key":"1315_CR41","unstructured":"Y. Yang, S. Wang, M. Sun, Y. Qian, K. Yu, Generative adversarial networks based x-vector augmentation for robust probabilistic linear discriminant analysis in speaker verification, in 2018 11th International Symposium on Chinese Spoken Language Processing (2018), pp. 205\u2013209"},{"key":"1315_CR42","unstructured":"Y.Q. Yu, L. Fan, W.J. Li, Ensemble additive margin softmax for speaker verification, in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (2019), pp. 6046\u20136050"},{"issue":"9","key":"1315_CR43","doi-asserted-by":"publisher","first-page":"1633","DOI":"10.1109\/TASLP.2018.2831456","volume":"26","author":"C Zhang","year":"2018","unstructured":"C. Zhang, K. Koishida, J.H.L. Hansen, Text-independent speaker verification based on triplet convolutional neural network embeddings. IEEE\/ACM Trans. Audio Speech Lang. Process. 26(9), 1633\u20131644 (2018)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-019-01315-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00034-019-01315-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-019-01315-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,11,26]],"date-time":"2020-11-26T00:42:32Z","timestamp":1606351352000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00034-019-01315-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,11,27]]},"references-count":43,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2020,6]]}},"alternative-id":["1315"],"URL":"https:\/\/doi.org\/10.1007\/s00034-019-01315-7","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2019,11,27]]},"assertion":[{"value":"25 June 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 November 2019","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 November 2019","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 November 2019","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}