{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,13]],"date-time":"2025-12-13T23:06:41Z","timestamp":1765667201265,"version":"3.41.0"},"publisher-location":"Cham","reference-count":45,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319672199"},{"type":"electronic","value":"9783319672205"}],"license":[{"start":{"date-parts":[[2017,9,2]],"date-time":"2017-09-02T00:00:00Z","timestamp":1504310400000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-319-67220-5_10","type":"book-chapter","created":{"date-parts":[[2017,9,1]],"date-time":"2017-09-01T11:19:00Z","timestamp":1504264740000},"page":"107-117","source":"Crossref","is-referenced-by-count":17,"title":["Speaker Diarization Using Deep Recurrent Convolutional Neural Networks for Speaker Embeddings"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4981-3670","authenticated-orcid":false,"given":"Pawel","family":"Cyrta","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1486-8906","authenticated-orcid":false,"given":"Tomasz","family":"Trzci\u0144ski","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8076-4750","authenticated-orcid":false,"given":"Wojciech","family":"Stokowiec","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,9,2]]},"reference":[{"issue":"2","key":"10_CR1","doi-asserted-by":"crossref","first-page":"356","DOI":"10.1109\/TASL.2011.2125954","volume":"20","author":"XA Miro","year":"2012","unstructured":"Miro, X.A., Bozonnet, S., Evans, N.W.D., Fredouille, C., Friedland, G., Vinyals, O.: Speaker diarization: a review of recent research. IEEE Trans. Audio Speech Lang. Process. 20(2), 356\u2013370 (2012)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"10_CR2","doi-asserted-by":"crossref","unstructured":"Gupta, V., Kenny, P., Ouellet, P., Stafylakis, T.: I-vector-based speaker adaptation of deep neural networks for French broadcast audio transcription. In: ICASSP (2014)","DOI":"10.1109\/ICASSP.2014.6854823"},{"key":"10_CR3","doi-asserted-by":"crossref","unstructured":"Liu, Y., Tian, Y., He, L., Liu, J.: Investigating various diarization algorithms for speaker in the wild (SITW) speaker recognition challenge. In: Interspeech (2016)","DOI":"10.21437\/Interspeech.2016-1144"},{"key":"10_CR4","doi-asserted-by":"crossref","unstructured":"Le Lan, G., Meignier, S., Charlet, D., Deleglise, P.: Speaker diarization with unsupervised training framework. In: ICASSP (2016)","DOI":"10.1109\/ICASSP.2016.7472741"},{"key":"10_CR5","unstructured":"Woubie, A., Luque, J., Hernando, J.: Short-and long-term speech features for hybrid hmm-i-vector based speaker diarization system. In: Odyssey (2016)"},{"key":"10_CR6","doi-asserted-by":"crossref","unstructured":"Bredin, H., Gelly, G.: Improving speaker diarization of tv series using talking-face detection and clustering. In: ACM on Multimedia Conference (2016)","DOI":"10.1145\/2964284.2967202"},{"issue":"9","key":"10_CR7","doi-asserted-by":"crossref","first-page":"3393","DOI":"10.1007\/s00034-015-0206-2","volume":"35","author":"Y Xu","year":"2016","unstructured":"Xu, Y., McLoughlin, I., Song, Y., Wu, K.: Improved i-vector representation for speaker diarization. Circ. Syst. Sig. Process. 35(9), 3393\u20133404 (2016)","journal-title":"Circ. Syst. Sig. Process."},{"key":"10_CR8","doi-asserted-by":"crossref","unstructured":"Ferras, M., Madikeri, S., Motlicek, P., Bourlard, H.: Systemfusion and speaker linking for longitudinal diarization of tv shows. In: ICASSP (2016)","DOI":"10.1109\/ICASSP.2016.7472728"},{"key":"10_CR9","first-page":"374","volume":"116","author":"P Mermelstein","year":"1976","unstructured":"Mermelstein, P.: Distance measures for speech recognition, psychological and instrumental. Pattern Recog. Artif. Intell. 116, 374\u2013388 (1976)","journal-title":"Pattern Recog. Artif. Intell."},{"issue":"4","key":"10_CR10","doi-asserted-by":"crossref","first-page":"1738","DOI":"10.1121\/1.399423","volume":"87","author":"H Hermansky","year":"1990","unstructured":"Hermansky, H.: Perceptual linear predictive (PLP) analysis of speech. J. Acoust. Soc. Am. 87(4), 1738\u20131752 (1990)","journal-title":"J. Acoust. Soc. Am."},{"issue":"4","key":"10_CR11","doi-asserted-by":"crossref","first-page":"578","DOI":"10.1109\/89.326616","volume":"2","author":"H Hermansky","year":"1994","unstructured":"Hermansky, H., Morgan, N.: Rasta processing of speech. IEEE Trans. Audio Speech Lang. Process. 2(4), 578\u2013589 (1994)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"10_CR12","doi-asserted-by":"crossref","unstructured":"Sainath, T.N., Kingsbury, B., Mohamed, A., Ramabhadran, B.: Learning filter banks within a deep neural network framework. In: Workshop on Automatic Speech Recognition and Understanding (2013)","DOI":"10.1109\/ASRU.2013.6707746"},{"key":"10_CR13","doi-asserted-by":"crossref","unstructured":"Zhu, Z., Engel, J.H., Hannun, A.Y.: Learning multiscale features directly from waveforms. In: Interspeech (2016)","DOI":"10.21437\/Interspeech.2016-256"},{"key":"10_CR14","doi-asserted-by":"crossref","unstructured":"Hoshen, Y., Weiss, R.J., Wilson, K.W.: Speecha coustic modeling from raw multi channel waveforms. In: ICASSP (2015)","DOI":"10.1109\/ICASSP.2015.7178847"},{"key":"10_CR15","doi-asserted-by":"crossref","unstructured":"Palaz, D., Magimai-Doss, M., Collobert, R.: Analysis of CNN-based speech recognition system using raw speech as input. In: Interspeech (2015)","DOI":"10.21437\/Interspeech.2015-3"},{"key":"10_CR16","doi-asserted-by":"crossref","unstructured":"Lukic, Y., Vogt, C., D\u00fcrr, O., Stadelmann, T.: Speaker identification and clustering using convolutional neural networks. In: International Workshop on Machine Learning for Signal Processing (MLSP) (2016)","DOI":"10.1109\/MLSP.2016.7738816"},{"key":"10_CR17","doi-asserted-by":"crossref","unstructured":"Zuo, Z., Shuai, B., Wang, G., Liu, X., Wang, X., Wang, B., Chen, Y.: Convolutional recurrent neural networks: learning spatial dependencies for image representation. In: CVPR (2015)","DOI":"10.1109\/CVPRW.2015.7301268"},{"key":"10_CR18","doi-asserted-by":"crossref","unstructured":"Cakir, E., Adavanne, S., Parascandolo, G., Drossos, K., Virtanen, T.: Convolutional recurrent neural networks for bird audio detection. In: ICASSP (2017)","DOI":"10.23919\/EUSIPCO.2017.8081508"},{"key":"10_CR19","doi-asserted-by":"crossref","unstructured":"Snyder, D., Ghahremani, P., Povey, D., Garcia-Romero, D., Carmiel, Y., Khudanpur, S.: Deep neural network-based speaker embeddings for end-to-end speaker verification. In: IEEE Spoken Language Technology Workshop (2016)","DOI":"10.1109\/SLT.2016.7846260"},{"key":"10_CR20","unstructured":"Yella, S.H.: Speaker diarization of spontaneous meeting room conversations. Ph.D. dissertation, Ecole Polytechnique Federale de Lausanne (2015)"},{"key":"10_CR21","doi-asserted-by":"crossref","unstructured":"Sell, G., Garcia-Romero, D.: Speaker diarization with plda i-vector scoring and unsupervised calibration. In: 2014 IEEE Spoken Language Technology Workshop (2014)","DOI":"10.1109\/SLT.2014.7078610"},{"key":"10_CR22","doi-asserted-by":"crossref","unstructured":"Vesnicer, B., Zganec-Gros, J., Dobrisek, S., Struc, V.: Incorporating duration information into i-vector-based speaker recognition systems. In: Odyssey: The Speaker and Language Recognition Workshop, pp. 241\u2013248 (2014)","DOI":"10.21437\/Odyssey.2014-36"},{"key":"10_CR23","doi-asserted-by":"crossref","unstructured":"Mami, Y., Charlet, D.: Speaker identification by location in an optimal space of anchor models. In: Interspeech (2002)","DOI":"10.21437\/ICSLP.2002-406"},{"key":"10_CR24","doi-asserted-by":"crossref","unstructured":"Rouvier, M., Bousquet, P., Favre, B.: Speaker diarization through speaker embeddings. In: 23rd European Signal Process- ing Conference, EUSIPCO (2015)","DOI":"10.1109\/EUSIPCO.2015.7362751"},{"key":"10_CR25","doi-asserted-by":"crossref","unstructured":"Bredin, H.: Tristounet: triplet loss for speaker turn embedding. CoRR, abs\/1609.04301 (2016)","DOI":"10.1109\/ICASSP.2017.7953194"},{"key":"10_CR26","doi-asserted-by":"crossref","unstructured":"Garcia-Romero, D., Snyder, D., Sell, G., Povey, D., McCree, A.: Speaker diarization using deep neural networks. In: ICASSP (2017)","DOI":"10.1109\/ICASSP.2017.7953094"},{"key":"10_CR27","doi-asserted-by":"crossref","unstructured":"Trigeorgis, G., Ringeval, F., Brueckner, R., Marchi, E., Nicolaou, M.A., Schuller, B., Zafeiriou, S.: Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network. In: ICASSP (2016)","DOI":"10.1109\/ICASSP.2016.7472669"},{"key":"10_CR28","doi-asserted-by":"crossref","unstructured":"Tang, D., Qin, B., Liu, T.: Document modeling with gated recurrent neural network for sentiment classification. In: EMNLP (2015)","DOI":"10.18653\/v1\/D15-1167"},{"key":"10_CR29","doi-asserted-by":"crossref","unstructured":"Choi, K., Fazekas, G., Sandler, M., Cho, K.: Convolutional recurrent neural networks for music classification. arXiv preprint arXiv:1609.04243 (2016)","DOI":"10.1109\/ICASSP.2017.7952585"},{"key":"10_CR30","doi-asserted-by":"crossref","unstructured":"Ghahremani, P., Manohar, V., Povey, D., Khudanpur, S.: Acoustic modelling from the signal domain using CNNs. In: Interspeech 2016 (2016)","DOI":"10.21437\/Interspeech.2016-1495"},{"key":"10_CR31","doi-asserted-by":"crossref","unstructured":"Dieleman, S., Schrauwen, B.: End-to-end learning for music audio. In: ICASSP (2014)","DOI":"10.1109\/ICASSP.2014.6854950"},{"key":"10_CR32","unstructured":"Patterson, R., Nimmo-Smith, I., Holdsworth, J., Rice, P.: An efficient auditory filterbank based on the gammatone function. A meeting of the IOC Speech Group on Auditory Modelling at RSRE, vol. 2(7) (1987)"},{"issue":"1","key":"10_CR33","doi-asserted-by":"crossref","first-page":"425","DOI":"10.1121\/1.400476","volume":"89","author":"JC Brown","year":"1991","unstructured":"Brown, J.C.: Calculation of a constantq spectral transform. J. Acoust. Soc. Am. 89(1), 425\u2013434 (1991)","journal-title":"J. Acoust. Soc. Am."},{"key":"10_CR34","unstructured":"Ioffe, S., Szegedy, C.: Batch normalization: accelerating deep network training by reducing internal covariate shift. CoRR, abs\/1502.03167 (2015)"},{"key":"10_CR35","unstructured":"Chung, J., Gulcehre, C., Cho, K., Bengio, Y.: Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs\/1412.3555 (2014)"},{"key":"10_CR36","unstructured":"Clevert, D., Unterthiner, T., Hochreiter, S.: Fast and accurate deep network learning by exponential linear units (ELUs). CoRR, abs\/1511.07289 (2015)"},{"key":"10_CR37","unstructured":"Hinton, G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.: Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs\/1207.0580 (2012)"},{"key":"10_CR38","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. CoRR, abs\/1412.6980 (2014)"},{"key":"10_CR39","doi-asserted-by":"crossref","unstructured":"Carletta, J., Ashby, S., Bourban, S., Flynn, M., Guillemot, M., Hain, T., Kadlec, J., Karaiskos, V., Kraaij, W., Kronenthal, M., Lathoud, G., Lincoln, M., Lisowska, A., McCowan, I., Post, W., Reidsma, D., Wellner, P.: The ami meeting corpus: a pre-announcement. In: MLMI (2006)","DOI":"10.1007\/11677482_3"},{"key":"10_CR40","doi-asserted-by":"crossref","unstructured":"Janin, A., Baron, D., Edwards, J., Ellis, D., Gelbart, D., Morgan, N., Peskin, B., Pfau, T., Shriberg, E., Stolcke, A., Wooters, C.: The ICSI meeting corpus, pp. 364\u2013367 (2003)","DOI":"10.1109\/ICASSP.2003.1198793"},{"key":"10_CR41","doi-asserted-by":"crossref","unstructured":"Schmidt, L., Sharifi, M., Moreno, I.L.: Large-scale speaker identification. In ICASSP (2014)","DOI":"10.1109\/ICASSP.2014.6853878"},{"key":"10_CR42","unstructured":"Chollet, F.: Keras (2015). https:\/\/github.com\/fchollet\/keras"},{"key":"10_CR43","unstructured":"Al-Rfou, R., et. al.: Theano: a python framework for fast computation of mathematical expressions. CoRR, abs\/1605.02688 (2016)"},{"key":"10_CR44","unstructured":"Meignier, S., Merlin, T.: Lium spkdiarization: an open source toolkit for diarization. In: CMU SPUD Workshop (2010)"},{"key":"10_CR45","doi-asserted-by":"crossref","unstructured":"Hershey, J.R., Chen, Z., Roux, J.L., Watanabe, S.: Deep clustering: discriminative embeddings for segmentation and separation. In: ICASSP (2016)","DOI":"10.1109\/ICASSP.2016.7471631"}],"container-title":["Advances in Intelligent Systems and Computing","Information Systems Architecture and Technology: Proceedings of 38th International Conference on Information Systems Architecture and Technology \u2013 ISAT 2017"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-67220-5_10","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,25]],"date-time":"2025-06-25T13:13:23Z","timestamp":1750857203000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-67220-5_10"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,9,2]]},"ISBN":["9783319672199","9783319672205"],"references-count":45,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-67220-5_10","relation":{},"ISSN":["2194-5357","2194-5365"],"issn-type":[{"type":"print","value":"2194-5357"},{"type":"electronic","value":"2194-5365"}],"subject":[],"published":{"date-parts":[[2017,9,2]]}}}