{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,30]],"date-time":"2026-06-30T15:38:57Z","timestamp":1782833937335,"version":"3.54.5"},"reference-count":130,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2012,2,1]],"date-time":"2012-02-01T00:00:00Z","timestamp":1328054400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2012,2]]},"DOI":"10.1109\/tasl.2011.2125954","type":"journal-article","created":{"date-parts":[[2012,1,31]],"date-time":"2012-01-31T18:28:23Z","timestamp":1328034503000},"page":"356-370","source":"Crossref","is-referenced-by-count":454,"title":["Speaker Diarization: A Review of Recent Research"],"prefix":"10.1109","volume":"20","author":[{"given":"Xavier","family":"Anguera Miro","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"S.","family":"Bozonnet","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"N.","family":"Evans","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"C.","family":"Fredouille","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"G.","family":"Friedland","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"O.","family":"Vinyals","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","article-title":"Speaker segmentation and clustering in meetings","author":"jin","year":"2004","journal-title":"Proc ICSLP"},{"key":"ref38","article-title":"The NIST 2004 spring rich transcription evaluation: Two-axis merging strategy in the context of multiple distant microphone based meeting speaker segmentation","author":"fredouille","year":"2004","journal-title":"Proc NIST 2004 Spring Rich Transcript Eval Workshop"},{"key":"ref33","first-page":"127","article-title":"Speaker, environment and channel change detection and clustering via the bayesian information criterion","author":"chen","year":"1998","journal-title":"Proc DARPA Broadcast News Transcription and Understanding Workshop"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2006.1660198"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2003.1318476"},{"key":"ref30","article-title":"Friends and enemies: A novel initialization for speaker diarization","author":"anguera","year":"2006","journal-title":"Proc ICSLP"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/s10579-007-9054-4"},{"key":"ref36","article-title":"The AMI meeting corpus","author":"mccowan","year":"2005","journal-title":"Proc Measuring Behavior"},{"key":"ref35","article-title":"The ICSI meeting project: Resources and research","author":"janin","year":"2004","journal-title":"Proc ICASSP Meeting Recognition Workshop"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/79.317924"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2007.4430196"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2011.5947336"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ISM.2010.26"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1080\/03610919408813196"},{"key":"ref22","article-title":"Variational inference in graphical models: The view from the marginal polytope","author":"wainwright","year":"2003","journal-title":"Proc 41st Annu Allerton Conf Commun Control Comput"},{"key":"ref21","first-page":"5","article-title":"Keeping the neural networks simple by minimizing the description length of the weights","author":"hinton","year":"1993","journal-title":"Proc 6th Annu Conf Comput Learn Theory"},{"key":"ref24","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2009-322","article-title":"A study of new approaches to speaker diarization","author":"reynolds","year":"2009","journal-title":"Proc INTERSPEECH"},{"key":"ref23","author":"valente","year":"2005","journal-title":"Variational Bayesian methods for audio indexing"},{"key":"ref101","author":"boakye","year":"2008","journal-title":"Audio segmentation for meetings speech processing"},{"key":"ref26","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2010-159","article-title":"A novel speaker binary key derived from anchor models","author":"anguera","year":"2010","journal-title":"Proc INTERSPEECH"},{"key":"ref100","author":"trueba-hornero","year":"2008","journal-title":"Handling overlapped speech in speaker diarization"},{"key":"ref25","author":"kenny","year":"2008","journal-title":"?Bayesian Analysis of Speaker Diarization with Eigenvoice Priors ? Technical Report"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.5772\/4740"},{"key":"ref51","first-page":"359","article-title":"Technical improvements of the E-HMM based speaker diarization system for meeting records","author":"fredouille","year":"2006","journal-title":"Proc MLMI Third Int Workshop Bethesda MD USA Revised Selected Paper"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2002.804546"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4960529"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4960523"},{"key":"ref56","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2009-271","article-title":"Speaker diarization for meeting room audio","author":"sun","year":"2009","journal-title":"Proc Interspeech'09"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ODYSSEY.2006.248109"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.367247"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/11965152_34"},{"key":"ref52","first-page":"475","article-title":"Progress in the AMIDA speaker diarization system for meeting data","author":"leeuwen","year":"2008","journal-title":"Proc Multimodal Technol for Percept of Humans Int Eval Workshops CLEAR 2007 and RT 2007 Baltimore MD May 8?11 2007 Revised Selected Papers"},{"key":"ref40","article-title":"NIST RT05S evaluation: Pre-processing techniques and speaker diarization on multiple microphone meetings","author":"istrate","year":"2005","journal-title":"Proc NIST 2005 Spring Rich Transcript Eval Workshop"},{"key":"ref4","author":"anguera","year":"2006","journal-title":"Robust speaker diarization for meetings"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2006.1660196"},{"key":"ref6","first-page":"533","article-title":"Multi-stage speaker diarization for conference and lecture meetings","author":"zhu","year":"2008","journal-title":"Proc Multimodal Technol Perception of Humans Int Eval Workshops CLEAR 2007 and RT 2007 Baltimore MD May 8?11 2007 Revised Selected Papers"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2008.925152"},{"key":"ref8","article-title":"Robust speaker diarization for meetings: ICSI RT06s evaluation system","author":"anguera","year":"2006","journal-title":"Proc ICSLP"},{"key":"ref49","article-title":"Towards robust speaker segmentation: The ICSI-SRI fall 2004 diarization system","author":"wooters","year":"2004","journal-title":"Proc Fall 2004 Rich Transcript Workshop (RT04)"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2009.01.012"},{"key":"ref9","doi-asserted-by":"crossref","first-page":"509","DOI":"10.1007\/978-3-540-68585-2_47","article-title":"The ICSI RT07s speaker diarization system","author":"wooters","year":"2008","journal-title":"Multimodal Technologies for Perception of Humans International Evaluation Workshops CLEAR 2007 and RT 2007 Baltimore MD USA May 8?11 2007 Revised Selected Papers"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2004.832988"},{"key":"ref45","first-page":"4","article-title":"Qualcomm-ICSI-OGI features for ASR","volume":"1","author":"adami","year":"2002","journal-title":"Proc ICSLP"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1002\/9780470714089"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TAP.1982.1142739"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.902460"},{"key":"ref41","article-title":"Robust speaker segmentation for meetings: The ICSI-SRI spring 2005 diarization system","author":"anguera","year":"2005","journal-title":"Proc NIST MLMI Meeting Recognition Workshop"},{"key":"ref44","doi-asserted-by":"crossref","DOI":"10.7551\/mitpress\/2946.001.0001","author":"wiener","year":"1949","journal-title":"Extrapolation Interpolation and Smoothing of Stationary Time Series"},{"key":"ref43","author":"anguera","year":"0","journal-title":"BeamformIt (The Fast and Robust Acoustic Beamformer)"},{"key":"ref127","article-title":"Infinite models for speaker clustering","author":"valente","year":"2006","journal-title":"Proc Int Conf Spoken Lang Process"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1214\/aos\/1176342360"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2007.905088"},{"key":"ref124","article-title":"Speaker diarization: Combination of the LIUM and IRIT systems","author":"el-khoury","year":"2008","journal-title":"internal report"},{"key":"ref73","article-title":"A novel method for two speaker segmentation","author":"gangadharaiah","year":"2004","journal-title":"Proc ICSLP"},{"key":"ref72","doi-asserted-by":"crossref","first-page":"20","DOI":"10.21437\/Interspeech.2008-3","article-title":"Agglomerative hierarchical speaker clustering using incremental Gaussian mixture cluster modeling","author":"han","year":"2008","journal-title":"Proc Interspeech'08"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390196"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(00)00027-3"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1198\/016214506000000302"},{"key":"ref70","first-page":"873","article-title":"Segregation of speakers for speech recognition and speaker identification","author":"siu","year":"1991","journal-title":"Proc ICASSP'91"},{"key":"ref76","first-page":"3073","article-title":"Modified DISTBIC algorithm for speaker change detection","author":"zochov\ufffd","year":"2005","journal-title":"Proc 9th Eur Conf Speech Commun Technol"},{"key":"ref130","first-page":"1857","article-title":"The blame game: Performance analysis of speaker diarization system components","author":"huijbregts","year":"2007","journal-title":"Proc INTERSPEECH"},{"key":"ref77","first-page":"396","article-title":"Speaker diarization: From broadcast news to lectures","author":"zhu","year":"2006","journal-title":"Proc MLMI"},{"key":"ref74","doi-asserted-by":"crossref","first-page":"1031","DOI":"10.21437\/Eurospeech.1999-167","article-title":"Fast speaker change detection for broadcast news transcription and indexing","author":"liu","year":"1999","journal-title":"Proc Eurospeech'99"},{"key":"ref75","first-page":"97","article-title":"Automatic segmentation, classification and clustering of broadcast news audio","author":"siegler","year":"1997","journal-title":"Proc DARPA Speech Recognit Workshop"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2008.4518624"},{"key":"ref79","article-title":"Experiments on speaker tracking and segmentation in radio broadcast news","author":"moraru","year":"2005","journal-title":"Proc ICSLP"},{"key":"ref60","first-page":"3073","article-title":"Improving speaker segmentation via speaker identification and text segmentation","author":"li","year":"2009","journal-title":"Proc INTERSPEECH"},{"key":"ref62","doi-asserted-by":"crossref","first-page":"371","DOI":"10.1007\/11965152_33","volume":"4299","author":"van leeuwen","year":"2007","journal-title":"Machine Learning for Multimodal Interaction"},{"key":"ref61","article-title":"Speaker diarization using bottom-up clustering based on a parameter-derived distance between adapted gmms","author":"ben","year":"2004","journal-title":"Proc ICSLP"},{"key":"ref63","first-page":"873","article-title":"The cost278 pan-European broadcast news database","volume":"4","author":"vandecatseye","year":"2004","journal-title":"Proc LREC"},{"key":"ref64","first-page":"413","article-title":"Speaker change detection and speaker clustering using VQ distortion for broadcast news speech recognition","author":"mori","year":"2001","journal-title":"Proc ICASSP"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2004.831666"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2002.1048313"},{"key":"ref67","article-title":"Evolutive speaker segmentation using a repository system","author":"anguera","year":"2004","journal-title":"Proc INTERSPEECH"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2005.1566478"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.878256"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2006.873656"},{"key":"ref1","year":"2009","journal-title":"?The NIST Rich Transcription 2009 (RT'09) Evaluation ?"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1023\/B:VLSI.0000015091.47302.07"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2040796"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.47"},{"key":"ref94","volume":"4343","author":"shriberg","year":"2007","journal-title":"Speaker Classification I"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1023\/A:1007425814087"},{"key":"ref93","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2009-274","article-title":"Speaker identification using warped MVDR cepstral features","author":"w\ufffdlfel","year":"2009","journal-title":"Proc INTERSPEECH"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1145\/1322192.1322254"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4960520"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.2006.285274"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/TC.2007.1077"},{"key":"ref104","first-page":"565","article-title":"Speaker localization using audio-visual synchrony: An empirical study","volume":"2728","author":"nock","year":"2003","journal-title":"Lecture Notes in Comput Sci"},{"key":"ref90","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2006-570","article-title":"Speaker diarization for multiple distant microphone meetings: Mixing acoustic features and inter-channel time differences","author":"pardo","year":"2006","journal-title":"Proc INTERSPEECH"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00032-6"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2007.4430194"},{"key":"ref111","first-page":"772","article-title":"Learning joint statistical models for audio-visual fusion and segregation","author":"fisher","year":"2000","journal-title":"Proc NIPS"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2004.827503"},{"key":"ref110","first-page":"2056","article-title":"Cross-modal prediction in audio-visual communication","volume":"4","author":"chen","year":"1996","journal-title":"Proc ICASSP"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2006.1660031"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2008.4518619"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2009.5373254"},{"key":"ref97","doi-asserted-by":"crossref","first-page":"1359","DOI":"10.21437\/Eurospeech.2001-352","article-title":"Observations on overlap: Findings and implications for automatic processing of multi-party conversations","author":"shriberg","year":"2001","journal-title":"Proc Eurospeech'01"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2006.1661327"},{"key":"ref11","author":"tsai","year":"2004","journal-title":"Proc ICSLP"},{"key":"ref12","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2008-7","article-title":"T-test distance and clustering criterion for speaker diarization","author":"nguyen","year":"2008","journal-title":"Proc INTERSPEECH"},{"key":"ref13","article-title":"The IIR-NTU speaker diarization systems for RT 2009","author":"nguyen","year":"2009","journal-title":"Proc RT'09 NIST Rich Transcription Workshop"},{"key":"ref14","first-page":"175","article-title":"E-HMM approach for learning and adapting sound models for speaker indexing","author":"meignier","year":"2001","journal-title":"Proc Odyssey Speaker and Lang Recognition Workshop"},{"key":"ref15","first-page":"520","article-title":"The LIA RT'07 speaker diarization system","author":"fredouille","year":"2008","journal-title":"Proc Multimodal Technol for Perception of Humans Int Eval Workshops CLEAR 2007 and RT 2007 Baltimore MD USA May 8?11 2007 Revised Selected Papers"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2008.4563178"},{"key":"ref16","article-title":"The LIA-EURECOM RT'09 speaker diarization system","author":"fredouille","year":"2009","journal-title":"Proc RT'09 NIST Rich Transcription Workshop"},{"key":"ref82","article-title":"Towards audio-visual on-line diarization of participants in group meetings","author":"hung","year":"2008","journal-title":"Proc Workshop Multi-Camera and Multi-Modal Sensor Fusion Algorithms and Applications"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2006.283"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2010.5495088"},{"key":"ref81","first-page":"1861","article-title":"Trainable speaker diarization","author":"aronowitz","year":"2007","journal-title":"Proc INTERSPEECH"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2007.4430119"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2015089"},{"key":"ref119","article-title":"Working with very sparse data to detect speaker and listener participation in a meetings corpus","volume":"10","author":"campbell","year":"2006","journal-title":"Proc Workshop Programme"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2015698"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1145\/1459359.1459558"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.366271"},{"key":"ref113","article-title":"Exploiting audio-visual correlation in coding of talking head sequences","author":"rao","year":"1996","journal-title":"Proc Int Picture Coding Symp"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511620850"},{"key":"ref80","article-title":"Improving speaker diarization","author":"barras","year":"2004","journal-title":"Proc DARPA RT04'S"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2002.1006168"},{"key":"ref120","first-page":"4069","article-title":"Multimodal speaker diarization of real-world meetings using compressed-domain video features","author":"friedland","year":"2009","journal-title":"Proc ICASSP"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2004.1326058"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1145\/1631272.1631301"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2005.08.002"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2008.4518621"},{"key":"ref85","first-page":"543","article-title":"Speaker diarization for conference room: The UPC RT07s evaluation system","author":"luque","year":"2008","journal-title":"Proc Multimodal Technol Perception of Humans Int Eval Workshops CLEAR 2007 and RT 2007 Baltimore MD May 8?11 2007 Revised Selected Papers"},{"key":"ref86","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2006-570","article-title":"Speaker diarization for multiple distant microphone meetings: Mixing acoustic features and inter-channel time differences","author":"pardo","year":"2006","journal-title":"Proc INTERSPEECH"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2003.1198745"},{"key":"ref88","article-title":"Speaker turn detection based on between-channels differences","author":"ellis","year":"2004","journal-title":"Proc ICASSP"}],"container-title":["IEEE Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx5\/10376\/6099652\/06135543.pdf?arnumber=6135543","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,6,14]],"date-time":"2023-06-14T05:48:50Z","timestamp":1686721730000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/6135543\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012,2]]},"references-count":130,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tasl.2011.2125954","relation":{},"ISSN":["1558-7916","1558-7924"],"issn-type":[{"value":"1558-7916","type":"print"},{"value":"1558-7924","type":"electronic"}],"subject":[],"published":{"date-parts":[[2012,2]]}}}