{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T15:16:58Z","timestamp":1759331818833,"version":"3.41.0"},"reference-count":21,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,6,6]],"date-time":"2021-06-06T00:00:00Z","timestamp":1622937600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,6,6]],"date-time":"2021-06-06T00:00:00Z","timestamp":1622937600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,6,6]]},"DOI":"10.1109\/icassp39728.2021.9413544","type":"proceedings-article","created":{"date-parts":[[2021,5,13]],"date-time":"2021-05-13T19:53:45Z","timestamp":1620935625000},"page":"7208-7212","source":"Crossref","is-referenced-by-count":13,"title":["A Real-Time Speaker Diarization System Based on Spatial Spectrum"],"prefix":"10.1109","author":[{"given":"Siqi","family":"Zheng","sequence":"first","affiliation":[{"name":"Alibaba Group,Speech Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Weilong","family":"Huang","sequence":"additional","affiliation":[{"name":"Alibaba Group,Speech Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xianliang","family":"Wang","sequence":"additional","affiliation":[{"name":"Alibaba Group,Speech Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongbin","family":"Suo","sequence":"additional","affiliation":[{"name":"Alibaba Group,Speech Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jinwei","family":"Feng","sequence":"additional","affiliation":[{"name":"Alibaba Group,Speech Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhijie","family":"Yan","sequence":"additional","affiliation":[{"name":"Alibaba Group,Speech Lab"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"doi-asserted-by":"publisher","key":"ref10","DOI":"10.1109\/53.665"},{"doi-asserted-by":"publisher","key":"ref11","DOI":"10.1109\/ASRU.2017.8268969"},{"doi-asserted-by":"publisher","key":"ref12","DOI":"10.21437\/Interspeech.2020-1571"},{"year":"2013","author":"brandstein","journal-title":"Microphone Arrays Signal Processing Techniques and Applications","key":"ref13"},{"year":"2018","author":"benesty","journal-title":"Fundamentals of Signal Enhancement and Array Signal Processing","key":"ref14"},{"year":"2000","author":"dibiase","journal-title":"A High-Accuracy Low-Latency Technique for Talker Localization in Reverberant Environments Using Microphone Arrays","key":"ref15"},{"doi-asserted-by":"publisher","key":"ref16","DOI":"10.21437\/Interspeech.2020-1306"},{"doi-asserted-by":"publisher","key":"ref17","DOI":"10.1214\/aos\/1176346577"},{"key":"ref18","first-page":"2616","article-title":"Voxceleb: A large-scale speaker identification dataset","author":"nagrani","year":"2017","journal-title":"INTERSPEECH 2017 - 18th Annual Conference of the International Speech Communication Association"},{"key":"ref19","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-319-14842-7","volume":"12","author":"benesty","year":"2015","journal-title":"Design of Circular Differential Microphone Arrays"},{"doi-asserted-by":"publisher","key":"ref4","DOI":"10.1109\/TASLP.2019.2955293"},{"doi-asserted-by":"publisher","key":"ref3","DOI":"10.1109\/ICASSP.2019.8683892"},{"key":"ref6","doi-asserted-by":"crossref","first-page":"147","DOI":"10.21437\/Odyssey.2018-21","article-title":"Speaker diarization based on bayesian HMM with eigenvoice priors","author":"d\u00edez","year":"2018","journal-title":"Speaker Odyssey 2018 The Speaker and Language Recognition Workshop"},{"doi-asserted-by":"publisher","key":"ref5","DOI":"10.1109\/ICASSP40776.2020.9054251"},{"doi-asserted-by":"publisher","key":"ref8","DOI":"10.1109\/ICASSP40776.2020.9053280"},{"doi-asserted-by":"publisher","key":"ref7","DOI":"10.1109\/ICASSP.2015.7178881"},{"doi-asserted-by":"publisher","key":"ref2","DOI":"10.1109\/ICASSP.2017.7953094"},{"doi-asserted-by":"publisher","key":"ref1","DOI":"10.1109\/ICASSP.2018.8462628"},{"key":"ref9","first-page":"1131","article-title":"Methodologies for the evaluation of speaker diarization and automatic speech recognition in the presence of overlapping speech","author":"galibert","year":"2013","journal-title":"14th Annual Conference of the International Speech Communication Association Interspeech 2013"},{"doi-asserted-by":"publisher","key":"ref20","DOI":"10.1109\/TASL.2007.902460"},{"key":"ref21","article-title":"The kaldi speech recognition toolkit","author":"povey","year":"2011","journal-title":"IEEE Catalog No CFP11SRW-USB"}],"event":{"name":"ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2021,6,6]]},"location":"Toronto, ON, Canada","end":{"date-parts":[[2021,6,11]]}},"container-title":["ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9413349\/9413350\/09413544.pdf?arnumber=9413544","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,27]],"date-time":"2025-05-27T17:07:59Z","timestamp":1748365679000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9413544\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,6,6]]},"references-count":21,"URL":"https:\/\/doi.org\/10.1109\/icassp39728.2021.9413544","relation":{},"subject":[],"published":{"date-parts":[[2021,6,6]]}}}