{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T09:15:33Z","timestamp":1780650933345,"version":"3.54.1"},"reference-count":34,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016,3]]},"DOI":"10.1109\/icassp.2016.7472769","type":"proceedings-article","created":{"date-parts":[[2016,6,24]],"date-time":"2016-06-24T01:58:30Z","timestamp":1466733510000},"page":"5700-5704","source":"Crossref","is-referenced-by-count":10,"title":["Improved DNN-based segmentation for multi-genre broadcast audio"],"prefix":"10.1109","author":[{"given":"L.","family":"Wang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"C.","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"P. C.","family":"Woodland","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"M. J. F.","family":"Gales","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"P.","family":"Karanasou","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"P.","family":"Lanchantin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"X.","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Y.","family":"Qian","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.878264"},{"key":"ref32","article-title":"An open-source state-of-the-art toolbox for broadcast news diarization","author":"rouvier","year":"2013","journal-title":"Proc INTERSPEECH"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2004.1326091"},{"key":"ref30","article-title":"A general artificial neural network extension for HTK","author":"zhang","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2015.7404855"},{"key":"ref10","article-title":"The Cambridge University March 2005 speaker diarization system","author":"sinha","year":"2005","journal-title":"Proc EUROSPEECH"},{"key":"ref11","article-title":"Partitioning and transcription of broadcast news data","author":"gauvain","year":"1998","journal-title":"Proc ICSLP"},{"key":"ref12","article-title":"The MIT Lincoln Laboratory RT-04F diarization systems: Applications to broadcast audio and telephone conversations","author":"reynolds","year":"2004","journal-title":"Proc Fall 2004 Rich Transcription Workshop (RT-04)"},{"key":"ref13","article-title":"Combining speaker identification and BIC for speaker diarization","author":"zhu","year":"2005","journal-title":"Proc EUROSPEECH"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.858055"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2009.02.003"},{"key":"ref16","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2010-588","article-title":"Voice activity detection based on conditional random fields using multiple features","author":"saito","year":"2010","journal-title":"Proc INTERSPEECH"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702000720"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2134090"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2205597"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2015.7404857"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.878256"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2015.7404856"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1994.389676"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2012.05.002"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2015.7404859"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2125954"},{"key":"ref8","first-page":"133","article-title":"Segment generation and clustering in the HTK broadcast news transcription system","author":"hain","year":"1998","journal-title":"Proc DARPA Broadcast News Transcription and Understanding Workshop"},{"key":"ref7","article-title":"Toward robust speaker segmentation: The ICSI-SRI Fall 2004 diarization system","author":"wooters","year":"2004","journal-title":"Proc Fall Rich Transcription Workshop (RT-04)"},{"key":"ref2","article-title":"Robust energy normalization using speech\/nonspeech discriminator for German connected digit recognition","author":"chengalvarayan","year":"1999","journal-title":"Proc EUROSPEECH"},{"key":"ref9","article-title":"Rich transcription 2002 site report. Panasonic speech technology laboratory (PSTL)","author":"nguyen","year":"2002","journal-title":"Proc Rich Transcription Workshop (RT-02)"},{"key":"ref1","article-title":"The MGB challenge: Evaluating multi-genre broadcast media transcription","author":"bell","year":"2015","journal-title":"Proc ASRU Scottsdale"},{"key":"ref20","first-page":"697","article-title":"Deep belief networks based voice activity detection","volume":"21","author":"zhang","year":"2013","journal-title":"IEEE Trans ASLP"},{"key":"ref22","article-title":"Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection","author":"zhang","year":"2014","journal-title":"Proc INTERSPEECH"},{"key":"ref21","article-title":"Speech activity detection on youtube using deep neural networks","author":"ryant","year":"2013","journal-title":"Proc INTERSPEECH"},{"key":"ref24","article-title":"A universal VAD based on jointly trained deep neural networks","author":"wang","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref23","article-title":"A statistical model-based voice activity detection using multiple DNNs and noise awareness","author":"hwang","year":"2015","journal-title":"Proc INTERSPEECH"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6637694"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639096"}],"event":{"name":"2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","location":"Shanghai","start":{"date-parts":[[2016,3,20]]},"end":{"date-parts":[[2016,3,25]]}},"container-title":["2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7465907\/7471614\/07472769.pdf?arnumber=7472769","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,17]],"date-time":"2024-06-17T21:28:12Z","timestamp":1718659692000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7472769\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,3]]},"references-count":34,"URL":"https:\/\/doi.org\/10.1109\/icassp.2016.7472769","relation":{},"subject":[],"published":{"date-parts":[[2016,3]]}}}