{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,9,6]],"date-time":"2024-09-06T11:00:59Z","timestamp":1725620459594},"publisher-location":"Berlin, Heidelberg","reference-count":14,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783540406341"},{"type":"electronic","value":"9783540451136"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2003]]},"DOI":"10.1007\/3-540-45113-7_48","type":"book-chapter","created":{"date-parts":[[2007,8,16]],"date-time":"2007-08-16T11:21:55Z","timestamp":1187263315000},"page":"488-499","source":"Crossref","is-referenced-by-count":30,"title":["Speaker Localisation Using Audio-Visual Synchrony: An Empirical Study"],"prefix":"10.1007","author":[{"given":"Harriet J.","family":"Nock","sequence":"first","affiliation":[]},{"given":"Giridharan","family":"Iyengar","sequence":"additional","affiliation":[]},{"given":"Chalapathy","family":"Neti","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2003,6,24]]},"reference":[{"key":"48_CR1","doi-asserted-by":"publisher","first-page":"170","DOI":"10.1155\/S1110865703211173","volume":"2","author":"W. Adams","year":"2003","unstructured":"W. Adams, G. Iyengar, C.-Y. Lin, M. R. Naphade, C. Neti, H. J. Nock, and J. R. Smith. Semantic Indexing of Multimedia Content Using Visual, Audio and Text Cues. Eurasip Journal on Applied Signal Processing, 2:170\u2013185, 2003.","journal-title":"Eurasip Journal on Applied Signal Processing"},{"key":"48_CR2","doi-asserted-by":"crossref","unstructured":"T. Butz and J.-P. Thiran. Feature Space Mutual Information In Speech-Video Sequences. In Proc. ICME, Lausanne, Switzerland, 2002.","DOI":"10.1109\/ICME.2002.1035605"},{"key":"48_CR3","unstructured":"S. Chen and P. Gopalakrishnan. Speaker, Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion. In Proc. DARPA Broadcast News Transcription & Understanding Workshop, VA, USA, 1998."},{"key":"48_CR4","doi-asserted-by":"crossref","unstructured":"J. Connell, N. Haas, E. Marcheret, C. Neti, G. Potamianos, and S. Velipasalar. A Real-Time Prototype for Small-Vocabulary Audio-Visual ASR. In ICME (Submitted), 2003.","DOI":"10.1109\/ICME.2003.1221655"},{"key":"48_CR5","doi-asserted-by":"crossref","unstructured":"T.M. Cover and J.A. Thomas. Elements of Information Theory. Wiley-Interscience, 1991.","DOI":"10.1002\/0471200611"},{"key":"48_CR6","unstructured":"R. Cutler and L. Davis. Look Who\u2019s Talking: Speaker Detection using Video and Audio Correlation. In Proc. ICME, NY, USA, 2000."},{"key":"48_CR7","doi-asserted-by":"crossref","unstructured":"J.W. Fisher III and T. Darrell. Informative Subspaces for Audiovisual Processing: High-Level Function from Low-Level Fusion. In Proc. ICASSP, 2002.","DOI":"10.1109\/ICASSP.2002.1004821"},{"key":"48_CR8","first-page":"661","volume":"2","author":"R. Gopinath","year":"1998","unstructured":"R. Gopinath. Maximum Likelihood Modeling with Gaussian Distributions for Classification. In Proc. ICASSP, volume 2, pages 661\u2013664, WA, USA, 1998.","journal-title":"Proc. ICASSP"},{"key":"48_CR9","unstructured":"J. Hershey and J. Movellan. Using Audio-Visual Synchrony to Locate Sounds. In Proc. NIPS, 1999."},{"key":"48_CR10","doi-asserted-by":"crossref","unstructured":"G. Iyengar, H. Nock, and C. Neti. Audio-Visual Synchrony for Detection of Monologues in Video Archives. In Proc. ICASSP, Hong Kong, 2003.","DOI":"10.1109\/ICME.2003.1220921"},{"key":"48_CR11","doi-asserted-by":"crossref","unstructured":"H. Nock, G. Iyengar, and C. Neti. Assessing Face and Speech Consistency for Monologue Detection in Video. In Proc. ACM Multimedia, Juan-les-Pins, France, 2002.","DOI":"10.1145\/641007.641070"},{"key":"48_CR12","doi-asserted-by":"publisher","first-page":"1189","DOI":"10.1155\/S1110865702206101","volume":"11","author":"E. Patterson","year":"2002","unstructured":"E. Patterson, S. Gurbuz, Z. Tufekci, and J. Gowdy. Moving Talker, Speaker-Independent Feature Study and Baseline Results Using the CUAVE Multimodal Speech Corpus. Eurasip Journal on Applied Signal Processing, 11:1189\u20131201, 2002.","journal-title":"Eurasip Journal on Applied Signal Processing"},{"key":"48_CR13","doi-asserted-by":"crossref","unstructured":"G. Potamianos, J. Luettin, and C. Neti. Hierarchical Discriminant Features for Audio-Visual LVCSR. In Proc. ICASSP, pages 165\u2013168, 2001.","DOI":"10.1109\/ICASSP.2001.940793"},{"key":"48_CR14","unstructured":"M. Slaney and M. Covell. FaceSync: a linear operator for measuring synchronization of video facial images and audio tracks. In Proc. NIPS, 2001."}],"container-title":["Lecture Notes in Computer Science","Image and Video Retrieval"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/3-540-45113-7_48","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,5,2]],"date-time":"2019-05-02T04:31:33Z","timestamp":1556771493000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/3-540-45113-7_48"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2003]]},"ISBN":["9783540406341","9783540451136"],"references-count":14,"URL":"https:\/\/doi.org\/10.1007\/3-540-45113-7_48","relation":{},"ISSN":["0302-9743"],"issn-type":[{"type":"print","value":"0302-9743"}],"subject":[],"published":{"date-parts":[[2003]]}}}