{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T14:37:40Z","timestamp":1780411060156,"version":"3.54.1"},"publisher-location":"New York, NY, USA","reference-count":28,"publisher":"ACM","license":[{"start":{"date-parts":[[2009,10,19]],"date-time":"2009-10-19T00:00:00Z","timestamp":1255910400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2009,10,19]]},"DOI":"10.1145\/1631272.1631301","type":"proceedings-article","created":{"date-parts":[[2009,10,20]],"date-time":"2009-10-20T08:43:40Z","timestamp":1256028220000},"page":"195-202","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":27,"title":["Visual speaker localization aided by acoustic models"],"prefix":"10.1145","author":[{"given":"Gerald","family":"Friedland","sequence":"first","affiliation":[{"name":"International Computer Science Institute, Berkeley, CA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chuohao","family":"Yeo","sequence":"additional","affiliation":[{"name":"University of California, Berkeley, CA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hayley","family":"Hung","sequence":"additional","affiliation":[{"name":"IDIAP Research Institute, Martigny, Switzerland"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2009,10,19]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Workshop Programme","volume":"10","author":"Campbell N.","year":"2006","unstructured":"N. Campbell and N. Suzuki. Working with Very Sparse Data to Detect Speaker and Listener Participation in a Meetings Corpus. In Workshop Programme, volume 10, May 2006."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1007\/11677482_3"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1996.545722"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2004.827503"},{"key":"e_1_3_2_1_5_1","first-page":"772","volume-title":"Conference on Neural Information Processing Systems (NIPS)","author":"Fisher J. W.","year":"2000","unstructured":"J. W. Fisher, T. Darrell, W. T. Freeman, and P. A. Viola. Learning joint statistical models for audio-visual fusion and segregation. In Conference on Neural Information Processing Systems (NIPS), pages 772--778, 2000."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4960522"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1037\/h0039516"},{"key":"e_1_3_2_1_8_1","volume-title":"PrintPartners Ipskamp","author":"Huijbregts M.","year":"2008","unstructured":"M. Huijbregts. Segmentation, Diarization, and Speech Transcription: Surprise Data Unraveled. PrintPartners Ipskamp, Enschede, The Netherlands, 2008."},{"key":"e_1_3_2_1_9_1","volume-title":"Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications in conjunction with ECCV","author":"Hung H.","year":"2008","unstructured":"H. Hung and G. Friedland. Towards audio-visual on-line diarization of participants in group meetings. In Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications in conjunction with ECCV, Marseille, France, October 2008."},{"key":"e_1_3_2_1_10_1","volume-title":"International Conference on Acoustics, Speech, and Signal Processing","author":"Hung H.","year":"2008","unstructured":"H. Hung, Y. Huang, G. Friedland, and D. Gatica-Perez. Estimating the dominant person in multi-party conversations using speaker diarization strategies. In International Conference on Acoustics, Speech, and Signal Processing, 2008."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2008.4563178"},{"key":"e_1_3_2_1_12_1","volume-title":"CVPR Workshop on Human Communicative Behavior Analysis","author":"Hung H.","year":"2008","unstructured":"H. Hung, Y. Huang, C. Yeo, and D. Gatica-Perez. Correlating audio-visual cues in a dominance estimation framework. In CVPR Workshop on Human Communicative Behavior Analysis, 2008."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1038\/264746a0"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1016\/S0031-3203(98)00066-1"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511620850"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.5555\/1760167.1760228"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1145\/1322192.1322254"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/TC.2007.1077"},{"key":"e_1_3_2_1_19_1","first-page":"2017","volume-title":"International Conference on Acoustics, Speech, and Signal Processing","author":"Patterson E. K.","year":"2002","unstructured":"E. K. Patterson, S. Gurbuz, Z. Tufekci, and J. N. Gowdy. CUAVE: A new audio-visual database for multimodal human-computer interface research. In International Conference on Acoustics, Speech, and Signal Processing, pages 2017--2020, 2002."},{"key":"e_1_3_2_1_20_1","volume-title":"International Picture Coding Symposium","author":"Rao R.","year":"1996","unstructured":"R. Rao and T. Chen. Exploiting audio-visual correlation in coding of talking head sequences. International Picture Coding Symposium, March 1996."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2005.1416463"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.366271"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4757-6363-8_4"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2006.283"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2008.2005602"},{"key":"e_1_3_2_1_26_1","volume-title":"Proceedings of the Rich Transcription 2007 Meeting Recognition Evaluation Workshop","author":"Wooters C.","year":"2007","unstructured":"C. Wooters and M. Huijbregts. The ICSI RT07s speaker diarization system. In Proceedings of the Rich Transcription 2007 Meeting Recognition Evaluation Workshop, 2007."},{"key":"e_1_3_2_1_27_1","unstructured":"C. Yeo and K. Ramchandran. Compressed domain video processing of meetings for activity estimation in dominance classification and slide transition detection. Technical Report UCB\/EECS-2008-79 EECS Department University of California Berkeley Jun 2008."},{"key":"e_1_3_2_1_28_1","volume-title":"Boosting-Based Multimodal Speaker Detection for Distributed Meetings. IEEE International Workshop on Multimedia Signal Processing (MMSP) 2006","author":"Zhang C.","year":"2006","unstructured":"C. Zhang, P. Yin, Y. Rui, R. Cutler, and P. Viola. Boosting-Based Multimodal Speaker Detection for Distributed Meetings. IEEE International Workshop on Multimedia Signal Processing (MMSP) 2006, 2006."}],"event":{"name":"MM09: ACM Multimedia Conference","location":"Beijing China","acronym":"MM09","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 17th ACM international conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/1631272.1631301","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/1631272.1631301","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T15:24:00Z","timestamp":1779981840000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/1631272.1631301"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2009,10,19]]},"references-count":28,"alternative-id":["10.1145\/1631272.1631301","10.1145\/1631272"],"URL":"https:\/\/doi.org\/10.1145\/1631272.1631301","relation":{},"subject":[],"published":{"date-parts":[[2009,10,19]]},"assertion":[{"value":"2009-10-19","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}