{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,25]],"date-time":"2026-02-25T18:09:24Z","timestamp":1772042964387,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":32,"publisher":"ACM","license":[{"start":{"date-parts":[[2007,9,28]],"date-time":"2007-09-28T00:00:00Z","timestamp":1190937600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2007,9,28]]},"DOI":"10.1145\/1290128.1290138","type":"proceedings-article","created":{"date-parts":[[2007,10,14]],"date-time":"2007-10-14T12:51:38Z","timestamp":1192366298000},"page":"57-66","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":24,"title":["Local spatiotemporal descriptors for visual recognition of spoken phrases"],"prefix":"10.1145","author":[{"given":"Guoying","family":"Zhao","sequence":"first","affiliation":[{"name":"University of Oulu: Finland, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Matti","family":"Pietik\u00e4inen","sequence":"additional","affiliation":[{"name":"University of Oulu: Finland, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Abdenour","family":"Hadid","sequence":"additional","affiliation":[{"name":"University of Oulu: Finland, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2007,9,28]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/982507.982512"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/2.820041"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICSLP.1996.607030"},{"key":"e_1_3_2_1_4_1","volume-title":"Recent advances in the automatic recognition of audio-visual speech. Proc","author":"Potamianos G.","year":"2003","unstructured":"Potamianos G. , Neti C. , Gravier G. , Garg A. , and Senior A . Recent advances in the automatic recognition of audio-visual speech. Proc . IEEE , 2003 . Potamianos G., Neti C., Gravier G., Garg A., and Senior A. Recent advances in the automatic recognition of audio-visual speech. Proc. IEEE, 2003."},{"key":"e_1_3_2_1_5_1","volume-title":"14th European Signal Processing Conference","author":"Arsic I.","year":"2006","unstructured":"Arsic I. and Thiran J.P . Mutual information engenlips for audio-visual speech . 14th European Signal Processing Conference , Italy , 2006 . Arsic I. and Thiran J.P. Mutual information engenlips for audio-visual speech. 14th European Signal Processing Conference, Italy, 2006."},{"key":"e_1_3_2_1_6_1","volume-title":"13th European Signal Processing Conference","author":"Gurban M.","year":"2005","unstructured":"Gurban M. and Thiran J.P . Audio-visual speech recognition with a hybrid SVM-HMM system . 13th European Signal Processing Conference , 2005 . Gurban M. and Thiran J.P. Audio-visual speech recognition with a hybrid SVM-HMM system. 13th European Signal Processing Conference, 2005."},{"key":"e_1_3_2_1_7_1","first-page":"2492","article-title":"AVICAR: Audio-visual speech corpus in a car environment","volume":"2489","author":"Lee B.","year":"2004","unstructured":"Lee B. , Hasegawa-Johnson M. , Goudeseune C. , Kamdar S. , Borys S. , Liu M. and Huang T . AVICAR: Audio-visual speech corpus in a car environment . ICSLP , 2004 , 2489 -- 2492 . Lee B., Hasegawa-Johnson M., Goudeseune C., Kamdar S., Borys S., Liu M. and Huang T. AVICAR: Audio-visual speech corpus in a car environment. ICSLP, 2004, 2489--2492.","journal-title":"ICSLP"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2004.1326155"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.5555\/1153922.1154433"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206083"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206162"},{"key":"e_1_3_2_1_12_1","volume-title":"Final workshop 2000 Report","author":"Neti C.","year":"2000","unstructured":"Neti C. , Potamianos G. , Luettin J. , Matthews I. , Glotin H. , Vergyri D. , Sison J. , Mashari A. and Zhou J . Audio-visual speech recognition. Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, MD , Final workshop 2000 Report , Oct. 2000 . Neti C., Potamianos G., Luettin J., Matthews I., Glotin H., Vergyri D., Sison J., Mashari A. and Zhou J. Audio-visual speech recognition. Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, MD, Final workshop 2000 Report, Oct. 2000."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.1999.793893"},{"key":"e_1_3_2_1_14_1","volume-title":"Audio Visual Speech Conference","author":"Niyogi P.","year":"1999","unstructured":"Niyogi P. , Petajan E. and Zhong J . Feature based representation for audio-visual speech recognition . Audio Visual Speech Conference , 1999 . Niyogi P., Petajan E. and Zhong J. Feature based representation for audio-visual speech recognition. Audio Visual Speech Conference, 1999."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","first-page":"1656","DOI":"10.21437\/ICSLP.1996-383","article-title":"Using the visual component in automatic speech recognition","volume":"3","author":"Brooke N.M","year":"1996","unstructured":"Brooke N.M . Using the visual component in automatic speech recognition . ICSLP , Vol. 3 , 1996 , 1656 -- 1659 . Brooke N.M. Using the visual component in automatic speech recognition. ICSLP, Vol. 3, 1996, 1656--1659.","journal-title":"ICSLP"},{"key":"e_1_3_2_1_16_1","volume-title":"Toward movement-invariant automatic lipreading and speech recognition. ICSLP, 109--112","author":"Duchnowski P.","year":"1995","unstructured":"Duchnowski P. , Hunke M. , Busching D. , Meier U. and Waibel A . Toward movement-invariant automatic lipreading and speech recognition. ICSLP, 109--112 , 1995 . Duchnowski P., Hunke M., Busching D., Meier U. and Waibel A. Toward movement-invariant automatic lipreading and speech recognition. ICSLP, 109--112, 1995."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1038\/264746a0"},{"key":"e_1_3_2_1_18_1","volume-title":"Audio-visual automatic speech recognition: an overview. Issues in Visual and Audio-Visual Speech Processing","author":"Potamianos G.","year":"2004","unstructured":"Potamianos G. , Neti C. , Luettin J. , and Matthews I . Audio-visual automatic speech recognition: an overview. Issues in Visual and Audio-Visual Speech Processing , MIT Press , 2004 . Potamianos G., Neti C., Luettin J., and Matthews I. Audio-visual automatic speech recognition: an overview. Issues in Visual and Audio-Visual Speech Processing, MIT Press, 2004."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.1998.999008"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2005.251"},{"key":"e_1_3_2_1_21_1","first-page":"473","article-title":"Production domain modeling of pronunciation for visual speech recognition","volume":"5","author":"Saenko K.","year":"2005","unstructured":"Saenko K. , Livescu K. , Glass J. , and Darrell T . Production domain modeling of pronunciation for visual speech recognition . ICASSP , vol. 5 , 2005 , 473 -- 476 . Saenko K., Livescu K., Glass J., and Darrell T. Production domain modeling of pronunciation for visual speech recognition. ICASSP, vol. 5, 2005, 473--476.","journal-title":"ICASSP"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/83.605417"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/34.982900"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2002.1017623"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2006.244"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2007.1110"},{"key":"e_1_3_2_1_27_1","first-page":"518","article-title":"Rapid object detection using a boosted cascade of simple features","volume":"511","author":"Viola P.","year":"2001","unstructured":"Viola P. and Jones M . Rapid object detection using a boosted cascade of simple features . CVPR , 2001 , 511 -- 518 . Viola P. and Jones M. Rapid object detection using a boosted cascade of simple features. CVPR, 2001, 511--518.","journal-title":"CVPR"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/FGR.2006.72"},{"key":"e_1_3_2_1_29_1","volume-title":"Second International Conference on Audio and Video-Based Biometric Person Authentication, Washington, D.C.","author":"Messer K.","year":"1999","unstructured":"Messer K. , Matas J. , Kittler J. , Luettin J. , and Maitre G . Xm2vtsdb: The extended m2vts database . Second International Conference on Audio and Video-Based Biometric Person Authentication, Washington, D.C. , 1999 . Messer K., Matas J., Kittler J., Luettin J., and Maitre G. Xm2vtsdb: The extended m2vts database. Second International Conference on Audio and Video-Based Biometric Person Authentication, Washington, D.C., 1999."},{"key":"e_1_3_2_1_30_1","volume-title":"Martigny","author":"Sanderson C.","year":"2002","unstructured":"Sanderson C. The VidTIMIT database. IDIAP Communication 02-06 , Martigny , Switzerland , 2002 . Sanderson C. The VidTIMIT database. IDIAP Communication 02-06, Martigny, Switzerland, 2002."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/1027933.1027972"},{"key":"e_1_3_2_1_32_1","first-page":"851","article-title":"Visual speech recognition with stochastic networks","volume":"7","author":"Movellan J.R","year":"1995","unstructured":"Movellan J.R . Visual speech recognition with stochastic networks . Advances in Neural Information Processing Systems , vol. 7 , 1995 , pp. 851 -- 858 . Movellan J.R. Visual speech recognition with stochastic networks. Advances in Neural Information Processing Systems, vol. 7, 1995, pp. 851--858.","journal-title":"Advances in Neural Information Processing Systems"}],"event":{"name":"MM07: The 15th ACM International Conference on Multimedia 2007","location":"Augsburg Bavaria Germany","acronym":"MM07","sponsor":["SIGGRAPH ACM Special Interest Group on Computer Graphics and Interactive Techniques","ACM Association for Computing Machinery","SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the international workshop on Human-centered multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/1290128.1290138","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/1290128.1290138","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T13:39:12Z","timestamp":1750253952000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/1290128.1290138"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2007,9,28]]},"references-count":32,"alternative-id":["10.1145\/1290128.1290138","10.1145\/1290128"],"URL":"https:\/\/doi.org\/10.1145\/1290128.1290138","relation":{},"subject":[],"published":{"date-parts":[[2007,9,28]]},"assertion":[{"value":"2007-09-28","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}