{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T13:30:32Z","timestamp":1777901432740,"version":"3.51.4"},"reference-count":52,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2016,3,1]],"date-time":"2016-03-01T00:00:00Z","timestamp":1456790400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China (NSFC)","doi-asserted-by":"publisher","award":["61340046"],"award-info":[{"award-number":["61340046"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China (NSFC)","doi-asserted-by":"publisher","award":["60875050"],"award-info":[{"award-number":["60875050"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China (NSFC)","doi-asserted-by":"publisher","award":["60675025"],"award-info":[{"award-number":["60675025"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National High Technology Research and Development Programme of China (863 Programme)","award":["2006AA04Z247"],"award-info":[{"award-number":["2006AA04Z247"]}]},{"name":"Guangdong Natural Science Foundation of China","award":["2015A030311034"],"award-info":[{"award-number":["2015A030311034"]}]},{"name":"Specialized Research Fund"},{"name":"Doctoral Programme of Higher Education","award":["20130001110011"],"award-info":[{"award-number":["20130001110011"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2016,3]]},"DOI":"10.1109\/tmm.2016.2520091","type":"journal-article","created":{"date-parts":[[2016,1,21]],"date-time":"2016-01-21T19:51:26Z","timestamp":1453405886000},"page":"326-338","source":"Crossref","is-referenced-by-count":46,"title":["A Novel Lip Descriptor for Audio-Visual Keyword Spotting Based on Adaptive Decision Fusion"],"prefix":"10.1109","volume":"18","author":[{"given":"Pingping","family":"Wu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hong","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaofei","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ting","family":"Fan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuewu","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICICIS.2011.58"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00056-9"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540018"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1023\/A:1013685603443"},{"key":"ref31","first-page":"72","article-title":"Face alignment via component-based discriminative search","author":"liang","year":"0","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995602"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2013.11.025"},{"key":"ref36","first-page":"1794","article-title":"Linear spatial pyramid matching using sparse coding for image classification","author":"yang","year":"0","journal-title":"Proc IEEE Conf Comput Vis Pattern Recog"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2006.68"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-005-4638-1"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540094"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.191"},{"key":"ref29","first-page":"90","article-title":"Robust face detection using the Hausdorff distance","author":"jesorsky","year":"0","journal-title":"Proc 3rd Int Conf Audio- Video-Based Biometric Person Authentication"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2116010"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-45358-8_13"},{"key":"ref20","first-page":"181","article-title":"A compact representation of visual speech data using latent variables","volume":"36","author":"zhou","year":"2014","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995345"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2014.06.004"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.23"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2009.2030637"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-013-0667-3"},{"key":"ref25","first-page":"679","article-title":"Interactive facial feature localization","author":"le","year":"0","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1006\/csla.1997.0027"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2012.2226443"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2008.919305"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2381931"},{"key":"ref11","first-page":"356","article-title":"Audio-visual automatic speech recognition: An overview","volume":"22","author":"potamianos","year":"2004","journal-title":"Issues in Visual and Audio-Visual Speech Processing"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2005.1415152"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2010.2057890"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2008.922789"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.5772\/6364"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2409785"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2172427"},{"key":"ref17","first-page":"iii?785","article-title":"Audio visual word spotting","volume":"3","author":"liu","year":"0","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2009.5204224"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907840"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.2316\/P.2012.771-009"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2009.08.002"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288898"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639277"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2008.10.002"},{"key":"ref7","article-title":"Comparison of keyword spotting approaches for informal continuous speech","author":"szoke","year":"0","journal-title":"Proc Joint Workshop Multimodal Interaction Related Mach Learn Algorithms"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/5.18626"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854986"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2009.2026513"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1990.115555"},{"key":"ref48","article-title":"HTK: Hidden Markov model toolkit v3.4.1","author":"young","year":"2009"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2407694"},{"key":"ref42","first-page":"746","article-title":"Stream confidence estimation for audio-visual speech recognition","author":"potamianos","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_35"},{"key":"ref44","first-page":"305","article-title":"Sensor fusion weighting measures in audio-visual speech recognition","volume":"26","author":"lewis","year":"0","journal-title":"Proc Australas Comput Sci Conf"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICSLP.1996.607019"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6046\/7412784\/07389408.pdf?arnumber=7389408","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:01:54Z","timestamp":1642003314000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7389408\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,3]]},"references-count":52,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tmm.2016.2520091","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016,3]]}}}