{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,30]],"date-time":"2025-12-30T09:00:15Z","timestamp":1767085215954},"reference-count":26,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2008,5,6]],"date-time":"2008-05-06T00:00:00Z","timestamp":1210032000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Pattern Anal Applic"],"published-print":{"date-parts":[[2009,9]]},"DOI":"10.1007\/s10044-008-0121-2","type":"journal-article","created":{"date-parts":[[2008,5,5]],"date-time":"2008-05-05T09:23:37Z","timestamp":1209979417000},"page":"271-284","source":"Crossref","is-referenced-by-count":23,"title":["Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models"],"prefix":"10.1007","volume":"12","author":[{"given":"Enrique","family":"Argones R\u00faa","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Herv\u00e9","family":"Bredin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Carmen","family":"Garc\u00eda Mateo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"G\u00e9rard","family":"Chollet","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Daniel","family":"Gonz\u00e1lez Jim\u00e9nez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2008,5,6]]},"reference":[{"key":"121_CR1","unstructured":"Potamianos G, Neti C, Luettin J, Matthews I (2004) Audio-visual automatic speech recognition: an overview. Issues Vis Audio Vis Speech Process"},{"key":"121_CR2","doi-asserted-by":"crossref","unstructured":"Liu X, Liang L, Zhaa Y, Pi X, Nefian AV (2002) Audio-visual continuous speech recognition using a coupled hidden Markov model. In: Proceedings of the international conference on spoken language processing","DOI":"10.21437\/ICSLP.2002-123"},{"key":"121_CR3","doi-asserted-by":"crossref","unstructured":"Gurbuz S, Tufekci Z, Patterson T, Gowdy JN (2002) Multi-stream product modal audio-visual integration strategy for robust adaptive speech recognition. In: Proceedings of IEEE international conference on acoustics, speech and signal processing, Orlando","DOI":"10.1109\/ICASSP.2002.5745029"},{"issue":"1","key":"121_CR4","doi-asserted-by":"crossref","first-page":"23","DOI":"10.1109\/6046.985551","volume":"4","author":"CC Chibelushi","year":"2002","unstructured":"Chibelushi CC, Deravi F, Mason JSD (2002) A review of speech-based bimodal recognition. IEEE Trans Multimed 4(1):23\u201337","journal-title":"IEEE Trans Multimed"},{"key":"121_CR5","doi-asserted-by":"crossref","unstructured":"Pan H, Liang Z-P, Huang TS (2000) A new approach to integrate audio and visual features of speech. In: IEEE international conference on multimedia and expo., pp 1093 \u2013 1096","DOI":"10.1109\/ICME.2000.871551"},{"key":"121_CR6","doi-asserted-by":"crossref","unstructured":"Chaudhari UV, Ramaswamy GN, Potamianos G, Neti C (2003) Information fusion and decision cascading for audio-visual speaker recognition based on time-varying stream reliability prediction. In: IEEE international conference on multimedia expo., vol III. Baltimore, pp 9\u201312, July 2003","DOI":"10.1109\/ICME.2003.1221235"},{"key":"121_CR7","unstructured":"Chetty G, Wagner M (2004) \u201cLiveness\u201d verification in audio-video authentication. In: Australian international conference on speech science and technology, pp 358\u2013363"},{"key":"121_CR8","doi-asserted-by":"crossref","unstructured":"Eveno N, Besacier L (2005) A speaker independent liveness test for audio-video biometrics. In: Nineth European conference on speech communication and technology","DOI":"10.21437\/Interspeech.2005-661"},{"key":"121_CR9","unstructured":"Hershey J, Movellan J (2000) Audio vision: using audiovisual synchrony to locate sounds. In: Advances in neural information processing systems, vol 12, pp 813\u2013819"},{"key":"121_CR10","unstructured":"Slaney M, Covell M (2000) FaceSync: a linear operator for measuring synchronization of video facial images and audio tracks. Neural Inf Process Soc 13"},{"issue":"3","key":"121_CR11","doi-asserted-by":"crossref","first-page":"406","DOI":"10.1109\/TMM.2004.827503","volume":"6","author":"JW Fisher","year":"2004","unstructured":"Fisher JW, Darell T (2004) Speaker association with signal-level audiovisual fusion. IEEE Trans Multimed 6(3):406\u2013413","journal-title":"IEEE Trans Multimed"},{"key":"121_CR12","doi-asserted-by":"crossref","unstructured":"Nock HJ, Iyengar G, Neti C (2002) Assessing face and speech consistency for monologue detection in video. Multimedia 303\u2013306","DOI":"10.1145\/641007.641070"},{"key":"121_CR13","doi-asserted-by":"crossref","unstructured":"Bredin H, Chollet G (2006) Measuring audio and visual speech synchrony: methods and applications. In: International conference on visual information engineering","DOI":"10.1049\/cp:20060538"},{"key":"121_CR14","unstructured":"Lucas BD, Kanade T (1981) An iterative image registration technique with an application to stereo vision. In: DARPA image understanding workshop, pp 121\u2013130"},{"key":"121_CR15","unstructured":"Bredin H, Aversano G, Mokbel C, Chollet G (2006) The biosecure talking-face reference system. In: Second workshop on multimodal user authentication, May 2006"},{"key":"121_CR16","doi-asserted-by":"crossref","first-page":"277","DOI":"10.1111\/j.1365-2427.1994.tb01741.x","volume":"31","author":"S Dol\u00e9dec","year":"1994","unstructured":"Dol\u00e9dec S, Chessel D (1994) Co-inertia analysis: an alternative method for studying species-environment relationships. Freshw Biol 31:277\u2013294","journal-title":"Freshw Biol"},{"key":"121_CR17","doi-asserted-by":"crossref","unstructured":"Bailly-Bailli\u00e8re E, Bengio E, Bimbot F, Hamouz M, Kittler J, Mari\u00e9thoz J, Matas J, Messer K, Popovici V, Por\u00e9e F, Ruiz B, Thiran J-P (2003) The BANCA database and evaluation protocol. In: Lecture notes in computer science, vol 2688, pp 625\u2013638, January 2003","DOI":"10.1007\/3-540-44887-X_74"},{"key":"121_CR18","doi-asserted-by":"crossref","unstructured":"Guti\u00e9rrez J, Rouas J-L, Andr\u00e9-Obrecht R (2004) Weighted loss functions to make risk-based language identification fused decisions. In: IEEE Computer Society (ed). Proceedings of the 17th international conference on pattern recognition (ICPR\u201904)","DOI":"10.1109\/ICPR.2004.1334395"},{"key":"121_CR19","unstructured":"Qian J-Z, Ross A, Jain A (2001) Information fusion in biometrics. In: Proceedings of 3rd international conference on audio- and video-based person authentication (AVBPA), pp 354\u2013359, Sweden, June 2001"},{"key":"121_CR20","doi-asserted-by":"crossref","unstructured":"Martin A, Doddington G, Kamm T, Ordowski M, Przybocki M (1997) The DET curve in assessment of detection task performance. In: European conference on speech communication and technology, pp 1895\u20131898","DOI":"10.21437\/Eurospeech.1997-504"},{"key":"121_CR21","doi-asserted-by":"crossref","unstructured":"Bailly-Bailli\u00e9re E, Bengio S, Bimbot F, Hamouz M, Kittler J, Mari\u00f3thoz J, Matas J, Messer K, Popovici V, Por\u00e9e F, Ruiz B, Thiran J-P (2003) The banca database and evaluation protocol","DOI":"10.1007\/3-540-44887-X_74"},{"key":"121_CR22","unstructured":"Bengio S, Mari\u00e9thoz J (2004) A statistical significance test for person authentication. ODYSSEY 2004\u2014the speaker and language recognition workshop, pp 237\u2013244"},{"key":"121_CR23","unstructured":"Zhang X, Mersereau RM, Clements M (2002) Bimodal fusion in audio-visual speech recognition, vol 1. In: IEEE 2002 international conference on image processing, pp 964\u2013967, September 2002"},{"key":"121_CR24","unstructured":"Nefian AV, Liang L, Pi X, Xiaoxiang L, Mao C, Murphy K (2002) A coupled HMM for audio-visual speech recognition. In: Proceedings of the international conference on acoustics speech and signal processing (ICASSP02), May 2002"},{"key":"121_CR25","doi-asserted-by":"crossref","unstructured":"Tao D, Li X, Hu W, Maybank S, Wu X (2007) Supervised tensor learning. knowledge and information systems, 13(1):1\u201342","DOI":"10.1007\/s10115-006-0050-6"},{"issue":"10","key":"121_CR26","first-page":"700","volume":"29","author":"D Tao","year":"2007","unstructured":"Tao D, Li X, Wu X, Maybank SJ (2007) General tensor discriminant analysis and gabor features for gait recognition. IEEE Trans Pattern Anal Mach Intell 29(10):700\u2013715","journal-title":"IEEE Trans Pattern Anal Mach Intell"}],"container-title":["Pattern Analysis and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10044-008-0121-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10044-008-0121-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10044-008-0121-2","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,5,18]],"date-time":"2023-05-18T04:04:43Z","timestamp":1684382683000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10044-008-0121-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2008,5,6]]},"references-count":26,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2009,9]]}},"alternative-id":["121"],"URL":"https:\/\/doi.org\/10.1007\/s10044-008-0121-2","relation":{},"ISSN":["1433-7541","1433-755X"],"issn-type":[{"value":"1433-7541","type":"print"},{"value":"1433-755X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2008,5,6]]}}}