{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T08:41:37Z","timestamp":1742978497011,"version":"3.40.3"},"publisher-location":"Berlin, Heidelberg","reference-count":46,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783642213168"},{"type":"electronic","value":"9783642213175"}],"license":[{"start":{"date-parts":[[2011,1,1]],"date-time":"2011-01-01T00:00:00Z","timestamp":1293840000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2011,1,1]],"date-time":"2011-01-01T00:00:00Z","timestamp":1293840000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2011]]},"DOI":"10.1007\/978-3-642-21317-5_13","type":"book-chapter","created":{"date-parts":[[2011,7,12]],"date-time":"2011-07-12T13:32:24Z","timestamp":1310477544000},"page":"345-375","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":6,"title":["Use of Missing and Unreliable Data for Audiovisual Speech Recognition"],"prefix":"10.1007","author":[{"given":"Alexander","family":"Vorwerk","sequence":"first","affiliation":[]},{"given":"Steffen","family":"Zeiler","sequence":"additional","affiliation":[]},{"given":"Dorothea","family":"Kolossa","sequence":"additional","affiliation":[]},{"given":"Ram\u00f3n Fernandez","family":"Astudillo","sequence":"additional","affiliation":[]},{"given":"Dennis","family":"Lerch","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2011,6,23]]},"reference":[{"key":"13_CR1","unstructured":"Ahmad, N., Datta, S., Mulvaney, D., Farooq, O.: A comparison of visual features for audiovisual automatic speech recognition. In: Acoustics 2008, Paris, pp. 6445\u20136448 (2008). DOI\u00a010.1121\/1.2936016"},{"key":"13_CR2","first-page":"1213","volume":"11","author":"PS Aleksic","year":"2002","unstructured":"Aleksic, P.S., Williams, J.J., Wu, Z., Katsaggelos, A.K.: Audio-visual speech recognition using MPEG-4 compliant visual features. EURASIP Journal on Applied Signal Processing 11, 1213\u20131227 (2002)","journal-title":"EURASIP Journal on Applied Signal Processing"},{"key":"13_CR3","volume-title":"Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments","author":"RF Astudillo","year":"2008","unstructured":"Astudillo, R.F., Kolossa, D., Orglmeister, R.: Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments. In: Proc. ITG (2008)"},{"key":"13_CR4","volume-title":"Accounting for the uncertainty of speech estimates in the complex domain for minimum mean square error speech enhancement","author":"RF Astudillo","year":"2009","unstructured":"Astudillo, R.F., Kolossa, D., Orglmeister, R.: Accounting for the uncertainty of speech estimates in the complex domain for minimum mean square error speech enhancement. In: Proc. Interspeech (2009)"},{"key":"13_CR5","volume-title":"Linking auditory scene analysis and robust ASR by missing data techniques","author":"J Barker","year":"2001","unstructured":"Barker, J., Green, P., Cooke, M.: Linking auditory scene analysis and robust ASR by missing data techniques. In: Proceedings WISP 2001 (2001)"},{"key":"13_CR6","first-page":"236","volume":"92","author":"J. Barron","year":"1994","unstructured":"Barron, J., Fleet, D., Beauchemin, S.: Performance of optical flow techniques. International Journal of Computer Vision 92, 236\u2013242 (1994). URL citeseer.ist.psu.edu\/barron92performance.html","journal-title":"International Journal of Computer Vision"},{"issue":"10","key":"13_CR7","doi-asserted-by":"publisher","first-page":"2879","DOI":"10.1109\/TIP.2006.877528","volume":"15","author":"H Cetingl","year":"2006","unstructured":"Cetingl, H., Yemez, Y., Erzin, E., Tekalp, A.: Discriminative analysis of lip motion features for speaker identification and speech-reading. Image Processing, IEEE Transactions on 15(10), 2879\u20132891 (2006). DOI\u00a010.1109\/TIP.2006.877528","journal-title":"Image Processing, IEEE Transactions on"},{"key":"13_CR8","doi-asserted-by":"publisher","first-page":"2421","DOI":"10.1121\/1.2229005","volume":"120","author":"M Cooke","year":"2006","unstructured":"Cooke, M., Barker, J., Cunningham, S., Shao, X.: An audio-visual corpus for speech perception and automatic speech recognition. Acoustical Society of America Journal 120, 2421\u20132424 (2006). DOI\u00a010.1121\/1.2229005","journal-title":"Acoustical Society of America Journal"},{"issue":"3","key":"13_CR9","doi-asserted-by":"publisher","first-page":"412","DOI":"10.1109\/TSA.2005.845814","volume":"13","author":"L Deng","year":"2005","unstructured":"Deng, L., Droppo, J., Acero, A.: Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion. IEEE Trans. Speech and Audio Processing 13(3), 412\u2013421 (2005)","journal-title":"IEEE Trans. Speech and Audio Processing"},{"key":"13_CR10","doi-asserted-by":"crossref","unstructured":"Dixon, P.R., Oonishi, T., Furui, S.: Harnessing graphics processors for the fast computation of acoustic likelihoods in speech recognition. Comput. Speech Lang. 23(4), 510\u2013526 (2009). DOI\u00a0http:\/\/dx.doi.org\/10.1016\/j.csl.2009.03.005","DOI":"10.1016\/j.csl.2009.03.005"},{"key":"13_CR11","unstructured":"Ellis, D.P.W.: PLP and RASTA (and MFCC, and inversion) in Matlab. http:\/\/www.ee.columbia.edu\/~dpwe\/resources\/matlab\/rastamat\/ (2005). Online web resource, last checked: 01 July 2010"},{"key":"13_CR12","unstructured":"ETSI: Speech processing, transmission and quality aspects (STQ); distributed speech recognition; front-end feature extraction algorithm; compression algorithms, ETSI ES 202 050 v1.1.5 (2007-01) (January 2007)"},{"key":"13_CR13","doi-asserted-by":"crossref","unstructured":"Gejgu\u0161, P., \u0160perka, M.: Face tracking in color video sequences. In: SCCG \u201903: Proceedings of the 19th Spring Conference on Computer Graphics, pp. 245\u2013249. ACM, New York, NY, USA (2003). DOI\u00a0http:\/\/doi.acm.org\/10.1145\/984952.984992","DOI":"10.1145\/984952.984992"},{"key":"13_CR14","unstructured":"Goecke, R.: A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English. Ph.D. thesis, Australian National University, Canberra, Australia (2004). URL citeseer.ist.psu.edu\/goecke04stereo.html"},{"key":"13_CR15","unstructured":"Gowdy, J., Subramanya, A., Bartels, C., Bilmes, J.: DBN based multi-stream models for audio-visual speech recognition. In: Proc. ICASSP, vol.\u00a01, pp. I\u2013993\u20136 vol.1 (2004). DOI\u00a010.1109\/ICASSP.2004.1326155"},{"issue":"4","key":"13_CR16","doi-asserted-by":"publisher","first-page":"578","DOI":"10.1109\/89.326616","volume":"2","author":"H Hermansky","year":"1994","unstructured":"Hermansky, H., Morgan, N.: RASTA processing of speech. Speech and Audio Processing, IEEE Transactions on 2(4), 578\u2013589 (1994). DOI\u00a010.1109\/89.326616","journal-title":"Speech and Audio Processing, IEEE Transactions on"},{"key":"13_CR17","doi-asserted-by":"publisher","first-page":"696","DOI":"10.1109\/34.1000242","volume":"24","author":"RL Hsu","year":"2002","unstructured":"Hsu, R.L., Abdel-Mottaleb, M., Jain, A.K.: Face detection in color images. IEEE Transactions on Pattern Analysis and Machine Intelligence 24, 696\u2013706 (2002)","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"4","key":"13_CR18","doi-asserted-by":"crossref","first-page":"321","DOI":"10.1007\/BF00133570","volume":"1","author":"M. Kass","year":"1988","unstructured":"Kass, M., Witkin, A., Terzopoulos, D.: Snakes: Active contour models. International Journal of Computer Vision 1(4), 321\u2013331 (1988). URL http:\/\/www.springerlink.com\/content\/q7g93335q86604x6\/fulltext.pdf","journal-title":"International Journal of Computer Vision"},{"key":"13_CR19","unstructured":"Kolossa, D., Astudillo, R.F., Zeiler, S., Vorwerk, A., Lerch, D., Chong, J., Orglmeister, R.: Missing feature audiovisual speech recognition under real-time constraints. Accepted for publication in ITG Fachtagung Sprachkommunikation (2010)"},{"key":"13_CR20","volume-title":"Efficient manycore CHMM speech recognition for audiovisual and multistream data","author":"D Kolossa","year":"2010","unstructured":"Kolossa, D., Chong, J., Zeiler, S., Keutzer, K.: Efficient manycore CHMM speech recognition for audiovisual and multistream data. Accepted for publication in Proc. Interspeech (2010)"},{"key":"13_CR21","unstructured":"Kolossa, D., Klimas, A., Orglmeister, R.: Separation and robust recognition of noisy, convolutive speech mixtures using time-frequency masking and missing data techniques. In: Proc. WASPAA, pp. 82\u201385 (2005). DOI\u00a010.1109\/ASPAA.2005.1540174"},{"key":"13_CR22","doi-asserted-by":"crossref","unstructured":"Kratt, J., Metze, F., Stiefelhagen, R., Waibel, A.: Large vocabulary audio-visual speech recognition using the Janus speech recognition toolkit. In: DAGM-Symposium, pp. 488\u2013495 (2004)","DOI":"10.1007\/978-3-540-28649-3_60"},{"key":"13_CR23","unstructured":"Lan, Y., Theobald, B.J., Ong, E.J., Bowden, R.: Comparing visual features for lipreading. In: Int. Conf. on Auditory-Visual Speech Processing (AVSP2009). Norwich, UK (2009)"},{"key":"13_CR24","unstructured":"Lerch, D.: Audiovisuelle Spracherkennung unter Ber\u00fccksichtigung der Unsicherheit von visuellen Merkmalen. Diploma thesis, TU Berlin, dennis_lerch@gmx.de (2009)"},{"key":"13_CR25","unstructured":"Lewis, T.W., Powers, D.M.W.: Lip feature extraction using red exclusion. In: VIP\u201900: Selected Papers from the Pan-Sydney Workshop on Visualisation, pp. 61\u201367. Australian Computer Society, Inc., Darlinghurst, Australia, Australia (2001)"},{"key":"13_CR26","unstructured":"Lucey, P.J., Dean, D.B., Sridharan, S.: Problems associated with current area-based visual speech feature extraction techniques. In: AVSP 2005, pp. 73\u201378 (2005). URL http:\/\/eprints.qut.edu.au\/12847\/"},{"key":"13_CR27","volume-title":"Asynchronous stream modelling for large vocabulary audio-visual speech recognition","author":"J Luettin","year":"2001","unstructured":"Luettin, J., Potamianos, G., Neti, C.: Asynchronous stream modelling for large vocabulary audio-visual speech recognition. In: Proc. ICASSP (2001)"},{"key":"13_CR28","doi-asserted-by":"publisher","first-page":"67","DOI":"10.1002\/scj.4690220108","volume":"22","author":"K Mase","year":"1991","unstructured":"Mase, K., Pentland, A.: Automatic lip-reading by optical flow analysis. Trans. Systems and Computers in Japan 22, 67\u201376 (1991)","journal-title":"Trans. Systems and Computers in Japan"},{"issue":"2","key":"13_CR29","doi-asserted-by":"publisher","first-page":"198","DOI":"10.1109\/34.982900","volume":"24","author":"I Matthews","year":"2002","unstructured":"Matthews, I., Cootes, T., Bangham, J., Cox, S., Harvey, R.: Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence 24(2), 198\u2013213 (2002). DOI\u00a010.1109\/34.982900","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"13_CR30","doi-asserted-by":"crossref","unstructured":"Metze, F.: Articulatory features for conversational speech recognition. Ph.D. thesis, Universit\u00e4t Fridericiana zu Karlsruhe (2005)","DOI":"10.21437\/Interspeech.2006-214"},{"key":"13_CR31","doi-asserted-by":"crossref","unstructured":"Naseem, I., Deriche, M.: Robust human face detection in complex color images. IEEE International Conference on Image Processing, ICIP 2005. 2, 338\u2013341 (2005). DOI\u00a010.1109\/ICIP.2005.1530061","DOI":"10.1109\/ICIP.2005.1530061"},{"key":"13_CR32","first-page":"1274","volume":"11","author":"A Nefian","year":"2002","unstructured":"Nefian, A., Liang, L., Pi, X., Liu, X., Murphy, K.: Dynamic Bayesian networks for audio-visual speech recognition. EURASIP Journal on Applied Signal Processing 11, 1274\u20131288 (2002)","journal-title":"EURASIP Journal on Applied Signal Processing"},{"key":"13_CR33","unstructured":"Neti, C., Potamianos, G., Luettin, J., Matthews, I., Glotin, H., Vergyri, D., Sison, J., Mashari, A., Zhou, J.: Audio-visual speech recognition. Tech. Rep. WS00AVSR, Johns Hopkins University, CLSP (2000). URL citeseer.ist.psu.edu\/neti00audiovisual.html"},{"key":"13_CR34","unstructured":"NVIDIA Corporation: NVIDIA CUDA Compute Unified Device Architecture Programming Guide (2007)"},{"issue":"473","key":"13_CR35","first-page":"25","volume":"102","author":"T. Otsuki","year":"2002","unstructured":"Otsuki, T., Ohtomo, T.: Automatic lipreading of station names using optical flow and HMM. Technical report of IEICE. HIP 102(473), 25\u201330 (2002). URL http:\/\/ci.nii.ac.jp\/naid\/110003271904\/en\/","journal-title":"HIP"},{"issue":"3","key":"13_CR36","first-page":"423","volume":"17","author":"G. Papandreou","year":"2009","unstructured":"Papandreou, G., Katsamanis, A., Pitsikalis, V., Maragos, P.: Adaptive multimodal fusion by uncertainty compensation with application to audiovisual speech recognition. Audio, Speech, and Language Processing, IEEE Trans. 17(3), 423\u2013435 (2009). DOI\u00a010. 1109\/TASL.2008.2011515","journal-title":"IEEE Trans."},{"key":"13_CR37","doi-asserted-by":"crossref","unstructured":"Patterson, E.K., Gurbuz, S., Tufekci, Z., Gowdy, J.N.: Moving-talker, speaker-independent feature study, and baseline results using the CUAVE multimodal speech corpus. EURASIP J. Appl. Signal Process. 2002(1), 1189\u20131201 (2002). DOI\u00a0http:\/\/dx.doi.org\/10.1155\/S1110865702206101","DOI":"10.1155\/S1110865702206101"},{"key":"13_CR38","unstructured":"Potamianos, G., Neti, C., Luettin, J., Matthews, I.: Audio-visual automatic speech recognition: An overview. In: E.\u00a0Vatikiotis-Bateson, P.\u00a0Perrier (eds.) Issues in Visual and Audio-Visual Speech Processing. MIT Press (2004)"},{"issue":"5","key":"13_CR39","doi-asserted-by":"publisher","first-page":"101","DOI":"10.1109\/MSP.2005.1511828","volume":"22","author":"B Raj","year":"2005","unstructured":"Raj, B., Stern, R.: Missing-feature approaches in speech recognition. Signal Processing Magazine, IEEE 22(5), 101\u2013116 (2005)","journal-title":"Signal Processing Magazine, IEEE"},{"key":"13_CR40","unstructured":"Schwerdt, K., Crowley, J.L.: Robust face tracking using color. In: Proc. of 4th International Conference on Automatic Face and Gesture Recognition, pp. 90\u201395. Grenoble, France (2000). URL citeseer.ist.psu.edu\/schwerdt00robust.html"},{"key":"13_CR41","doi-asserted-by":"crossref","unstructured":"Shdaifat, I., Grigat, R.R., L\u00fctgert, S.: Recognition of the German visemes using multiple feature matching. In: B.\u00a0Radig, S.\u00a0Florczyk (eds.) Lecture Notes in Computer Science, Pattern Recognition, vol. 2191\/2001, pp. 437\u2013442. Springer-Verlag Berlin Heidelberg (2001)","DOI":"10.1007\/3-540-45404-7_58"},{"key":"13_CR42","unstructured":"Tamura, S., Iwano, K., Furui, S.: A robust multi-modal speech recognition method using optical-flow analysis. In: Multi-Modal Dialogue in Mobile Environments, ISCA Tutorial and Research Workshop (ITRW). ISCA, Kloster Irsee, Germany (2002)"},{"key":"13_CR43","unstructured":"Vezhnevets, V., Sazonov, V., Andreeva, A.: A survey on pixel-based skin color detection techniques. In: Proc. Graphicon, pp. 85\u201392. Moscow, Russia (2003). URL citeseer.ist.psu.edu\/vezhnevets03survey.html"},{"key":"13_CR44","doi-asserted-by":"crossref","unstructured":"Wang, X., Hao, Y., Fu, D., Yuan, C.: ROI processing for visual features extraction in lip-reading. In: 2008 International Conference on Neural Networks and Signal Processing, pp. 178\u2013181. IEEE (2008)","DOI":"10.1109\/ICNNSP.2008.4590335"},{"issue":"1","key":"13_CR45","doi-asserted-by":"publisher","first-page":"34","DOI":"10.1109\/34.982883","volume":"24","author":"MH Yang","year":"2002","unstructured":"Yang, M.H., Kriegman, D.J., Ahuja, N.: Detecting faces in images: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence 24(1), 34\u201358 (2002)","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"13_CR46","unstructured":"Young, S., Russell, N., Thornton, J.: Token passing: A simple conceptual model for connected speech recognition systems. Tech. Rep. CUED\/FINFENG \/TR.38, Cambridge University Engineering Department (1989)"}],"container-title":["Robust Speech Recognition of Uncertain or Missing Data"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-642-21317-5_13","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,2,11]],"date-time":"2023-02-11T06:12:07Z","timestamp":1676095927000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-642-21317-5_13"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2011]]},"ISBN":["9783642213168","9783642213175"],"references-count":46,"URL":"https:\/\/doi.org\/10.1007\/978-3-642-21317-5_13","relation":{},"subject":[],"published":{"date-parts":[[2011]]},"assertion":[{"value":"23 June 2011","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}}]}}