{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T21:49:30Z","timestamp":1773092970832,"version":"3.50.1"},"publisher-location":"Cham","reference-count":27,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319544267","type":"print"},{"value":"9783319544274","type":"electronic"}],"license":[{"start":{"date-parts":[[2017,1,1]],"date-time":"2017-01-01T00:00:00Z","timestamp":1483228800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017]]},"DOI":"10.1007\/978-3-319-54427-4_20","type":"book-chapter","created":{"date-parts":[[2017,3,15]],"date-time":"2017-03-15T08:16:53Z","timestamp":1489565813000},"page":"264-276","source":"Crossref","is-referenced-by-count":19,"title":["Visual Speech Recognition Using PCA Networks and LSTMs in a Tandem GMM-HMM System"],"prefix":"10.1007","author":[{"given":"Marina","family":"Zimmermann","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mostafa","family":"Mehdipour Ghazi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haz\u0131m Kemal","family":"Ekenel","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jean-Philippe","family":"Thiran","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2017,3,16]]},"reference":[{"key":"20_CR1","doi-asserted-by":"crossref","unstructured":"Anina, I., Zhou, Z., Zhao, G., Pietikainen, M.: OuluVS2: A multi-view audiovisual database for non-rigid mouth motion analysis. In: 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG) (2015)","DOI":"10.1109\/FG.2015.7163155"},{"issue":"3","key":"20_CR2","doi-asserted-by":"crossref","first-page":"533","DOI":"10.1006\/jpho.2002.0166","volume":"30","author":"P Badin","year":"2002","unstructured":"Badin, P., Bailly, G., Rev\u00e9ret, L., Baciu, M., Segebarth, C., Savariaux, C.: Three-dimensional linear articulatory modeling of tongue lips and face, based on MRI and video images. J. Phonet. 30(3), 533\u2013553 (2002)","journal-title":"J. Phonet."},{"key":"20_CR3","doi-asserted-by":"crossref","first-page":"35","DOI":"10.1016\/j.compeleceng.2015.08.009","volume":"47","author":"A Biswas","year":"2015","unstructured":"Biswas, A., Sahu, P., Chandra, M.: Multiple camera in car audio\u2013visual speech recognition using phonetic and visemic information. Comput. Electr. Eng. 47, 35\u201350 (2015)","journal-title":"Comput. Electr. Eng."},{"key":"20_CR4","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-4615-3210-1","volume-title":"Connectionist Speech Recognition","author":"HA Bourlard","year":"1994","unstructured":"Bourlard, H.A., Morgan, N.: Connectionist Speech Recognition. Springer Nature, Berlin (1994)"},{"key":"20_CR5","doi-asserted-by":"crossref","unstructured":"Bowden, R., Cox, S., Harvey, R., Lan, Y., Ong, E.J., Owen, G., Theobald, B.J.: Recent developments in automated lip-reading. In: Zamboni, R., Kajzar, F., Szep, A.A., Burgess, D., Owen, G. (eds.) Optics and photonics for counterterrorism crime fighting and defence IX and optical materials and biomaterials in security and defence systems technology X. In: SPIE-The International Society of Optics and Photonics (2013)","DOI":"10.1117\/12.2029464"},{"issue":"12","key":"20_CR6","doi-asserted-by":"crossref","first-page":"5017","DOI":"10.1109\/TIP.2015.2475625","volume":"24","author":"TH Chan","year":"2015","unstructured":"Chan, T.H., Jia, K., Gao, S., Lu, J., Zeng, Z., Ma, Y.: PCANet: A simple deep learning baseline for image classification? IEEE Trans. Image Process. 24(12), 5017\u20135032 (2015)","journal-title":"IEEE Trans. Image Process."},{"key":"20_CR7","doi-asserted-by":"crossref","unstructured":"Donahue, J., Hendricks, L.A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Darrell, T., Saenko, K.: Long-term recurrent convolutional networks for visual recognition and description. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015)","DOI":"10.1109\/CVPR.2015.7298878"},{"issue":"1","key":"20_CR8","doi-asserted-by":"crossref","first-page":"51","DOI":"10.1186\/1687-6180-2012-51","volume":"2012","author":"V Estellers","year":"2012","unstructured":"Estellers, V., Thiran, J.P.: Multi-pose lipreading and audio-visual speech recognition. EURASIP J. Adv. Sig. Process. 2012(1), 51 (2012)","journal-title":"EURASIP J. Adv. Sig. Process."},{"key":"20_CR9","unstructured":"Graves, A., Jaitly, N.: Towards end-to-end speech recognition with recurrent neural networks. In: Jebara, T., Xing, E.P. (eds.) Proceedings of 31st International Conference on Machine Learning (ICML-2014), JMLR Workshop and Conference Proceedings, pp. 1764\u20131772 (2014)"},{"key":"20_CR10","doi-asserted-by":"crossref","unstructured":"Graves, A., Mohamed, A., Hinton, G.: Speech recognition with deep recurrent neural networks. In: 2013 IEEE International Conference on Acoustics Speech and Signal Processing (2013)","DOI":"10.1109\/ICASSP.2013.6638947"},{"issue":"5","key":"20_CR11","doi-asserted-by":"crossref","first-page":"603","DOI":"10.1109\/TMM.2015.2407694","volume":"17","author":"N Harte","year":"2015","unstructured":"Harte, N., Gillen, E.: TCD-TIMIT: An audio-visual corpus of continuous speech. IEEE Trans. Multimedia 17(5), 603\u2013615 (2015)","journal-title":"IEEE Trans. Multimedia"},{"key":"20_CR12","unstructured":"Hassanat, A.: Visual passwords using automatic lip reading. Int. J. Sci.: Basic Appl. Res. (IJSBAR) 13(1) (2014)"},{"key":"20_CR13","doi-asserted-by":"crossref","unstructured":"Hermansky, H., Ellis, D., Sharma, S.: Tandem connectionist feature extraction for conventional HMM systems. In: Proceedings of 2000 IEEE International Conference on Acoustics Speech, and Signal Processing (2000)","DOI":"10.1109\/ICASSP.2000.862024"},{"issue":"8","key":"20_CR14","doi-asserted-by":"crossref","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural Comput. 9(8), 1735\u20131780 (1997)","journal-title":"Neural Comput."},{"key":"20_CR15","doi-asserted-by":"crossref","unstructured":"Huang, J., Kingsbury, B.: Audio-visual deep learning for noise robust speech recognition. In: 2013 IEEE International Conference on Acoustics Speech and Signal Processing (2013)","DOI":"10.1109\/ICASSP.2013.6639140"},{"key":"20_CR16","doi-asserted-by":"crossref","unstructured":"Koller, O., Ney, H., Bowden, R.: Deep learning of mouth shapes for sign language. In: 2015 IEEE International Conference on Computer Vision Workshop (ICCVW) (2015)","DOI":"10.1109\/ICCVW.2015.69"},{"key":"20_CR17","doi-asserted-by":"crossref","unstructured":"Lee, B., Hasegawa-Johnson, M., Goudeseune, C., Kamdar, S., Borys, S., Liu, M., Huang, T.: AVICAR: Audio-visual speech corpus in a car environment. In: 8th International Conference on Spoken Language Processing (2004)","DOI":"10.21437\/Interspeech.2004-424"},{"key":"20_CR18","unstructured":"Lucey, P., Potamianos, G., Sridharan, S.: An extended pose-invariant lipreading system. In: Proceedings of AVSP 2007: International Conference on Auditory-Visual Speech Processing. International Speech Communication Association (2007)"},{"key":"20_CR19","doi-asserted-by":"crossref","unstructured":"Mroueh, Y., Marcheret, E., Goel, V.: Deep multimodal learning for audio-visual speech recognition. In: 2015 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP) (2015)","DOI":"10.1109\/ICASSP.2015.7178347"},{"key":"20_CR20","unstructured":"Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., Ng, A.Y.: Multimodal deep learning. In: Proceedings of 28th International Conference on Machine Learning (ICML), pp. 689\u2013696 (2011)"},{"issue":"4","key":"20_CR21","doi-asserted-by":"crossref","first-page":"722","DOI":"10.1007\/s10489-014-0629-7","volume":"42","author":"K Noda","year":"2014","unstructured":"Noda, K., Yamaguchi, Y., Nakadai, K., Okuno, H.G., Ogata, T.: Audio-visual speech recognition using deep learning. Appl. Intell. 42(4), 722\u2013737 (2014)","journal-title":"Appl. Intell."},{"issue":"9","key":"20_CR22","doi-asserted-by":"crossref","first-page":"1306","DOI":"10.1109\/JPROC.2003.817150","volume":"91","author":"G Potamianos","year":"2003","unstructured":"Potamianos, G., Neti, C., Gravier, G., Garg, A., Senior, A.: Recent advances in the automatic recognition of audiovisual speech. Proc. IEEE 91(9), 1306\u20131326 (2003)","journal-title":"Proc. IEEE"},{"key":"20_CR23","first-page":"1","volume-title":"Issues in Visual and Audio-Visual Speech Processing","author":"G Potamianos","year":"2004","unstructured":"Potamianos, G., Neti, C., Luettin, J., Matthews, I.: Audio-visual automatic speech recognition: An overview. In: Bailly, G., Vatikiotis-Bateson, E., Perrier, P. (eds.) Issues in Visual and Audio-Visual Speech Processing, pp. 1\u201330. MIT Press, Cambridge (2004). Chap. 10"},{"key":"20_CR24","unstructured":"Schmidt, C., Koller, O.: Using viseme recognition to improve a sign language translation system. In: International Workshop on Spoken Language Translation, Heidelberg, Germany, pp. 197\u2013203 (2013)"},{"key":"20_CR25","doi-asserted-by":"crossref","unstructured":"Sui, C., Bennamoun, M., Togneri, R.: Listening with your eyes: Towards a practical visual speech recognition system using deep Boltzmann machines. In: 2015 IEEE International Conference on Computer Vision (ICCV) (2015)","DOI":"10.1109\/ICCV.2015.26"},{"key":"20_CR26","doi-asserted-by":"crossref","unstructured":"Wand, M., Koutnik, J., Schmidhuber, J.: Lipreading with long short-term memory. In: 2016 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP) (2016)","DOI":"10.1109\/ICASSP.2016.7472852"},{"key":"20_CR27","unstructured":"Young, S., Evermann, G., Hain, T., Kershaw, D., Moore, G., Odell, J., Ollason, D., Povey, D., Valtchev, V., Woodland, P.: The HTK Book. Technical report (2002)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2016 Workshops"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-54427-4_20","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,26]],"date-time":"2022-07-26T06:56:01Z","timestamp":1658818561000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-54427-4_20"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017]]},"ISBN":["9783319544267","9783319544274"],"references-count":27,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-54427-4_20","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017]]}}}