{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,3]],"date-time":"2026-02-03T07:24:44Z","timestamp":1770103484403,"version":"3.49.0"},"publisher-location":"Cham","reference-count":19,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319544267","type":"print"},{"value":"9783319544274","type":"electronic"}],"license":[{"start":{"date-parts":[[2017,1,1]],"date-time":"2017-01-01T00:00:00Z","timestamp":1483228800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017]]},"DOI":"10.1007\/978-3-319-54427-4_21","type":"book-chapter","created":{"date-parts":[[2017,3,15]],"date-time":"2017-03-15T08:16:53Z","timestamp":1489565813000},"page":"277-289","source":"Crossref","is-referenced-by-count":24,"title":["Concatenated Frame Image Based CNN for Visual Speech Recognition"],"prefix":"10.1007","author":[{"given":"Takeshi","family":"Saitoh","sequence":"first","affiliation":[]},{"given":"Ziheng","family":"Zhou","sequence":"additional","affiliation":[]},{"given":"Guoying","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"Matti","family":"Pietik\u00e4inen","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,3,16]]},"reference":[{"key":"21_CR1","doi-asserted-by":"crossref","first-page":"141","DOI":"10.1109\/6046.865479","volume":"2","author":"S Dupont","year":"2000","unstructured":"Dupont, S., Luettin, J.: Audio-visual speech modeling for continuous speech recognition. IEEE Trans. Multimed. 2, 141\u2013151 (2000)","journal-title":"IEEE Trans. Multimed."},{"key":"21_CR2","doi-asserted-by":"crossref","first-page":"590","DOI":"10.1016\/j.imavis.2014.06.004","volume":"32","author":"Z Zhou","year":"2014","unstructured":"Zhou, Z., Zhao, G., Hong, X., Pietikainen, M.: A review of recent advances in visual speech decoding. Image Vis. Comput. 32, 590\u2013605 (2014)","journal-title":"Image Vis. Comput."},{"key":"21_CR3","doi-asserted-by":"crossref","unstructured":"Bregler, C., Konig, Y.: \u201cEigenlips\u201d for robust speech recognition. In: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 1994), pp. 669\u2013672 (1994)","DOI":"10.1109\/ICASSP.1994.389567"},{"key":"21_CR4","unstructured":"Lucey, P.J., Potamianos, G., Sridharan, S.: Patch-based analysis of visual speech from multiple views. In: Proceedings of International Conference on Auditory-Visual Speech Processing (AVSP 2008), pp. 69\u201373 (2008)"},{"key":"21_CR5","doi-asserted-by":"crossref","unstructured":"Shiraishi, J., Saitoh, T.: Optical flow based lip reading using non rectangular ROI and head motion reduction. In: 11th IEEE International Conference on Automatic Face and Gesture Recognition (FG2015) (2015)","DOI":"10.1109\/FG.2015.7163160"},{"key":"21_CR6","doi-asserted-by":"crossref","first-page":"198","DOI":"10.1109\/34.982900","volume":"24","author":"I Matthews","year":"2002","unstructured":"Matthews, I., Cootes, T.F., Bangham, J.A., Cox, S., Harvey, R.: Extraction of visual features for lipreading. IEEE Trans. Pattern Anal. Mach. Intell. 24, 198\u2013213 (2002)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"21_CR7","doi-asserted-by":"crossref","first-page":"559","DOI":"10.1016\/j.patcog.2010.09.011","volume":"44","author":"J Shin","year":"2011","unstructured":"Shin, J., Lee, J., Kim, D.: Real-time lip reading system for isolated Korean word recognition. Pattern Recogn. 44, 559\u2013571 (2011)","journal-title":"Pattern Recogn."},{"key":"21_CR8","unstructured":"Saitoh, T.: Efficient face model for lip reading. In: International Conference on Auditory-Visual Speech Processing (AVSP), pp. 227\u2013232 (2013)"},{"key":"21_CR9","unstructured":"Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., Ng, A.Y.: Multimodal deep learning. In: 28th International Conference on Machine Learning, pp. 689\u2013696 (2011)"},{"key":"21_CR10","doi-asserted-by":"crossref","unstructured":"Hu, D., Li, X., Lu, X.: Temporal multimodal learning in audiovisual speech recognition. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3574\u20133582 (2016)","DOI":"10.1109\/CVPR.2016.389"},{"key":"21_CR11","doi-asserted-by":"crossref","unstructured":"Noda, K., Yamaguchi, Y., Nakadai, K., Okuno, H.G., Ogata, T.: Lipreading using convolutional neural network. In: INTERSPEECH, pp. 1149\u20131153 (2014)","DOI":"10.21437\/Interspeech.2014-293"},{"key":"21_CR12","doi-asserted-by":"crossref","unstructured":"Amer, M.R., Siddiquie, B., Khan, S., Divakaran, A., Sawhney, H.: Multimodal fusion using dynamic hybrid models. In: IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 556\u2013563 (2014)","DOI":"10.1109\/WACV.2014.6836053"},{"key":"21_CR13","doi-asserted-by":"crossref","first-page":"64","DOI":"10.2197\/ipsjtcva.7.64","volume":"7","author":"Y Takashima","year":"2015","unstructured":"Takashima, Y., Kakihara, Y., Aihara, R., Takiguchi, T., Araki, Y., Mitani, N., Omori, K., Nakazono, K.: Audio-visual speech recognition using convolutive bottleneck networks for a person with severe hearing loss. IPSJ Trans. Comput. Vis. Appl. 7, 64\u201368 (2015)","journal-title":"IPSJ Trans. Comput. Vis. Appl."},{"key":"21_CR14","doi-asserted-by":"crossref","unstructured":"Anina, I., Zhou, Z., Zhao, G., Pietikainen, M.: OuluVS2: a multi-view audiovisual database for non-rigid mouth motion analysis. In: IEEE International Conference on Automatic Face and Gesture Recognition (FG) (2015)","DOI":"10.1109\/FG.2015.7163155"},{"key":"21_CR15","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Systems (2012)"},{"key":"21_CR16","unstructured":"Lin, M., Chen, Q., Yan, S.: Network in network. In: International Conference on Learning Representations (ICLR) (2014)"},{"key":"21_CR17","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S.: ImageNet classification with deep convolutional neural networks. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015)"},{"key":"21_CR18","doi-asserted-by":"crossref","first-page":"1254","DOI":"10.1109\/TMM.2009.2030637","volume":"11","author":"G Zhao","year":"2009","unstructured":"Zhao, G., Barnard, M., Pietikainen, M.: Lipreading with local spatiotemporal descriptors. IEEE Trans. Multimed. 11, 1254\u20131265 (2009)","journal-title":"IEEE Trans. Multimed."},{"key":"21_CR19","doi-asserted-by":"crossref","unstructured":"Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., Baskurt, A.: Sequential deep learning for human action recognition. In: International Workshop on Human Behavior Understanding (HBU 2011) (2011)","DOI":"10.1007\/978-3-642-25446-8_4"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2016 Workshops"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-54427-4_21","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,26]],"date-time":"2022-07-26T06:56:19Z","timestamp":1658818579000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-54427-4_21"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017]]},"ISBN":["9783319544267","9783319544274"],"references-count":19,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-54427-4_21","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017]]}}}