{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T01:37:50Z","timestamp":1775266670543,"version":"3.50.1"},"reference-count":28,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2018,11,9]],"date-time":"2018-11-09T00:00:00Z","timestamp":1541721600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2019,6]]},"DOI":"10.1007\/s00034-018-0975-5","type":"journal-article","created":{"date-parts":[[2018,11,9]],"date-time":"2018-11-09T00:13:49Z","timestamp":1541722429000},"page":"2523-2543","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["Exploration of Properly Combined Audiovisual Representation with the Entropy Measure in Audiovisual Speech Recognition"],"prefix":"10.1007","volume":"38","author":[{"given":"Fatemeh","family":"Vakhshiteh","sequence":"first","affiliation":[]},{"given":"Farshad","family":"Almasganj","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,11,9]]},"reference":[{"key":"975_CR1","doi-asserted-by":"crossref","unstructured":"I. Almajai, S. Cox, R. Harvey, Y. Lan, Improved speaker independent lipreading using speaker adaptive training and deep neural networks, in Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE, 2016), pp. 2722\u20132726","DOI":"10.1109\/ICASSP.2016.7472172"},{"key":"975_CR2","doi-asserted-by":"publisher","unstructured":"E. Avots, T. Sapi\u0144ski, M. Bachmann, D. Kami\u0144ska, Audiovisual emotion recognition in wild. Mach. Vis. Appl. 1\u201311 (2018). https:\/\/doi.org\/10.1007\/s00138-018-0960-9","DOI":"10.1007\/s00138-018-0960-9"},{"key":"975_CR3","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1006\/cviu.1995.1004","volume":"61","author":"TF Cootes","year":"1995","unstructured":"T.F. Cootes, C.J. Taylor, D.H. Cooper, J. Graham, Active shape models-their training and application. Comput. Vis. Image Underst. 61, 38\u201359 (1995)","journal-title":"Comput. Vis. Image Underst."},{"key":"975_CR4","doi-asserted-by":"crossref","unstructured":"P. Duchnowski, U. Meier, A. Waibel, See me, hear me: integrating automatic speech recognition and lipreading, in Third International Conference on Spoken Language Processing (1994)","DOI":"10.21437\/ICSLP.1994-139"},{"issue":"3","key":"975_CR5","doi-asserted-by":"publisher","first-page":"141","DOI":"10.1109\/6046.865479","volume":"2","author":"S Dupont","year":"2000","unstructured":"S. Dupont, J. Luettin, Audio-visual speech modeling for continuous speech recognition. IEEE Trans. Multimed. 2(3), 141\u2013151 (2000)","journal-title":"IEEE Trans. Multimed."},{"key":"975_CR6","doi-asserted-by":"crossref","unstructured":"S. Gurbuz, Z. Tufekci, E. Patterson, J.N. Gowdy, Multi-stream product modal audio-visual integration strategy for robust adaptive speech recognition, in Proceedings of 2002 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 2 (IEEE, 2002), pp. II\u20132021","DOI":"10.1109\/ICASSP.2002.5745029"},{"issue":"6","key":"975_CR7","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"G. Hinton, L. Deng, D. Yu, G.E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, B. Kingsbury, Deep neural networks for acoustic modeling in speech recognition. IEEE Trans. Signal Process. 29(6), 82\u201397 (2012)","journal-title":"IEEE Trans. Signal Process."},{"key":"975_CR8","doi-asserted-by":"publisher","first-page":"1527","DOI":"10.1162\/neco.2006.18.7.1527","volume":"18","author":"GE Hinton","year":"2006","unstructured":"G.E. Hinton, S. Osindero, Y.W. Teh, A fast learning algorithm for deep belief nets. Neural Comput. 18, 1527\u20131554 (2006)","journal-title":"Neural Comput."},{"key":"975_CR9","doi-asserted-by":"crossref","unstructured":"J. Huang, B. Kingsbury, Audio-visual deep learning for noise robust speech recognition, in Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE, 2013), pp. 7596\u20137599","DOI":"10.1109\/ICASSP.2013.6639140"},{"key":"975_CR10","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1186\/s13636-017-0100-x","volume":"1","author":"D Kami\u0144ska","year":"2017","unstructured":"D. Kami\u0144ska, T. Sapi\u0144ski, G. Anbarjafari, Efficiency of chosen speech descriptors in relation to emotion recognition. EURASIP J. Audio Speech Music Process. 1, 3 (2017)","journal-title":"EURASIP J. Audio Speech Music Process."},{"key":"975_CR11","doi-asserted-by":"crossref","unstructured":"M. Kim, J., Ryu, E., Kim, Speech recognition by integrating audio, visual and contextual features based on neural networks, in Advances in Natural Computation. LNCS (2005)","DOI":"10.1007\/11539117_25"},{"key":"975_CR12","first-page":"149","volume-title":"Audio-Visual Speech Recognition using Red Exclusion and Neural Networks","author":"T Lewis","year":"2003","unstructured":"T. Lewis, D. Powers, Audio-Visual Speech Recognition using Red Exclusion and Neural Networks, vol. 24(1) (Australian Computer Society Inc, Sydney, 2003), pp. 149\u2013156"},{"key":"975_CR13","doi-asserted-by":"crossref","unstructured":"E. Marcheret, S. Chu, V. Goel, G. Potamianos, Efficient likelihood computation in multi-stream hmm based audio-visual speech recognition, in Eighth International Conference on Spoken Language Processing (ICSLP) (2004)","DOI":"10.21437\/Interspeech.2004-680"},{"key":"975_CR14","doi-asserted-by":"crossref","unstructured":"U. Meier, W. Hurst, P. Duchnowski, Adaptive bimodal sensor fusion for automatic speech reading, in Proceedings of 1996 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 2 (IEEE, 1996), pp. 833\u2013836","DOI":"10.1109\/ICASSP.1996.543250"},{"key":"975_CR15","doi-asserted-by":"crossref","unstructured":"A. Mohamed, G. Hinton, G. Penn, Understanding how deep belief networks perform acoustic modelling, in Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE, 2012), pp. 4273\u20134276","DOI":"10.1109\/ICASSP.2012.6288863"},{"key":"975_CR16","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1109\/TASL.2011.2109382","volume":"20","author":"A-R Mohamed","year":"2012","unstructured":"A.-R. Mohamed, A.-R. Dahl, G. Hinton, Acoustic modeling using deep belief networks. IEEE Trans. Audio Speech Lang. Process. 20, 14\u201322 (2012)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"975_CR17","doi-asserted-by":"crossref","unstructured":"Y. Mroueh, E. Marcheret, V. Goel, Deep multimodal learning for audio-visual speech recognition, in Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE, 2015), pp. 2130\u20132134","DOI":"10.1109\/ICASSP.2015.7178347"},{"key":"975_CR18","unstructured":"J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, A.Y. Ng, Multimodal deep learning, in Proceedings of the 28th International Conference on Machine Learning (ICML-11) (2011) pp. 689\u2013696"},{"key":"975_CR19","first-page":"1","volume":"99","author":"F Noroozi","year":"2017","unstructured":"F. Noroozi, M. Marjanovic, A. Njegus, S. Escalera, G. Anbarjafari, Audio-visual emotion recognition in video clips. IEEE Trans. Affect. Comput. 99, 1\u201317 (2017)","journal-title":"IEEE Trans. Affect. Comput."},{"key":"975_CR20","doi-asserted-by":"crossref","unstructured":"E.K. Patterson, S. Gurbuz, Z. Tufekci, J.N. Gowdy, Cuave: A new audio-visual database for multimodal human\u2013computer interface research, in Proceedings of 2002 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (IEEE, 2002), pp. II\u20132017","DOI":"10.1109\/ICASSP.2002.1006168"},{"issue":"9","key":"975_CR21","doi-asserted-by":"publisher","first-page":"1306","DOI":"10.1109\/JPROC.2003.817150","volume":"91","author":"G Potamianos","year":"2003","unstructured":"G. Potamianos, C. Neti, G. Gravier, A. Garg, A.W. Senior, Recent advances in the automatic recognition of audio-visual speech. Proc. IEEE 91(9), 1306\u20131326 (2003)","journal-title":"Proc. IEEE"},{"key":"975_CR22","unstructured":"D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, The Kaldi speech recognition toolkit, in IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, EPFL-CONF-192584 (IEEE Signal Processing Society, 2011)"},{"key":"975_CR23","first-page":"2949","volume":"15","author":"N Srivastava","year":"2014","unstructured":"N. Srivastava, R.R. Salakhutdinov, Multimodal learning with deep Boltzmann machines. J. Mach. Learn. Res. 15, 2949\u20132980 (2014)","journal-title":"J. Mach. Learn. Res."},{"key":"975_CR24","doi-asserted-by":"publisher","first-page":"212","DOI":"10.1121\/1.1907309","volume":"26","author":"WH Sumby","year":"1954","unstructured":"W.H. Sumby, I. Pollack, Visual contribution to speech intelligibility in noise. J. Acoust. Soc. Am. 26, 212\u2013215 (1954)","journal-title":"J. Acoust. Soc. Am."},{"issue":"2","key":"975_CR25","doi-asserted-by":"publisher","first-page":"159","DOI":"10.5566\/ias.1859","volume":"37","author":"F Vakhshiteh","year":"2018","unstructured":"F. Vakhshiteh, F. Almasganj, A. Nickabadi, Lip-reading via deep neural networks using hybrid visual features. Image Anal. Stereol. 37(2), 159\u2013171 (2018)","journal-title":"Image Anal. Stereol."},{"key":"975_CR26","doi-asserted-by":"crossref","unstructured":"F. Vakhshiteh, F. Almasganj, Lip-reading via deep neural network using appearance-based visual features, in 2017 24th National and 2nd International Iranian Conference on Biomedical Engineering (ICBME) (IEEE, 2017), pp. 1\u20136","DOI":"10.1109\/ICBME.2017.8430230"},{"key":"975_CR27","first-page":"71","volume":"1","author":"A Verma","year":"1999","unstructured":"A. Verma, T. Faruquie, C. Neti, S. Basu, A. Senior, Late integration in audio-visual continuous speech recognition. Autom. Speech Recognit. Underst. 1, 71\u201374 (1999)","journal-title":"Autom. Speech Recognit. Underst."},{"key":"975_CR28","unstructured":"K. Vesel\u00fd, A. Ghoshal, L. Burget, D. Povey, Sequence-discriminative training of deep neural networks, in INTERSPEECH (2013) pp. 2345\u20132349"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-018-0975-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00034-018-0975-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-018-0975-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T00:37:09Z","timestamp":1775263029000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00034-018-0975-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,11,9]]},"references-count":28,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2019,6]]}},"alternative-id":["975"],"URL":"https:\/\/doi.org\/10.1007\/s00034-018-0975-5","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"value":"0278-081X","type":"print"},{"value":"1531-5878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,11,9]]},"assertion":[{"value":"24 March 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 October 2018","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 October 2018","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 November 2018","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}