{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,18]],"date-time":"2025-12-18T14:08:26Z","timestamp":1766066906679,"version":"3.37.3"},"reference-count":32,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2018,9,10]],"date-time":"2018-09-10T00:00:00Z","timestamp":1536537600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Wireless Pers Commun"],"published-print":{"date-parts":[[2019,6]]},"DOI":"10.1007\/s11277-018-5930-z","type":"journal-article","created":{"date-parts":[[2018,9,10]],"date-time":"2018-09-10T06:13:14Z","timestamp":1536559994000},"page":"2129-2147","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["Visual Speech Recognition Using Optical Flow and Hidden Markov Model"],"prefix":"10.1007","volume":"106","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5481-7647","authenticated-orcid":false,"given":"Usha","family":"Sharma","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sushila","family":"Maheshkar","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"A. N.","family":"Mishra","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rahul","family":"Kaushik","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,9,10]]},"reference":[{"key":"5930_CR1","doi-asserted-by":"crossref","unstructured":"Sharma, U., Maheshkar, S., & Mishra, A. N. (2015). Study of robust feature extraction techniques for speech recognition system. In 1st international conference on futuristic trend in computational analysis and knowledge management ABLAZE 2015 (pp. 654\u2013658). Greater Noida.","DOI":"10.1109\/ABLAZE.2015.7154944"},{"key":"5930_CR2","first-page":"0051606","volume":"5","author":"S Sukale","year":"2016","unstructured":"Sukale, S., Borde, P., Gornale, S., & Yannawar, P. (2016). Recognition of isolated marathi words from side pose for multi-pose audio visual speech recognition. ADBU-Journal of Engineering Technology, 5, 0051606.","journal-title":"ADBU-Journal of Engineering Technology"},{"issue":"2","key":"5930_CR3","doi-asserted-by":"publisher","first-page":"167","DOI":"10.1142\/S1469026811003045","volume":"10","author":"AA Shaikh","year":"2011","unstructured":"Shaikh, A. A., Kumar, D. K., & Gubbi, J. (2011). Visual speech recognition using optical flow and support vector machines. International Journal of Computational Intelligence and Applications, 10(2), 167\u2013187.","journal-title":"International Journal of Computational Intelligence and Applications"},{"key":"5930_CR4","doi-asserted-by":"publisher","first-page":"1347","DOI":"10.1007\/s11277-014-2082-7","volume":"80","author":"I Memon","year":"2015","unstructured":"Memon, I., Chen, L., Majid, A., Lv, M., Hussain, I., & Chen, G. (2015). Travel recommendation using geo-tagged photos in social media for tourist. Wireless Personal Communications, 80, 1347\u20131362.","journal-title":"Wireless Personal Communications"},{"issue":"14","key":"5930_CR5","doi-asserted-by":"publisher","first-page":"377","DOI":"10.1007\/s11042-016-3834-z","volume":"76","author":"MH Memon","year":"2017","unstructured":"Memon, M. H., Li, J. P., Memon, I., & Arain, Q. A. (2017). GEO matching regions: multiple regions of interests using content based image retrieval based on relative locations. Multimedia Tools and Applications, 76(14), 377\u2013411.","journal-title":"Multimedia Tools and Applications"},{"key":"5930_CR6","doi-asserted-by":"publisher","DOI":"10.1080\/1206212X.2017.1309222","author":"QA Arain","year":"2017","unstructured":"Arain, Q. A., Memon, H., Memon, I., Memon, M. H., Shaikh, R. A., & Ali Mangi, F. (2017). Intelligent travel information platform based on location base services to predict user travel behavior from user-generated GPS traces. International Journal of Computers and Applications. https:\/\/doi.org\/10.1080\/1206212X.2017.1309222 .","journal-title":"International Journal of Computers and Applications"},{"issue":"1","key":"5930_CR7","first-page":"145","volume":"48","author":"RA Shaikh","year":"2016","unstructured":"Shaikh, R. A., Mmon, I., Mahar, J. A., & Shaikh, H. (2016). Database technology on the web: Query interface determining algorithm for deep web based on HTML features and hierarchical clustering. Sindh University Research Journal, 48(1), 145\u2013150.","journal-title":"Sindh University Research Journal"},{"key":"5930_CR8","doi-asserted-by":"publisher","DOI":"10.1007\/s11277-016-3900-x","author":"QA Arain","year":"2016","unstructured":"Arain, Q. A., Uqaili, M. A., Deng, Z., Memon, I., Jiao, J., Shaikh, M. A., et al. (2016). Clustering based energy efficient and communication protocol for multiple mix-zones over road networks. Wireless Personal Communications. https:\/\/doi.org\/10.1007\/s11277-016-3900-x .","journal-title":"Wireless Personal Communications"},{"key":"5930_CR9","volume-title":"Issues in visual and audio-visual speech processing","author":"G Potamianos","year":"2004","unstructured":"Potamianos, G., Neti, C., Luettin, J., & Matthews, I. (2004). Audio-visual automatic speech recognition: An overview. In G. Bailly, E. V. Bateson, & P. Perrier (Eds.), Issues in visual and audio-visual speech processing. Cambridge: MIT Press."},{"issue":"9","key":"5930_CR10","doi-asserted-by":"publisher","first-page":"590","DOI":"10.1016\/j.imavis.2014.06.004","volume":"32","author":"Z Zhou","year":"2014","unstructured":"Zhou, Z., Guoying, Z., Xiaopeng, H., & Matti, P. (2014). A review of recent advances in visual speech decoding. Image and Vision Computing, 32(9), 590\u2013605.","journal-title":"Image and Vision Computing"},{"issue":"2","key":"5930_CR11","doi-asserted-by":"publisher","first-page":"167","DOI":"10.1007\/s10772-014-9257-1","volume":"18","author":"P Borde","year":"2014","unstructured":"Borde, P., Varpe, A., Manza, R., & Yannawar, P. (2014). Recognition of isolated words using Zernike and MFCC features for audio visual speech recognition. International Journal of Speech Technology, 18(2), 167\u2013175.","journal-title":"International Journal of Speech Technology"},{"key":"5930_CR12","doi-asserted-by":"publisher","first-page":"880","DOI":"10.1016\/j.procs.2017.12.112","volume":"125","author":"A Maurya","year":"2018","unstructured":"Maurya, A., Kumar, D., & Agarwal, R. K. (2018). Speaker recognition for Hindi speech signal using MFCC-GMM approach. Procedia Computer Science, 125, 880\u2013887.","journal-title":"Procedia Computer Science"},{"issue":"4","key":"5930_CR13","doi-asserted-by":"publisher","first-page":"722","DOI":"10.1007\/s10489-014-0629-7","volume":"42","author":"K Noda","year":"2015","unstructured":"Noda, K., Yamaguchi, Y., Nkadai, K., Ouno, H. G., & Ogata, T. (2015). Audio-visual speech recognition using deep learning. Applied Intelligence, 42(4), 722\u2013737.","journal-title":"Applied Intelligence"},{"key":"5930_CR14","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2018.02.065","author":"D Song","year":"2018","unstructured":"Song, D., Kim, C., & Park, S. K. (2018). A multi-temporal framework for high level activity analysis: Violent event detection in visual surveillance. Information Sciences. https:\/\/doi.org\/10.1016\/j.ins.2018.02.065 .","journal-title":"Information Sciences"},{"key":"5930_CR15","unstructured":"Iwano, K., Tamura, S., & Furui, S. (2001). Bimodal speech recognition using lip movement measured by optical-flow analysis. In Proceedings of international workshop on hands-free speech communication HSC 2001 (pp. 187\u2013190). Kyoto."},{"key":"5930_CR16","unstructured":"Yoshinaga, T., Tamura, S., Iwano, K., & Furui, S. (2003). Audio-visual speech recognition using lip movement extracted from side-face images. In International conference on audio-visual speech processing AVSP-2003. St. Jorioz."},{"key":"5930_CR17","unstructured":"Sharma, U., Maheshkar, S., & Mishra, A. N. (2017). Hindi numerals classification using Gammatone frequency cepstral coefficients features. In Proceedings of 4th international conference on computing for sustainable global development INDIACom-2017 (pp. 2171\u20132175). New Delhi: IEEE Conference."},{"issue":"2","key":"5930_CR18","first-page":"79","volume":"4","author":"AN Mishra","year":"2011","unstructured":"Mishra, A. N., Chandra, M., Biswas, A., & Sharan, S. N. (2011). Robust features for connected Hindi digits recognition. International Journal of Signal Processing, Image Processing and Pattern Recognition, 4(2), 79\u201390.","journal-title":"International Journal of Signal Processing, Image Processing and Pattern Recognition"},{"key":"5930_CR19","unstructured":"Shao, Y., Jin, Z., & Wang, D. (2009). An auditory-based features for robust speech recognition. In IEEE international conference on acoustic speech and signal processing. Taipei: Taipei International Convention Center."},{"key":"5930_CR20","doi-asserted-by":"crossref","unstructured":"Shaikh, R. A., Li, J. P., Khan, A., Dep, S., Kumar, K., & Memon, I. (2014). Contemporary integration of content based image retrieval. In 11th conference on wavelet active media technology and information processing (ICCWAMTIP). Chengdu.","DOI":"10.1109\/ICCWAMTIP.2014.7073413"},{"key":"5930_CR21","doi-asserted-by":"crossref","unstructured":"Memon, M. H., Li, J. P., Memon, I., Shaikh, R. A., Khan, A., & Deep, S. (2014). Unsupervised feature approach for content based image retrieval using principal component analysis. In 11th conference on wavelet active media technology and information processing (ICCWAMTIP). Chengdu.","DOI":"10.1109\/ICCWAMTIP.2014.7073406"},{"key":"5930_CR22","unstructured":"Memon, M. H., Li, J. P., Memon, I., Shaikh, R. A., Khan, A., & Deep, S. (2014). Content based image retrieval based on geo-location driven image tagging on the social web. In: 11th conference on wavelet active media technology and information processing (ICCWAMTIP). Chengdu."},{"issue":"1\u20133","key":"5930_CR23","doi-asserted-by":"publisher","first-page":"185","DOI":"10.1016\/0004-3702(81)90024-2","volume":"17","author":"BKP Horn","year":"1981","unstructured":"Horn, B. K. P., & Schunck, B. G. (1981). Determining optical flow. Artificial Intelligence, 17(1\u20133), 185\u2013203.","journal-title":"Artificial Intelligence"},{"key":"5930_CR24","first-page":"2","volume":"3","author":"AG Chitu","year":"2009","unstructured":"Chitu, A. G., & Rothkrantz, L. J. M. (2009). Visual speech recognition automatic system for lip reading of Dutch. Information Technologies and Control, 3, 2\u20139.","journal-title":"Information Technologies and Control"},{"issue":"3","key":"5930_CR25","doi-asserted-by":"publisher","first-page":"164","DOI":"10.1504\/IJSISE.2013.054793","volume":"6","author":"AN Mishra","year":"2013","unstructured":"Mishra, A. N., Chandra, M., Biswas, A., & Sharan, S. N. (2013). Hindi phoneme-viseme recognition from continuous speech. International Journal of Signal and Imaging Systems Engineering, 6(3), 164\u2013171.","journal-title":"International Journal of Signal and Imaging Systems Engineering"},{"key":"5930_CR26","first-page":"477","volume":"16","author":"I Koprinska","year":"2001","unstructured":"Koprinska, I., & Carrato, S. (2001). Temporal video segmentation: A survey. Signal Processing: Image Communication, 16, 477\u2013500.","journal-title":"Signal Processing: Image Communication"},{"issue":"1","key":"5930_CR27","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1007\/978-3-540-89859-7_3","volume":"35","author":"WC Ooi","year":"2009","unstructured":"Ooi, W. C., Jeon, C., Kim, K., Ko, H., & Han, D. K. (2009). Effective lip localization and tracking for achieving multimodal speech recognition. Multisensor Fusion and Integration for Intelligent Systems, Lecture Notes in Electrical Engineering, 35(1), 33\u201343.","journal-title":"Multisensor Fusion and Integration for Intelligent Systems, Lecture Notes in Electrical Engineering"},{"key":"5930_CR28","unstructured":"Luettin, J., Tracker, N. A., & Beet, S. W. (1995). Active shape models for visual speech feature extraction. Electronic system group report no. 95\/44, University of Sheffield, UK."},{"key":"5930_CR29","doi-asserted-by":"crossref","unstructured":"Eveno, N., Caplier, A., & Coulon, P. Y. (2001). A new color transformation for lips segmentation. In IEEE workshop on multimedia signal processing (MMSP\u201901). Cannes.","DOI":"10.1109\/MMSP.2001.962702"},{"issue":"5","key":"5930_CR30","doi-asserted-by":"publisher","first-page":"706","DOI":"10.1109\/TCSVT.2004.826754","volume":"14","author":"N Eveno","year":"2004","unstructured":"Eveno, N., Caplier, A., & Coulon, P. Y. (2004). Accurate and quasi-automatic lip tracking. IEEE, Transactions on Circuit and Systems for Video Technology, 14(5), 706\u2013715.","journal-title":"IEEE, Transactions on Circuit and Systems for Video Technology"},{"key":"5930_CR31","volume-title":"Fundamental of speech recognition","author":"LR Rabiner","year":"1993","unstructured":"Rabiner, L. R., & Juang, B. H. (1993). Fundamental of speech recognition. Upper Saddle River: Prentice Hall."},{"key":"5930_CR32","doi-asserted-by":"crossref","unstructured":"Young, S. J., & Woodland, P. C. (1993). The use of state tying in continuous speech recognition. In 3rd European conference on speech communication and technology EUROSPEECH 93 (pp. 2203\u20132206). Berlin.","DOI":"10.21437\/Eurospeech.1993-494"}],"container-title":["Wireless Personal Communications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11277-018-5930-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11277-018-5930-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11277-018-5930-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,9,1]],"date-time":"2022-09-01T00:41:18Z","timestamp":1661992878000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11277-018-5930-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,9,10]]},"references-count":32,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2019,6]]}},"alternative-id":["5930"],"URL":"https:\/\/doi.org\/10.1007\/s11277-018-5930-z","relation":{},"ISSN":["0929-6212","1572-834X"],"issn-type":[{"type":"print","value":"0929-6212"},{"type":"electronic","value":"1572-834X"}],"subject":[],"published":{"date-parts":[[2018,9,10]]},"assertion":[{"value":"10 September 2018","order":1,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}