{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,2]],"date-time":"2026-04-02T09:40:15Z","timestamp":1775122815847,"version":"3.50.1"},"publisher-location":"Berlin, Heidelberg","reference-count":11,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"value":"9783540311119","type":"print"},{"value":"9783540316213","type":"electronic"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2005]]},"DOI":"10.1007\/11608288_66","type":"book-chapter","created":{"date-parts":[[2005,12,8]],"date-time":"2005-12-08T07:57:34Z","timestamp":1134028654000},"page":"493-499","source":"Crossref","is-referenced-by-count":32,"title":["Multi-level Fusion of Audio and Visual Features for Speaker Identification"],"prefix":"10.1007","author":[{"given":"Zhiyong","family":"Wu","sequence":"first","affiliation":[]},{"given":"Lianhong","family":"Cai","sequence":"additional","affiliation":[]},{"given":"Helen","family":"Meng","sequence":"additional","affiliation":[]}],"member":"297","reference":[{"key":"66_CR1","unstructured":"Senior, A., Neti, C., Maison, B.: On the use of visual information for improving audio-based speaker recognition. In: Proc. Audio-visual Speech Processing Conf., pp. 108\u2013111 (1999)"},{"key":"66_CR2","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"761","DOI":"10.1007\/3-540-44887-X_88","volume-title":"Audio-and Video-Based Biometrie Person Authentication","author":"A.V. Nefian","year":"2003","unstructured":"Nefian, A.V., Liang, L.H., Fu, T.Y., Liu, X.X.: A Bayesian approach to audio-visual speaker identification. In: Kittler, J., Nixon, M.S. (eds.) AVBPA 2003. LNCS, vol.\u00a02688, pp. 761\u2013769. Springer, Heidelberg (2003)"},{"key":"66_CR3","doi-asserted-by":"publisher","first-page":"23","DOI":"10.1109\/6046.985551","volume":"4","author":"C.C. Chibelushi","year":"2002","unstructured":"Chibelushi, C.C., Deravi, F., Mason, J.S.D.: A review of speech-based bimodal recognition. IEEE Trans. Multimedia\u00a04, 23\u201337 (2002)","journal-title":"IEEE Trans. Multimedia"},{"key":"66_CR4","doi-asserted-by":"publisher","first-page":"399","DOI":"10.1049\/cp:19970924","volume-title":"Proc. 6th IEEE International Conf. Image Processing and its Applications.","author":"C.C. Chibelushi","year":"1997","unstructured":"Chibelushi, C.C., Mason, J.S.D., Deravi, F.: Feature-level data fusion for bimodal person recognition. In: Proc. 6th IEEE International Conf. Image Processing and its Applications., pp. 399\u2013403. IEEE, Stevenage (1997)"},{"key":"66_CR5","doi-asserted-by":"publisher","first-page":"674","DOI":"10.1109\/3468.798073","volume":"29","author":"V. Chatzis","year":"1999","unstructured":"Chatzis, V., Bors, A.G., Pitas, I.: Multimodal decision-level fusion for person authentication. IEEE Trans. Syst. Man Cybern. A\u00a029, 674\u2013680 (1999)","journal-title":"IEEE Trans. Syst. Man Cybern. A"},{"key":"66_CR6","doi-asserted-by":"publisher","first-page":"141","DOI":"10.1109\/6046.865479","volume":"2","author":"S. Dupont","year":"2000","unstructured":"Dupont, S., Luettin, J.: Audio-visual speech modeling for continuous speech recognition. IEEE Trans. Multimedia\u00a02, 141\u2013151 (2000)","journal-title":"IEEE Trans. Multimedia"},{"key":"66_CR7","first-page":"993","volume-title":"Proc. IEEE International Conf. Acoustics, Speech, and Signal Processing,","author":"J.N. Gowdy","year":"2004","unstructured":"Gowdy, J.N., Subramanya, A., Bartels, C., Bilmes, J.: DBN based multi-stream models for audio-visual speech recognition. In: Billene, M. (ed.) Proc. IEEE International Conf. Acoustics, Speech, and Signal Processing,, vol.\u00a01, pp. 993\u2013996. IEEE, Canada (2004)"},{"key":"66_CR8","unstructured":"Dean, T., Kanazawa, J.: Probabilistic temporal reasoning. In: Proc. 7th National Conf. Artificial Intelligence, pp. 524\u2013528 (1988)"},{"key":"66_CR9","unstructured":"Wu, Z.Y.: Audio-visual bimodal modeling for speaker identification and visual-speech synthesis. Ph.D. Dissertation. Department of Computer Science and Technology, Tsinghua University, Beijing, China (2005)"},{"key":"66_CR10","doi-asserted-by":"crossref","first-page":"9","DOI":"10.1109\/79.911195","volume":"18","author":"T. Chen","year":"2001","unstructured":"Chen, T.: Audiovisual speech processing. IEEE Trans. Signal Processing\u00a018, 9\u201321 (2001)","journal-title":"IEEE Trans. Signal Processing"},{"key":"66_CR11","first-page":"3916","volume-title":"Proc. IEEE International Conf. Acoustics, Speech and Signal Processing","author":"J. Bilmes","year":"2002","unstructured":"Bilmes, J., Zweig, G.: The graphical models toolkit: An open source software system for speech and time-series processing. In: Proc. IEEE International Conf. Acoustics, Speech and Signal Processing, vol.\u00a04, pp. 3916\u20133919. IEEE, Florida (2002)"}],"container-title":["Lecture Notes in Computer Science","Advances in Biometrics"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/11608288_66.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,4,27]],"date-time":"2021-04-27T07:06:42Z","timestamp":1619507202000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/11608288_66"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2005]]},"ISBN":["9783540311119","9783540316213"],"references-count":11,"URL":"https:\/\/doi.org\/10.1007\/11608288_66","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2005]]}}}