{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T18:49:27Z","timestamp":1772909367013,"version":"3.50.1"},"reference-count":67,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2012,1,31]],"date-time":"2012-01-31T00:00:00Z","timestamp":1327968000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Int J Speech Technol"],"published-print":{"date-parts":[[2012,6]]},"DOI":"10.1007\/s10772-012-9127-7","type":"journal-article","created":{"date-parts":[[2012,1,30]],"date-time":"2012-01-30T16:27:49Z","timestamp":1327940869000},"page":"131-150","source":"Crossref","is-referenced-by-count":59,"title":["Speaker-independent emotion recognition exploiting a psychologically-inspired binary cascade classification schema"],"prefix":"10.1007","volume":"15","author":[{"given":"Margarita","family":"Kotti","sequence":"first","affiliation":[]},{"given":"Fabio","family":"Patern\u00f2","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2012,1,31]]},"reference":[{"issue":"4","key":"9127_CR1","doi-asserted-by":"crossref","first-page":"8197","DOI":"10.1016\/j.eswa.2008.10.005","volume":"36","author":"H. Altun","year":"2009","unstructured":"Altun, H., & Polat, G. (2009). Boosting selection of speech related features to improve performance of multi-class SVMs in emotion detection. Expert Systems With Applications, 36(4), 8197\u20138203.","journal-title":"Expert Systems With Applications"},{"key":"9127_CR2","first-page":"201","volume-title":"Proc. IEEE\/RSJ int. conf. intelligent robots and systems","author":"A. Austermann","year":"2005","unstructured":"Austermann, A., Esau, N., Kleinjohann, L., & Kleinjohann, B. (2005). Prosody based emotion recognition for MEXI. In Proc. IEEE\/RSJ int. conf. intelligent robots and systems, Edmonton, Canada, August 2005 (pp. 201\u2013208)."},{"issue":"8","key":"9127_CR3","doi-asserted-by":"crossref","first-page":"1955","DOI":"10.1109\/TASL.2010.2040784","volume":"18","author":"E. Benetos","year":"2010","unstructured":"Benetos, E., & Kotropoulos, C. (2010). Non-negative tensor factorization applied to music genre classification. IEEE Transactions on Audio, Speech, and Language Processing, 18(8), 1955\u20131967.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"9127_CR4","first-page":"283","volume-title":"Proc. 4th sound and music computing conference","author":"E. Benetos","year":"2007","unstructured":"Benetos, E., Kotti, M., & Kotropoulos, C. (2007). Large scale musical instrument identification. In Proc. 4th sound and music computing conference, Lefkada, Greece, July 2007 (pp. 283\u2013286)."},{"issue":"7\u20138","key":"9127_CR5","doi-asserted-by":"crossref","first-page":"613","DOI":"10.1016\/j.specom.2010.02.010","volume":"52","author":"D. Bitouk","year":"2010","unstructured":"Bitouk, D., Verma, R., & Nenkova, A. (2010). Class-level spectral features for emotion recognition. Speech Communication, 52(7\u20138), 613\u2013625.","journal-title":"Speech Communication"},{"key":"9127_CR6","first-page":"97","volume-title":"Proc. institute of phonetic sciences","author":"P. Boersma","year":"1993","unstructured":"Boersma, P. (1993). Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound. In Proc. institute of phonetic sciences (Vol.\u00a017, pp. 97\u2013110)."},{"key":"9127_CR7","doi-asserted-by":"crossref","first-page":"85","DOI":"10.1145\/964442.964459","volume-title":"Proc. 9th int. conf. intelligent user interfaces","author":"W. Bosma","year":"2004","unstructured":"Bosma, W., & Andr\u00e9, E. (2004). Exploiting emotions to disambiguate dialogue acts. In Proc. 9th int. conf. intelligent user interfaces, Funchal, Portugal, January 2004 (pp. 85\u201392)."},{"key":"9127_CR8","first-page":"1517","volume-title":"Proc. 9th European conf. speech communication and technology","author":"F. Burkhardt","year":"2005","unstructured":"Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W., & Weiss, B. (2005). A database of German emotional speech. In Proc. 9th European conf. speech communication and technology, Lisbon, Portugal, September 2005 (pp. 1517\u20131520)."},{"key":"9127_CR9","first-page":"1","volume-title":"Proc. 9th int. conf. spoken language processing","author":"F. Burkhardt","year":"2006","unstructured":"Burkhardt, F., Ajmera, J., Englert, R., Stegmann, J., & Burleson, W. (2006). Detecting anger in automated voice portal dialogs. In Proc. 9th int. conf. spoken language processing, Pittsburgh, USA, September 2006 (pp. 1\u20134)."},{"issue":"4","key":"9127_CR10","doi-asserted-by":"crossref","first-page":"582","DOI":"10.1109\/TASL.2008.2009578","volume":"17","author":"C. Busso","year":"2009","unstructured":"Busso, C., Lee, S., & Narayanan, S. (2009). Analysis of emotionally salient aspects of fundamental frequency for emotion detection. IEEE Transactions on Speech and Audio Processing, 17(4), 582\u2013596.","journal-title":"IEEE Transactions on Speech and Audio Processing"},{"issue":"1","key":"9127_CR11","doi-asserted-by":"crossref","first-page":"18","DOI":"10.1109\/T-AFFC.2010.1","volume":"1","author":"R. A. Calvo","year":"2011","unstructured":"Calvo, R. A., & D\u2019Mello, S. (2011). Affect detection: An interdisciplinary review of models, methods, and their applications. IEEE Transactions on Affective Computing, 1(1), 18\u201337.","journal-title":"IEEE Transactions on Affective Computing"},{"issue":"4","key":"9127_CR12","doi-asserted-by":"crossref","first-page":"611","DOI":"10.1016\/j.measurement.2008.10.005","volume":"42","author":"S. Chandaka","year":"2009","unstructured":"Chandaka, S., Chatterjee, A., & Munshi, S. (2009). Support vector machines employing cross-correlation for emotional speech recognition. Measurement, 42(4), 611\u2013618.","journal-title":"Measurement"},{"issue":"1","key":"9127_CR13","doi-asserted-by":"crossref","first-page":"32","DOI":"10.1109\/79.911197","volume":"18","author":"R. Cowie","year":"2001","unstructured":"Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, W., & Taylor, J. G. (2001). Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine, 18(1), 32\u201380.","journal-title":"IEEE Signal Processing Magazine"},{"key":"9127_CR14","doi-asserted-by":"crossref","first-page":"3341","DOI":"10.1145\/1520340.1520483","volume-title":"Proc. 27th int. conf. extended abstracts on human factors in computing systems","author":"K. Dai","year":"2009","unstructured":"Dai, K., Fell, H., & MacAuslan, J. (2009). Comparing emotions using acoustics and human perceptual dimensions. In Proc. 27th int. conf. extended abstracts on human factors in computing systems, Boston, USA, April 2009 (pp. 3341\u20133346)."},{"key":"9127_CR15","volume-title":"The nature of emotion: fundamental questions","author":"P. Ekman","year":"1994","unstructured":"Ekman, P., & Davidson, R. (1994). The nature of emotion: fundamental questions. New York: Oxford University Press."},{"key":"9127_CR16","series-title":"Series in affective science","first-page":"331","volume-title":"What the face reveals","author":"P. Ekman","year":"2005","unstructured":"Ekman, P., Matsumoto, D., & Friesen, W. (2005). Facial expression in affective disorders. In Series in affective science. What the face reveals (pp. 331\u2013342). London: Oxford Press. Chap.\u00a015."},{"issue":"3","key":"9127_CR17","doi-asserted-by":"crossref","first-page":"572","DOI":"10.1016\/j.patcog.2010.09.020","volume":"44","author":"M. Ayadi El","year":"2011","unstructured":"El Ayadi, M., Kamel, M. S., & Karray, F. (2011). Survey on speech emotion recognition: Features, classification schemes, and databases. Pattern Recognition, 44(3), 572\u2013587.","journal-title":"Pattern Recognition"},{"key":"9127_CR18","unstructured":"Ellis, D. P. W. (2005). PLP and RASTA (and MFCC, and inversion) in Matlab. URL http:\/\/www.ee.columbia.edu\/~dpwe\/resources\/matlab\/rastamat\/ . Online web resource."},{"key":"9127_CR19","first-page":"24","volume-title":"Proc. 6th int. workshop models and analysis of vocal emissions for biomedical applications","author":"H. P. Espinosa","year":"2009","unstructured":"Espinosa, H. P., & Reyes-Garc\u00eda, C. (2009). Detection of negative emotional state in speech with anfis and genetic algorithms. In Proc. 6th int. workshop models and analysis of vocal emissions for biomedical applications, Florence, Italy, December 2009 (pp. 24\u201328)."},{"key":"9127_CR20","doi-asserted-by":"crossref","first-page":"594","DOI":"10.1007\/978-3-642-03070-3_45","volume-title":"Proc. 6th int. conf. machine learning and data mining in pattern recognition","author":"E. Fersini","year":"2009","unstructured":"Fersini, E., Messina, E., Arosio, G., & Archetti, F. (2009). Audio-based emotion recognition in judicial domain: A multilayer support vector machines approach. In Proc. 6th int. conf. machine learning and data mining in pattern recognition, Leipzig, Germany, July 2009 (pp. 594\u2013602)."},{"key":"9127_CR21","first-page":"827","volume-title":"Proc. of IEEE int. conf. automatic face and gesture recognition","author":"H. Gunes","year":"2011","unstructured":"Gunes, H., Schuller, B., Pantic, M., & Cowie, R. (2011). Emotion representation, analysis and synthesis in continuous space: A survey. In Proc. of IEEE int. conf. automatic face and gesture recognition, Santa Barbara, USA, March 2011 (pp. 827\u2013834)."},{"issue":"7\u20138","key":"9127_CR22","first-page":"1157","volume":"3","author":"I. Guyon","year":"2003","unstructured":"Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3(7\u20138), 1157\u20131182.","journal-title":"Journal of Machine Learning Research"},{"issue":"1","key":"9127_CR23","doi-asserted-by":"crossref","first-page":"52","DOI":"10.1109\/34.655649","volume":"20","author":"I. Guyon","year":"1998","unstructured":"Guyon, I., Makhoul, J., Schwartz, R., & Vapnik, V. (1998). What size test set gives good error rate estimates? IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(1), 52\u201364.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"9127_CR24","first-page":"1833","volume-title":"Proc. 9th European conf. speech communication and technology","author":"J. Hirschberg","year":"2005","unstructured":"Hirschberg, J., Benus, S., Brenier, J. M., Enos, F., & Friedman, S. (2005). Distinguishing deceptive from non-deceptive speech. In Proc. 9th European conf. speech communication and technology, Lisbon, Portugal, September 2005 (pp. 1833\u20131836)."},{"key":"9127_CR25","doi-asserted-by":"crossref","first-page":"121","DOI":"10.1109\/ICDT.2009.30","volume-title":"Proc. 4th int. conf. digital telecommunications","author":"T. Iliou","year":"2009","unstructured":"Iliou, T., & Anagnostopoulos, C. (2009). Statistical evaluation of speech features for emotion recognition. In Proc. 4th int. conf. digital telecommunications, Colmar, France, July 2009 (pp. 121\u2013126)."},{"key":"9127_CR26","doi-asserted-by":"crossref","first-page":"251","DOI":"10.1145\/1040830.1040885","volume-title":"Proc. 10th int. conf. intelligent user interfaces","author":"Z. Inanoglu","year":"2005","unstructured":"Inanoglu, Z., & Caneel, R. (2005). Emotive alert: HMM-based emotion detection in voicemail messages. In Proc. 10th int. conf. intelligent user interfaces, San Diego, USA, January 2005 (pp. 251\u2013253)."},{"key":"9127_CR27","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-4615-3262-0","volume-title":"Digital filters and signal processing","author":"L. B. Jackson","year":"1989","unstructured":"Jackson, L. B. (1989). Digital filters and signal processing (2nd ed.). New York: Kluwer Academic.","edition":"2"},{"issue":"5","key":"9127_CR28","doi-asserted-by":"crossref","first-page":"770","DOI":"10.1037\/0033-2909.129.5.770","volume":"129","author":"P. N. Juslin","year":"2003","unstructured":"Juslin, P. N., & Laukka, P. (2003). Communication of emotions in vocal expression and music performance: Different channels, same code? Psychological Bulletin, 129(5), 770\u2013814.","journal-title":"Psychological Bulletin"},{"key":"9127_CR29","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/1579114.1579172","volume-title":"Proc. 2nd int. conf. pervsive technologies related to assistive environments","author":"E. I. Konstantinidis","year":"2009","unstructured":"Konstantinidis, E. I., Hitoglou-Antoniadou, M., Luneski, A., Bamidis, P. D., & Nikolaidou, M. M. (2009). Using affective avatars and rich multimedia content for education of children with autism. In Proc. 2nd int. conf. pervsive technologies related to assistive environments, Corfu, Greece, June 2009 (pp. 1\u20136)."},{"key":"9127_CR30","first-page":"305","volume-title":"Proc. 5th int. symposium communication systems, networks and digital signal processing","author":"T. P. Kostoulas","year":"2006","unstructured":"Kostoulas, T. P., & Fakotakis, N. (2006). A speaker dependent emotion recognition framework. In Proc. 5th int. symposium communication systems, networks and digital signal processing, Patras, Greece, July 2006 (pp. 305\u2013309)."},{"key":"9127_CR31","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/ICPR.2008.4761624","volume-title":"Proc. 19th int. conf. pattern recognition","author":"M. Kotti","year":"2008","unstructured":"Kotti, M., & Kotropoulos, C. (2008). Gender classification in two emotional speech databases. In Proc. 19th int. conf. pattern recognition, Tampa, USA, December 2008 (pp. 1\u20134)."},{"key":"9127_CR32","volume-title":"Proc. 2nd int. workshop cognitive information processing","author":"M. Kotti","year":"2010","unstructured":"Kotti, M., Patern\u00f2, F., & Kotropoulos, C. (2010). Speaker-independent negative emotion recognition. In Proc. 2nd int. workshop cognitive information processing, Elba Island, Italy, June 2010."},{"issue":"12","key":"9127_CR33","first-page":"293","volume":"13","author":"C. M. Lee","year":"2005","unstructured":"Lee, C. M., & Narayanan, S. (2005). Towards detecting emotions in spoken dialogs. IEEE Transactions on Speech and Audio Processing, 13(12), 293\u2013303.","journal-title":"IEEE Transactions on Speech and Audio Processing"},{"key":"9127_CR34","volume-title":"Information theory, inference and learning algorithms","author":"D. J. C. MacKay","year":"2003","unstructured":"MacKay, D. J. C. (2003). Information theory, inference and learning algorithms. Cambridge: Cambridge University Press."},{"key":"9127_CR35","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-642-66286-7","volume-title":"Linear prediction of speech","author":"J. D. Markel","year":"1976","unstructured":"Markel, J. D., & Gray, A. H. (1976). Linear prediction of speech. New York: Springer."},{"issue":"2\u20133","key":"9127_CR36","doi-asserted-by":"crossref","first-page":"109","DOI":"10.1007\/s10772-009-9023-y","volume":"10","author":"W. Minker","year":"2007","unstructured":"Minker, W., Pittermann, J., Pittermann, A., Strau\u00df, P. M., & B\u00fchler, D. (2007). Challenges in speech-based human\u2013computer interfaces. International Journal of Speech Technology, 10(2\u20133), 109\u2013119.","journal-title":"International Journal of Speech Technology"},{"key":"9127_CR37","first-page":"183","volume-title":"Proc. 7th int. conf. advances in pattern recognition","author":"H. K. Mishra","year":"2009","unstructured":"Mishra, H. K., & Sekhar, C. C. (2009). Variational Gaussian mixture models for speech emotion recognition. In Proc. 7th int. conf. advances in pattern recognition, Kolkata, India, February 2009 (pp. 183\u2013186)."},{"key":"9127_CR38","first-page":"1281","volume-title":"Proc. IEEE int. conf. acoustics, speech, and signal processing","author":"H. Mixdorff","year":"2000","unstructured":"Mixdorff, H. (2000). A novel approach to the fully automatic extraction of Fujisaki model parameters. In Proc. IEEE int. conf. acoustics, speech, and signal processing, June 2000 (pp. 1281\u20131284)."},{"issue":"2","key":"9127_CR39","doi-asserted-by":"crossref","first-page":"1097","DOI":"10.1121\/1.405558","volume":"93","author":"I. R. Murray","year":"1993","unstructured":"Murray, I. R., & Arnott, J. L. (1993). Toward the simulation of emotion in synthetic speech: A review of the literature on human vocal emotion. The Journal of the Acoustical Society of America, 93(2), 1097\u20131108.","journal-title":"The Journal of the Acoustical Society of America"},{"key":"9127_CR40","first-page":"1973","volume-title":"Proc. int. conf. human-computer interaction, extended abstracts on human factors in computing systems","author":"C. Nass","year":"2005","unstructured":"Nass, C., Jonsson, I. M., Harris, H., Reaves, B., Endo, J., Brave, S., & Takayama, L. (2005). Improving automotive safety by pairing driver emotion and car voice emotion. In Proc. int. conf. human-computer interaction, extended abstracts on human factors in computing systems, Portland, OR, USA, April 2005 (pp. 1973\u20131976)."},{"key":"9127_CR41","author":"S. Ntalampiras","year":"2009","unstructured":"Ntalampiras, S., Potamitis, I., & Fakotakis, N. (2009). An adaptive framework for acoustic monitoring of potential hazards. EURASIP Journal on Audio, Speech, and Music Processing. doi: 10.1155\/2009\/594103 .","journal-title":"EURASIP Journal on Audio, Speech, and Music Processing"},{"issue":"9","key":"9127_CR42","doi-asserted-by":"crossref","first-page":"1370","DOI":"10.1109\/JPROC.2003.817122","volume":"91","author":"M. Pantic","year":"2003","unstructured":"Pantic, M., & Rothkrantz, L. J. M. (2003). Toward an affect-sensitive multimodal human-computer interaction. Proceedings of the IEEE, 91(9), 1370\u20131390.","journal-title":"Proceedings of the IEEE"},{"key":"9127_CR43","doi-asserted-by":"crossref","first-page":"239","DOI":"10.1145\/1180995.1181044","volume-title":"Proc. 8th int. conf. multimodal interfaces","author":"M. Pantic","year":"2006","unstructured":"Pantic, M., Pentland, A., Nijholt, A., & Huang, T. (2006). Human computing and machine understanding of human behavior: A survey. In Proc. 8th int. conf. multimodal interfaces, Banff, Canada, November 2006 (pp. 239\u2013248)."},{"key":"9127_CR44","first-page":"1096","volume-title":"Proc. 18th int. conf. pattern recognition","author":"T. L. Pao","year":"2006","unstructured":"Pao, T. L., Chen, Y. T., Yeh, J. H., & Li, P. J. (2006). Mandarin emotional speech recognition based on SVM and NN. In Proc. 18th int. conf. pattern recognition, Hong Kong, Hong Kong, August 2006 (pp. 1096\u20131100)."},{"key":"9127_CR45","doi-asserted-by":"crossref","DOI":"10.7551\/mitpress\/1140.001.0001","volume-title":"Affective computing","author":"R. W. Picard","year":"1997","unstructured":"Picard, R. W. (1997). Affective computing. Cambridge: MIT Press."},{"issue":"1","key":"9127_CR46","doi-asserted-by":"crossref","first-page":"49","DOI":"10.1007\/s10772-010-9068-y","volume":"13","author":"J. Pittermann","year":"2010","unstructured":"Pittermann, J., Pittermann, A., & Minker, W. (2010). Emotion recognition and adaptation in spoken dialogue systems. International Journal of Speech Technology, 13(1), 49\u201360.","journal-title":"International Journal of Speech Technology"},{"key":"9127_CR47","doi-asserted-by":"crossref","unstructured":"Ramakrishnan, S., & El Emary, I. (2011). Speech emotion recognition approaches in human computer interaction. Telecommunication Systems, 1\u201312. doi: 10.1007\/s11235-011-9624-z .","DOI":"10.1007\/s11235-011-9624-z"},{"issue":"12","key":"9127_CR48","doi-asserted-by":"crossref","first-page":"1535","DOI":"10.1016\/j.patrec.2009.12.036","volume":"31","author":"P. Ruvolo","year":"2010","unstructured":"Ruvolo, P., Fasel, I., & Movellan, J. R. (2010). A learning approach to hierarchical feature selection and aggregation for audio classification. Pattern Recognition Letters, 31(12), 1535\u20131542.","journal-title":"Pattern Recognition Letters"},{"issue":"4","key":"9127_CR49","doi-asserted-by":"crossref","first-page":"83","DOI":"10.5715\/jnlp.14.4_83","volume":"14","author":"N. Sato","year":"2007","unstructured":"Sato, N., & Obuchi, Y. (2007). Emotion recognition using mel-frequency cepstral coefficients. Journal of Natural Language Processing, 14(4), 83\u201396.","journal-title":"Journal of Natural Language Processing"},{"issue":"1\u20132","key":"9127_CR50","doi-asserted-by":"crossref","first-page":"227","DOI":"10.1016\/S0167-6393(02)00084-5","volume":"40","author":"K. R. Scherer","year":"2003","unstructured":"Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms. Speech Communication, 40(1\u20132), 227\u2013256.","journal-title":"Speech Communication"},{"key":"9127_CR51","doi-asserted-by":"crossref","first-page":"864","DOI":"10.1109\/ICME.2005.1521560","volume-title":"Proc. IEEE int. conf. multimedia and expo","author":"B. Schuller","year":"2005","unstructured":"Schuller, B., Reiter, S., Muller, R., Al-Hames, M., Lang, M., & Rigoll, G. (2005a). Speaker independent speech emotion recognition by ensemble classification. In Proc. IEEE int. conf. multimedia and expo, Amsterdam, The Netherlands, July 2005 (pp. 864\u2013867)."},{"key":"9127_CR52","first-page":"325","volume-title":"Proc. IEEE int. conf. acoustics, speech, and signal processing","author":"B. Schuller","year":"2005","unstructured":"Schuller, B., Villar, R. J., Rigoll, G., & Lang, M. (2005b). Meta-classifiers in acoustic and linguistic feature fusion-based affect recognition. In Proc. IEEE int. conf. acoustics, speech, and signal processing, Philadelphia, USA, March 2005 (pp. 325\u2013328)."},{"key":"9127_CR53","doi-asserted-by":"crossref","first-page":"30","DOI":"10.1145\/1322192.1322201","volume-title":"Proceedings of 9th int. conf. multimodal interfaces","author":"B. Schuller","year":"2007","unstructured":"Schuller, B., M\u00fceller, R., H\u00f6ernler, B., H\u00f6ethker, A., Konosu, H., & Rigoll, G. (2007). Audiovisual recognition of spontaneous interest within conversations. In Proceedings of 9th int. conf. multimodal interfaces, Nagoya, Japan, November 2007 (pp. 30\u201337)."},{"key":"9127_CR54","doi-asserted-by":"crossref","first-page":"453","DOI":"10.1109\/ROMAN.2008.4600708","volume-title":"Proc. 17th IEEE int. symposium robot and human interactive communication","author":"B. Schuller","year":"2008","unstructured":"Schuller, B., Rigoll, G., Can, S., & Feussner, H. (2008). Emotion sensitive speech control for human-robot interaction in minimal invasive surgery. In Proc. 17th IEEE int. symposium robot and human interactive communication, Munich, Germany, August 2008 (pp. 453\u2013458)."},{"issue":"12","key":"9127_CR55","doi-asserted-by":"crossref","first-page":"1760","DOI":"10.1016\/j.imavis.2009.02.013","volume":"27","author":"B. Schuller","year":"2009","unstructured":"Schuller, B., M\u00fcller, R., Eyben, F., Gast, J., H\u00f6rnler, B., W\u00f6llmer, M., Rigoll, G., H\u00f6thker, A., & Konosu, H. (2009a). Being bored? Recognising natural interest by extensive audiovisual integration for real-life application. Image and Vision Computing, 27(12), 1760\u20131774.","journal-title":"Image and Vision Computing"},{"key":"9127_CR56","first-page":"312","volume-title":"Proc. 10th annual int. conf. speech communication association","author":"B. Schuller","year":"2009","unstructured":"Schuller, B., Steidl, S., & Batliner, A. (2009b). The INTERSPEECH 2009 emotion challenge. In Proc. 10th annual int. conf. speech communication association, Brighton, UK, September 2009 (pp. 312\u2013315)."},{"issue":"2","key":"9127_CR57","doi-asserted-by":"crossref","first-page":"262","DOI":"10.1109\/TAU.1968.1161986","volume":"16","author":"M. M. Sondhi","year":"1968","unstructured":"Sondhi, M. M. (1968). New methods of pitch extraction. IEEE Transactions on Audio and Electroacoustics, 16(2), 262\u2013266.","journal-title":"IEEE Transactions on Audio and Electroacoustics"},{"key":"9127_CR58","first-page":"2029","volume-title":"Proc. 7th int. conf. spoken language processing","author":"R. Tato","year":"2002","unstructured":"Tato, R., Santos, R., Kompe, R., & Pardo, J. M. (2002). Emotional space improves emotion recognition. In Proc. 7th int. conf. spoken language processing, September 2002 (pp. 2029\u20132032)."},{"key":"9127_CR59","first-page":"29","volume-title":"Proc. 6th int. workshop models and analysis of vocal emissions for biomedical applications","author":"N. Vanello","year":"2009","unstructured":"Vanello, N., Martini, N., Milanesi, M., Keiser, H., Calisti, M., Bocchi, L., Manfredi, C., & Landini, L. (2009). Evaluation of a pitch estimation algorithm for speech emotion recognition. In Proc. 6th int. workshop models and analysis of vocal emissions for biomedical applications, Florence, Italy, December 2009 (pp. 29\u201332)."},{"key":"9127_CR60","doi-asserted-by":"crossref","first-page":"1500","DOI":"10.1109\/ICME.2005.1521717","volume-title":"Proceedings of IEEE int. conf. multimedia and expo","author":"D. Ververidis","year":"2005","unstructured":"Ververidis, D., & Kotropoulos, C. (2005). Emotional speech classification using Gaussian mixture models and the sequential floating forward selection algorithm. In Proceedings of IEEE int. conf. multimedia and expo, Los Alamitos, USA, July 2005 (pp. 1500\u20131503)."},{"key":"9127_CR61","volume-title":"Proc. 14th European signal processing conference","author":"D. Ververidis","year":"2006","unstructured":"Ververidis, D., & Kotropoulos, C. (2006). Fast sequential floating forward selection applied to emotional speech features estimated on DES and SUSAS data collections. In Proc. 14th European signal processing conference, Florence, Italy, September 2006."},{"key":"9127_CR62","first-page":"188","volume-title":"Proc. 4th IEEE tutorial and research workshop on perception and interactive technologies for speech-based systems","author":"T. Vogt","year":"2008","unstructured":"Vogt, T., Andr\u00e9, E., & Bee, N. (2008). EmoVoice\u2014A framework for online recognition of emotions from voice. In Proc. 4th IEEE tutorial and research workshop on perception and interactive technologies for speech-based systems, Irsee, Germany, June 2008 (pp. 188\u2013199)."},{"key":"9127_CR63","unstructured":"Wallach, H. (2006). Evaluation metrics for hard classifiers (Tech. Rep.). Cambridge University, Cavendish Lab. URL www.inference.phy.cam.ac.uk\/hmw26\/papers\/evaluation.ps ."},{"key":"9127_CR64","volume-title":"Mood and temperament","author":"D. Watson","year":"2000","unstructured":"Watson, D. (2000). Mood and temperament. New York: Guilford Press."},{"issue":"5","key":"9127_CR65","first-page":"1415","volume":"90","author":"B. Yang","year":"2010","unstructured":"Yang, B., & Lugger, M. (2010). Emotion recognition from speech signals using new harmony features. Signal Processing, Special Section on Statistical Signal & Array Processing, 90(5), 1415\u20131423.","journal-title":"Signal Processing, Special Section on Statistical Signal & Array Processing"},{"key":"9127_CR66","doi-asserted-by":"crossref","first-page":"126","DOI":"10.1145\/1322192.1322216","volume-title":"Proc. 9th int. conf. multimodal interfaces","author":"Z. Zeng","year":"2007","unstructured":"Zeng, Z., Pantic, M., Roisman, G. I., & Huang, T. S. (2007). A survey of affect recognition methods: Audio, visual and spontaneous expressions. In Proc. 9th int. conf. multimodal interfaces, Nagoya, Japan, November 2007 (pp. 126\u2013133)."},{"key":"9127_CR67","first-page":"443","volume-title":"Proc. 4th hellenic conf. artificial intelligence","author":"P. Zervas","year":"2006","unstructured":"Zervas, P., Mporas, I., Fakotakis, N., & Kokkinakis, G. K. (2006). Employing Fujisaki\u2019s intonation model parameters for emotion recognition. In Proc. 4th hellenic conf. artificial intelligence, Heraclion, Greece, May 2006 (pp. 443\u2013453)."}],"container-title":["International Journal of Speech Technology"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-012-9127-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10772-012-9127-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-012-9127-7","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,19]],"date-time":"2025-03-19T12:18:39Z","timestamp":1742386719000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10772-012-9127-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012,1,31]]},"references-count":67,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2012,6]]}},"alternative-id":["9127"],"URL":"https:\/\/doi.org\/10.1007\/s10772-012-9127-7","relation":{},"ISSN":["1381-2416","1572-8110"],"issn-type":[{"value":"1381-2416","type":"print"},{"value":"1572-8110","type":"electronic"}],"subject":[],"published":{"date-parts":[[2012,1,31]]}}}