{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,11]],"date-time":"2025-06-11T04:11:50Z","timestamp":1749615110289,"version":"3.41.0"},"publisher-location":"Cham","reference-count":23,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319461816"},{"type":"electronic","value":"9783319461823"}],"license":[{"start":{"date-parts":[[2016,1,1]],"date-time":"2016-01-01T00:00:00Z","timestamp":1451606400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2016,1,1]],"date-time":"2016-01-01T00:00:00Z","timestamp":1451606400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016]]},"DOI":"10.1007\/978-3-319-46182-3_25","type":"book-chapter","created":{"date-parts":[[2016,9,8]],"date-time":"2016-09-08T05:19:28Z","timestamp":1473311968000},"page":"298-311","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["Emotion Recognition in Speech with Deep Learning Architectures"],"prefix":"10.1007","author":[{"given":"Mehmet","family":"Erdal","sequence":"first","affiliation":[]},{"given":"Markus","family":"K\u00e4chele","sequence":"additional","affiliation":[]},{"given":"Friedhelm","family":"Schwenker","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2016,9,9]]},"reference":[{"key":"25_CR1","unstructured":"Kun, H., Dong, Y., Ivan, T.: Speech emotion recognition using deep neural network and extreme learning machine. In: 15th Annual Conference of the International Speech Communication Association, ISCA, Singapore, pp. 223\u2013227 (2014)"},{"key":"25_CR2","doi-asserted-by":"crossref","unstructured":"Trigeorgis, G., Ringeval, F., Brueckner, R., Marchi, E., Nicoalou, A.M., Zafeiriou, S.: Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network. In: 41st IEEE International Conference on Accoustics, Speech and Signal Processing, ICASSP, Shanghai, pp. 5200\u20135204 (2016)","DOI":"10.1109\/ICASSP.2016.7472669"},{"key":"25_CR3","doi-asserted-by":"crossref","unstructured":"Kim, Y., Lee, H., Provost, E.M.: Deep learning for robust feature generation in audiovisual emotion recognition. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Vancouver, pp. 3687\u20133691 (2013)","DOI":"10.1109\/ICASSP.2013.6638346"},{"key":"25_CR4","doi-asserted-by":"publisher","first-page":"1527","DOI":"10.1162\/neco.2006.18.7.1527","volume":"18","author":"GE Hinton","year":"2006","unstructured":"Hinton, G.E., Osinderos, S., The, Y.W.: A fast learning algorithm for deep belief nets. Neural Comput. 18, 1527\u20131554 (2006). MIT Press, Cambridge","journal-title":"Neural Comput."},{"key":"25_CR5","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"crossref","first-page":"104","DOI":"10.1007\/978-3-319-12568-8_13","volume-title":"Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications","author":"EM Albornoz","year":"2014","unstructured":"Albornoz, E.M., S\u00e1nchez-Guti\u00e9rrez, M., Martinez-Licona, F., Rufiner, H.L., Goddard, J.: Spoken emotion recognition using deep learning. In: Bayro-Corrochano, E., Hancock, E. (eds.) CIARP 2014. LNCS, vol. 8827, pp. 104\u2013111. Springer, Heidelberg (2014)"},{"key":"25_CR6","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1155\/2014\/105245","volume":"2014","author":"C Huang","year":"2014","unstructured":"Huang, C., Gong, W., Fu, W.: A research of speech emotion recognition based on deep belief network and SVM. Math. Probl. Eng. 2014, 1\u20137 (2014). Beijing, Article ID 749604","journal-title":"Math. Probl. Eng."},{"key":"25_CR7","unstructured":"Glorot, X., Bordes, A., Bengio, Y.: Deep sparse rectifier neural networks. In: Proceedings of the 14th International Conference of Artificial Intelligence and Statistics, JMLR Proceedings, Fort Lauderdale, pp. 315\u2013323 (2011)"},{"key":"25_CR8","unstructured":"Maas, A., Hannun, A., Ng, A.: Rectifier nonlinearities improve neural network acoustic models. In: ICML Workshop on Deep Learning for Audio Speech, and Language Processing, JMLR, Atlanta (2013)"},{"key":"25_CR9","unstructured":"Goodfellow, I., Bengio, Y., Courville, A.: Deep Learning. MIT Press (2016, in preparation). http:\/\/www.deeplearningbook.org"},{"key":"25_CR10","doi-asserted-by":"publisher","first-page":"179","DOI":"10.1207\/s15516709cog1402_1","volume":"14","author":"JL Elman","year":"1990","unstructured":"Elman, J.L.: Finding structure in time. Cogn. Sci. 14, 179\u2013211 (1990). Wiley","journal-title":"Cogn. Sci."},{"key":"25_CR11","doi-asserted-by":"publisher","first-page":"1550","DOI":"10.1109\/5.58337","volume":"78","author":"P Werbos","year":"1990","unstructured":"Werbos, P.: Backpropagation through time: what does it do and how to do it. Proc. IEEE 78, 1550\u20131560 (1990)","journal-title":"Proc. IEEE"},{"key":"25_CR12","doi-asserted-by":"publisher","first-page":"99","DOI":"10.1007\/s10772-011-9125-1","volume":"15","author":"SG Koolgaudi","year":"2012","unstructured":"Koolgaudi, S.G., Rao, K.S.: Emotion recognition from speech: a review. Int. J. Speech Technol. 15, 99\u2013117 (2012). Springer","journal-title":"Int. J. Speech Technol."},{"key":"25_CR13","doi-asserted-by":"publisher","first-page":"258","DOI":"10.4236\/ojs.2014.44025","volume":"4","author":"Z Ma","year":"2014","unstructured":"Ma, Z., Fokou\u00e9, E.: A comparison of classifiers in performing speaker accent recognition using MFCCs. Open J. Stat. 4, 258\u2013266 (2014). Scientific Research Publishing Inc","journal-title":"Open J. Stat."},{"key":"25_CR14","doi-asserted-by":"crossref","unstructured":"Mohino-Herranz, I., Gil-Pita, R., Alonso-Diaz, S., Rosa-Zurera, M.: MFCC based enlargement of the training set for emotion recognition in speech. Signal Image Process. Int. J. 5 (2014)","DOI":"10.5121\/csit.2014.4123"},{"key":"25_CR15","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1109\/79.911197","volume":"18","author":"R Cowie","year":"2001","unstructured":"Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, W., Taylor, J.: Emotion recognition in human-computer interaction. IEEE Signal Process. Mag. 18, 32\u201380 (2001). IEEE","journal-title":"IEEE Signal Process. Mag."},{"key":"25_CR16","doi-asserted-by":"crossref","unstructured":"Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W., Weiss, B.: A database of German emotional speech. In: Proceedings of Interspeech, Lissabon, pp. 1517\u20131520 (2005)","DOI":"10.21437\/Interspeech.2005-446"},{"key":"25_CR17","unstructured":"Lee, H., Pham, P., Largman, Y., Ng, A.Y.: Unsupervised feature learning for audio classification using convolutional deep belief networks. In: Advances in Neural Information Processing Systems, vol. 22, pp. 1096\u20131104. Curran Associates Inc., Vancouver (2009)"},{"key":"25_CR18","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Systems, vol. 25, pp. 1097\u20131105. Curran Associates Inc., Nevada (2012)"},{"key":"25_CR19","unstructured":"Sutskever, I., Martens, J., Dahl, G.E., Hinton, G.E.: On the importance of initialization and momentum in deep learning. In: Proceedings of the 30th International Conference on Machine Learning, Atlanta, pp. 1139\u20131147 (2013)"},{"key":"25_CR20","first-page":"1532","volume":"10","author":"H Larochelle","year":"2009","unstructured":"Larochelle, H., Bengio, Y., Louradour, J., Lamblin, P.: Exploring strategies for training deep neural networks. J. Mach. Learn. Res. 10, 1532\u20134435 (2009). JMLR.org","journal-title":"J. Mach. Learn. Res."},{"key":"25_CR21","unstructured":"Le, Q., Jaitly, N., Hinton, G.E.: A simple way to initialize recurrent networks of rectified linear units. CoRR (2015)"},{"key":"25_CR22","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"crossref","first-page":"9","DOI":"10.1007\/3-540-49430-8_2","volume-title":"Neural Networks: Tricks of the Trade","author":"YA LeCun","year":"1998","unstructured":"LeCun, Y.A., Bottou, L., Orr, G.B., M\u00fcller, K.-R.: Efficient backprop. In: Orr, G.B., M\u00fcller, K.-R. (eds.) NIPS-WS 1996. LNCS, vol. 1524, pp. 9\u201350. Springer, Heidelberg (1998)"},{"key":"25_CR23","doi-asserted-by":"crossref","unstructured":"K\u00e4chele, M., Zharkov, D., Meudt, S., Schwenker, F.: Prosodic, spectral and voice quality feature selection using a long-term stopping criterion for audio-based emotion recognition. In: Proceedings of the International Conference on Pattern Recognition (ICPR), pp. 803\u2013808 (2014)","DOI":"10.1109\/ICPR.2014.148"}],"container-title":["Lecture Notes in Computer Science","Artificial Neural Networks in Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-46182-3_25","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,10]],"date-time":"2025-06-10T17:25:33Z","timestamp":1749576333000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-46182-3_25"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016]]},"ISBN":["9783319461816","9783319461823"],"references-count":23,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-46182-3_25","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2016]]},"assertion":[{"value":"9 September 2016","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ANNPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"IAPR Workshop on Artificial Neural Networks in Pattern Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Ulm","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Germany","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2016","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28 September 2016","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 September 2016","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"annpr2016","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}]}}