{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,21]],"date-time":"2026-04-21T22:04:52Z","timestamp":1776809092397,"version":"3.51.2"},"publisher-location":"Cham","reference-count":35,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783031048111","type":"print"},{"value":"9783031048128","type":"electronic"}],"license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022]]},"DOI":"10.1007\/978-3-031-04812-8_35","type":"book-chapter","created":{"date-parts":[[2022,4,27]],"date-time":"2022-04-27T08:05:38Z","timestamp":1651046738000},"page":"413-426","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["Transferability Evaluation of Speech Emotion Recognition Between Different Languages"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6203-9945","authenticated-orcid":false,"given":"Ievgen","family":"Iosifov","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6507-0761","authenticated-orcid":false,"given":"Olena","family":"Iosifova","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3420-5621","authenticated-orcid":false,"given":"Oleh","family":"Romanovskyi","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9349-7946","authenticated-orcid":false,"given":"Volodymyr","family":"Sokolov","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1608-3149","authenticated-orcid":false,"given":"Ihor","family":"Sukailo","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,4,28]]},"reference":[{"issue":"2","key":"35_CR1","doi-asserted-by":"publisher","first-page":"1","DOI":"10.5815\/ijigsp.2020.02.01","volume":"12","author":"HPP Win","year":"2020","unstructured":"Win, H.P.P., Khine, P.T.T.: Emotion recognition system of noisy speech in real world environment. Int. J. Image Graph. Sig. Process. 12(2), 1\u20138 (2020). https:\/\/doi.org\/10.5815\/ijigsp.2020.02.01","journal-title":"Int. J. Image Graph. Sig. Process."},{"issue":"5","key":"35_CR2","doi-asserted-by":"publisher","first-page":"54","DOI":"10.5815\/ijmecs.2016.05.07","volume":"8","author":"JA Kumar","year":"2016","unstructured":"Kumar, J.A., Balakrishnan, M., Wan Yahaya, W.A.J.: Emotional design in multimedia learning: how emotional intelligence moderates learning outcomes. Int. J. Mod. Educ. Comput. Sci. 8(5), 54\u201363 (2016). https:\/\/doi.org\/10.5815\/ijmecs.2016.05.07","journal-title":"Int. J. Mod. Educ. Comput. Sci."},{"issue":"1","key":"35_CR3","doi-asserted-by":"publisher","first-page":"26","DOI":"10.5815\/ijmsc.2021.01.04","volume":"7","author":"P Dhar","year":"2021","unstructured":"Dhar, P., Guha, S.: A system to predict emotion from Bengali speech. Int. J. Math. Sci. Comput. 7(1), 26\u201335 (2021). https:\/\/doi.org\/10.5815\/ijmsc.2021.01.04","journal-title":"Int. J. Math. Sci. Comput."},{"issue":"4","key":"35_CR4","doi-asserted-by":"publisher","first-page":"39","DOI":"10.5815\/ijigsp.2016.04.05","volume":"8","author":"A Shirani","year":"2016","unstructured":"Shirani, A., Nilchi, A.R.N.: Speech emotion recognition based on SVM as both feature selector and classifier. Int. J. Image Graph. Sig. Process. 8(4), 39\u201345 (2016). https:\/\/doi.org\/10.5815\/ijigsp.2016.04.05","journal-title":"Int. J. Image Graph. Sig. Process."},{"issue":"7","key":"35_CR5","doi-asserted-by":"publisher","first-page":"61","DOI":"10.5815\/ijigsp.2014.07.08s","volume":"6","author":"JS Devi","year":"2014","unstructured":"Devi, J.S., Yarramalle, S., Prasad Nandyala, S.: Speaker emotion recognition based on speech features and classification techniques. Int. J. Image Graph. Sig. Process. 6(7), 61\u201377 (2014). https:\/\/doi.org\/10.5815\/ijigsp.2014.07.08s","journal-title":"Int. J. Image Graph. Sig. Process."},{"key":"35_CR6","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1016\/j.specom.2020.04.005","volume":"122","author":"L Abdel-Hamid","year":"2020","unstructured":"Abdel-Hamid, L.: Egyptian Arabic speech emotion recognition using prosodic, spectral and wavelet features. Speech Commun. 122, 19\u201330 (2020). https:\/\/doi.org\/10.1016\/j.specom.2020.04.005","journal-title":"Speech Commun."},{"key":"35_CR7","doi-asserted-by":"publisher","unstructured":"Pajupuu, H.: Estonian emotional speech corpus. Dataset V5. Center of Estonian Language Resources (2012). https:\/\/doi.org\/10.15155\/EKI.000A","DOI":"10.15155\/EKI.000A"},{"key":"35_CR8","doi-asserted-by":"publisher","unstructured":"Kerkeni, L., et al.: French emotional speech database\u2014Or\u00e9au. Dataset V2 (2020). https:\/\/doi.org\/10.5281\/zenodo.4405783","DOI":"10.5281\/zenodo.4405783"},{"key":"35_CR9","doi-asserted-by":"publisher","unstructured":"Burkhardt, F., et al.: A database of German emotional speech. Interspeech (2005). https:\/\/doi.org\/10.21437\/interspeech.2005-446","DOI":"10.21437\/interspeech.2005-446"},{"issue":"6","key":"35_CR10","doi-asserted-by":"publisher","first-page":"457","DOI":"10.17743\/jaes.2018.0036","volume":"66","author":"N Vrysas","year":"2018","unstructured":"Vrysas, N., et al.: Speech emotion recognition for performance interaction. J. Audio Eng. Soc. 66(6), 457\u2013467 (2018). https:\/\/doi.org\/10.17743\/jaes.2018.0036","journal-title":"J. Audio Eng. Soc."},{"key":"35_CR11","doi-asserted-by":"publisher","unstructured":"Vryzas, N., et al.: Subjective evaluation of a speech emotion recognition interaction framework. In: Proceedings of the Audio Mostly 2018 on Sound in Immersion and Emotion (2018). https:\/\/doi.org\/10.1145\/3243274.3243294","DOI":"10.1145\/3243274.3243294"},{"issue":"1","key":"35_CR12","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s10579-018-9427-x","volume":"53","author":"O Mohamad Nezami","year":"2018","unstructured":"Mohamad Nezami, O., Jamshid Lou, P., Karami, M.: ShEMO: a large-scale validated database for Persian speech emotion detection. Lang. Resour. Eval. 53(1), 1\u201316 (2018). https:\/\/doi.org\/10.1007\/s10579-018-9427-x","journal-title":"Lang. Resour. Eval."},{"key":"35_CR13","doi-asserted-by":"publisher","unstructured":"Latif, S., et al.: Cross lingual speech emotion recognition: Urdu vs. Western languages. In: 2018 International Conference on Frontiers of Information Technology (FIT) (2018). https:\/\/doi.org\/10.1109\/fit.2018.00023","DOI":"10.1109\/fit.2018.00023"},{"issue":"5","key":"35_CR14","doi-asserted-by":"publisher","first-page":"331","DOI":"10.1080\/0163853x.2011.558002","volume":"48","author":"F Roberts","year":"2011","unstructured":"Roberts, F., Margutti, P., Takano, S.: Judgments concerning the valence of inter-turn silence across speakers of American English, Italian, and Japanese. Discourse Process. 48(5), 331\u2013354 (2011). https:\/\/doi.org\/10.1080\/0163853x.2011.558002","journal-title":"Discourse Process."},{"key":"35_CR15","doi-asserted-by":"publisher","unstructured":"Neumann, M., Thang Vu, N.: Cross-lingual and multilingual speech emotion recognition on English and French. In: 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2018). https:\/\/doi.org\/10.1109\/icassp.2018.8462162","DOI":"10.1109\/icassp.2018.8462162"},{"key":"35_CR16","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.specom.2019.04.004","volume":"110","author":"X Li","year":"2019","unstructured":"Li, X., Akagi, M.: Improving multilingual speech emotion recognition by combining acoustic features in a three-layer model. Speech Commun. 110, 1\u201312 (2019). https:\/\/doi.org\/10.1016\/j.specom.2019.04.004","journal-title":"Speech Commun."},{"issue":"4","key":"35_CR17","doi-asserted-by":"publisher","first-page":"1845","DOI":"10.1007\/s40747-020-00250-4","volume":"7","author":"W Zehra","year":"2021","unstructured":"Zehra, W., Javed, A.R., Jalil, Z., Khan, H.U., Gadekallu, T.R.: Cross corpus multi-lingual speech emotion recognition using ensemble learning. Complex Intell. Syst. 7(4), 1845\u20131854 (2021). https:\/\/doi.org\/10.1007\/s40747-020-00250-4","journal-title":"Complex Intell. Syst."},{"issue":"8","key":"35_CR18","doi-asserted-by":"publisher","first-page":"e0220386","DOI":"10.1371\/journal.pone.0220386","volume":"14","author":"P Heracleous","year":"2019","unstructured":"Heracleous, P., Yoneyama, A.: A comprehensive study on bilingual and multilingual speech emotion recognition using a two-pass classification scheme. PLoS ONE 14(8), e0220386 (2019). https:\/\/doi.org\/10.1371\/journal.pone.0220386","journal-title":"PLoS ONE"},{"key":"35_CR19","doi-asserted-by":"publisher","unstructured":"Sagha, H., et al.: Enhancing multilingual recognition of emotion in speech by language identification. Interspeech (2016). https:\/\/doi.org\/10.21437\/interspeech.2016-333","DOI":"10.21437\/interspeech.2016-333"},{"key":"35_CR20","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"114","DOI":"10.1007\/978-3-030-68790-8_10","volume-title":"Pattern Recognition. ICPR International Workshops and Challenges","author":"V Scotti","year":"2021","unstructured":"Scotti, V., Galati, F., Sbattella, L., Tedesco, R.: Combining deep and unsupervised features for multilingual speech emotion recognition. In: Del Bimbo, A., et al. (eds.) ICPR 2021. LNCS, vol. 12662, pp. 114\u2013128. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-030-68790-8_10"},{"key":"35_CR21","unstructured":"Iosifova, O., et al.: Techniques comparison for natural language processing. In: 2nd International Workshop on Modern Machine Learning Technologies and Data Science (MoMLeT&DS), vol. I(2631), pp. 57\u201367 (2020)"},{"key":"35_CR22","unstructured":"Iosifova, O., et al.: Analysis of automatic speech recognition methods. In: Workshop on Cybersecurity Providing in Information and Telecommunication Systems (CPITS), vol. 2923, pp. 252\u2013257 (2021)"},{"key":"35_CR23","doi-asserted-by":"publisher","unstructured":"Iosifov, I., Iosifova, O., Sokolov, V.: Sentence segmentation from unformatted text using language modeling and sequence labeling approaches. In: 2020 IEEE International Conference on Problems of Infocommunications. Science and Technology (PICST), pp. 335\u2013337 (2020). https:\/\/doi.org\/10.1109\/picst51311.2020.9468084","DOI":"10.1109\/picst51311.2020.9468084"},{"key":"35_CR24","series-title":"Lecture Notes on Data Engineering and Communications Technologies","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1007\/978-3-030-80472-5_3","volume-title":"Advances in Computer Science for Engineering and Education IV","author":"O Romanovskyi","year":"2021","unstructured":"Romanovskyi, O., Iosifov, I., Iosifova, O., Sokolov, V., Kipchuk, F., Sukaylo, I.: Automated pipeline for training dataset creation from unlabeled audios for automatic speech recognition. In: Hu, Z., Petoukhov, S., Dychka, I., He, M. (eds.) ICCSEEA 2021. LNDECT, vol. 83, pp. 25\u201336. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-030-80472-5_3"},{"key":"35_CR25","doi-asserted-by":"publisher","unstructured":"Lech, M., et al.: Real-time speech emotion recognition using a pre-trained image classification network: effects of bandwidth reduction and companding. Frontiers Comput. Sci. 2 (2020). https:\/\/doi.org\/10.3389\/fcomp.2020.00014","DOI":"10.3389\/fcomp.2020.00014"},{"key":"35_CR26","unstructured":"ISO 639-6:2009. Codes for the representation of names of languages. Part 6. Alpha-4 code for comprehensive coverage of language variants. https:\/\/www.iso.org\/standard\/43380.html. Accessed 20 Nov 2021"},{"key":"35_CR27","doi-asserted-by":"publisher","unstructured":"Zhou, K., et al.: Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset. In: 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (2021). https:\/\/doi.org\/10.1109\/icassp39728.2021.9413391","DOI":"10.1109\/icassp39728.2021.9413391"},{"issue":"4","key":"35_CR28","doi-asserted-by":"publisher","first-page":"377","DOI":"10.1109\/taffc.2014.2336244","volume":"5","author":"H Cao","year":"2014","unstructured":"Cao, H., et al.: CREMA-D: crowd-sourced emotional multimodal actors dataset. IEEE Trans. Affect. Comput. 5(4), 377\u2013390 (2014). https:\/\/doi.org\/10.1109\/taffc.2014.2336244","journal-title":"IEEE Trans. Affect. Comput."},{"issue":"4","key":"35_CR29","doi-asserted-by":"publisher","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","volume":"42","author":"C Busso","year":"2008","unstructured":"Busso, C., et al.: IEMOCAP: interactive emotional dyadic motion capture database. Lang. Resour. Eval. 42(4), 335\u2013359 (2008). https:\/\/doi.org\/10.1007\/s10579-008-9076-6","journal-title":"Lang. Resour. Eval."},{"issue":"5","key":"35_CR30","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0196391","volume":"13","author":"SR Livingstone","year":"2018","unstructured":"Livingstone, S.R., Russo, F.A.: The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): a dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5), e0196391 (2018). https:\/\/doi.org\/10.1371\/journal.pone.0196391","journal-title":"PLoS ONE"},{"key":"35_CR31","doi-asserted-by":"publisher","unstructured":"Haq, S., Jackson, P.J.B.: Multimodal emotion recognition. Mach. Audit. 398\u2013423 (2011). https:\/\/doi.org\/10.4018\/978-1-61520-919-4.ch017","DOI":"10.4018\/978-1-61520-919-4.ch017"},{"key":"35_CR32","doi-asserted-by":"publisher","unstructured":"Pichora-Fuller, M.K., Dupuis, K.: Toronto emotional speech set (TESS). Dataset 59. Scholars Portal Dataverse (2020). https:\/\/doi.org\/10.5683\/SP2\/E8H2MF","DOI":"10.5683\/SP2\/E8H2MF"},{"key":"35_CR33","doi-asserted-by":"publisher","unstructured":"Desplanques, B., Thienpondt, J., Demuynck, K.: ECAPA-TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification. Interspeech (2020). https:\/\/doi.org\/10.21437\/interspeech.2020-2650","DOI":"10.21437\/interspeech.2020-2650"},{"key":"35_CR34","doi-asserted-by":"publisher","unstructured":"Kumawat, P., Routray, A.: Applying TDNN architectures for analyzing duration dependencies on speech emotion recognition. Interspeech (2021). https:\/\/doi.org\/10.21437\/interspeech.2021-2168","DOI":"10.21437\/interspeech.2021-2168"},{"key":"35_CR35","unstructured":"Ravanelli, M., et al.: SpeechBrain: a general-purpose speech toolkit, pp. 1\u201334 (2020, preprint). https:\/\/arxiv.org\/abs\/2106.04624"}],"container-title":["Lecture Notes on Data Engineering and Communications Technologies","Advances in Computer Science for Engineering and Education"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-04812-8_35","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,4,27]],"date-time":"2022-04-27T08:17:49Z","timestamp":1651047469000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-04812-8_35"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"ISBN":["9783031048111","9783031048128"],"references-count":35,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-04812-8_35","relation":{},"ISSN":["2367-4512","2367-4520"],"issn-type":[{"value":"2367-4512","type":"print"},{"value":"2367-4520","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022]]},"assertion":[{"value":"28 April 2022","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICCSEEA","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Computer Science, Engineering and Education Applications","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Kyiv","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Ukraine","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 February 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22 February 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"iccseea2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/www.icics.net\/conf\/2022\/ICCSEEA2022\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}