{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T16:58:54Z","timestamp":1778605134614,"version":"3.51.4"},"publisher-location":"Cham","reference-count":17,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783030368074","type":"print"},{"value":"9783030368081","type":"electronic"}],"license":[{"start":{"date-parts":[[2019,1,1]],"date-time":"2019-01-01T00:00:00Z","timestamp":1546300800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019]]},"DOI":"10.1007\/978-3-030-36808-1_74","type":"book-chapter","created":{"date-parts":[[2019,12,6]],"date-time":"2019-12-06T15:04:08Z","timestamp":1575644648000},"page":"681-689","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["Time-Frequency Deep Representation Learning for Speech Emotion Recognition Integrating Self-attention"],"prefix":"10.1007","author":[{"given":"Jiaxing","family":"Liu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhilei","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Longbiao","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lili","family":"Guo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianwu","family":"Dang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2019,12,5]]},"reference":[{"key":"74_CR1","unstructured":"Ramakrishnan, S., EI Emary, I.M.: Speech emotion recognition approaches in human computer interaction, pp. 937\u2013940. Kluwer Academic Publishers (2013)"},{"key":"74_CR2","doi-asserted-by":"crossref","unstructured":"Guo, L., Wang, L., Dang, J., Zhang, L., Guan, H., Li, X.: Speech emotion recognition by combining amplitude and phase information using convolutional neural network. In: Proceedings of the Interspeech, pp. 1611\u20131615 (2018)","DOI":"10.21437\/Interspeech.2018-2156"},{"key":"74_CR3","doi-asserted-by":"publisher","first-page":"75798","DOI":"10.1109\/ACCESS.2019.2921390","volume":"7","author":"L Guo","year":"2019","unstructured":"Guo, L., Wang, L., Dang, J., Liu, Z., Guan, H.: Exploration of complementary features for speech emotion recognition based on kernel extreme learning machine. IEEE Access 7, 75798\u201375809 (2019)","journal-title":"IEEE Access"},{"key":"74_CR4","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"782","DOI":"10.1007\/978-3-030-01418-6_76","volume-title":"Artificial Neural Networks and Machine Learning \u2013 ICANN 2018","author":"L Zhang","year":"2018","unstructured":"Zhang, L., Wang, L., Dang, J., Guo, L., Yu, Q.: Gender-aware CNN-BLSTM for speech emotion recognition. In: K\u016frkov\u00e1, V., Manolopoulos, Y., Hammer, B., Iliadis, L., Maglogiannis, I. (eds.) ICANN 2018. LNCS, vol. 11139, pp. 782\u2013790. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01418-6_76"},{"key":"74_CR5","doi-asserted-by":"crossref","unstructured":"Zhou, P., Li, X., Li, J., Jing, X.: Speech emotion recognition based on mixed MFCC. In: Applied Mechanics and Materials, pp. 1252\u20131258. Trans Tech Publications (2013)","DOI":"10.4028\/www.scientific.net\/AMM.249-250.1252"},{"key":"74_CR6","doi-asserted-by":"crossref","unstructured":"Han, K., Yu, D., Tashev, I.: Speech emotion recognition using deep neural network and extreme learning machine. In: Fifteenth Annual Conference of the International Speech Communication Association (2014)","DOI":"10.21437\/Interspeech.2014-57"},{"key":"74_CR7","doi-asserted-by":"crossref","unstructured":"Satt, A., Rozenberg, S., Hoory, R.: Efficient emotion recognition from speech using deep learning on spectrograms. In: Proceedings of the Interspeech, pp. 1089\u20131093 (2017)","DOI":"10.21437\/Interspeech.2017-200"},{"key":"74_CR8","doi-asserted-by":"crossref","unstructured":"Guo, L., Wang, L., Dang, J., et al.: A feature fusion method based on extreme learning machine for speech emotion recognition. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2666\u20132670. IEEE (2018)","DOI":"10.1109\/ICASSP.2018.8462219"},{"key":"74_CR9","unstructured":"Bahdanau, D., Cho, K., Bengio, Y.: Neural machine translation by jointly learning to align and translate. Comput. Sci. (2014)"},{"key":"74_CR10","doi-asserted-by":"publisher","first-page":"55","DOI":"10.1109\/MCI.2018.2840738","volume":"13","author":"T Young","year":"2018","unstructured":"Young, T., Hazarika, D., Poria, S., Cambria, E.: Recent trends in deep learning based natural language processin. IEEE Comput. Intell. Mag. 13, 55\u201375 (2018)","journal-title":"IEEE Comput. Intell. Mag."},{"key":"74_CR11","doi-asserted-by":"crossref","unstructured":"Li, P., Song, Y., McLoughlin, I., Guo, W., Dai, L.: An attention pooling based representation learning method for speech emotion recognition. In: Proceedings of the Interspeech 2018, pp. 3087\u20133091 (2018)","DOI":"10.21437\/Interspeech.2018-1242"},{"key":"74_CR12","doi-asserted-by":"crossref","unstructured":"Gorrostieta, C., et al.: Attention-based sequence classification for affect detection. In: Proceedings of the Interspeech 2018, pp. 506\u2013510 (2018)","DOI":"10.21437\/Interspeech.2018-1610"},{"key":"74_CR13","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NIPS, pp. 5998\u20136008 (2017)"},{"key":"74_CR14","doi-asserted-by":"publisher","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","volume":"42","author":"C Busso","year":"2008","unstructured":"Busso, C., et al.: IEMOCAP: interactive emotional dyadic motion capture database. Lang. Resour. Eval. 42, 335 (2008)","journal-title":"Lang. Resour. Eval."},{"key":"74_CR15","doi-asserted-by":"crossref","unstructured":"Ma, X., Wu, Z., Jia, J., Xu, M., Meng, H.: Emotion recognition from variable-length speech segments using deep learning on spectrograms. In: Proceedings of the Interspeech 2018, pp. 3683\u20133687 (2018)","DOI":"10.21437\/Interspeech.2018-2228"},{"key":"74_CR16","doi-asserted-by":"crossref","unstructured":"Kim, Y., Provost, E.M.: Emotion classification via utterance-level dynamics: a pattern-based approach to characterizing affective expressions. In: IEEE ICASSP, pp. 3677\u20133681 (2013)","DOI":"10.1109\/ICASSP.2013.6638344"},{"key":"74_CR17","first-page":"3221","volume":"15","author":"LVD Maaten","year":"2014","unstructured":"Maaten, L.V.D.: Accelerating t-SNE using tree-based algorithms. J. Mach. Learn. Res. 15, 3221\u20133245 (2014)","journal-title":"J. Mach. Learn. Res."}],"container-title":["Communications in Computer and Information Science","Neural Information Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-36808-1_74","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,3,12]],"date-time":"2024-03-12T13:28:26Z","timestamp":1710250106000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-030-36808-1_74"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019]]},"ISBN":["9783030368074","9783030368081"],"references-count":17,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-36808-1_74","relation":{},"ISSN":["1865-0929","1865-0937"],"issn-type":[{"value":"1865-0929","type":"print"},{"value":"1865-0937","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019]]},"assertion":[{"value":"5 December 2019","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICONIP","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Neural Information Processing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Sydney, NSW","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Australia","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2019","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"12 December 2019","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15 December 2019","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"26","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"iconip2019","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/ajiips.com.au\/iconip2019\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}