{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,17]],"date-time":"2026-06-17T22:23:24Z","timestamp":1781735004943,"version":"3.54.5"},"reference-count":76,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2023]]},"DOI":"10.1109\/access.2023.3326071","type":"journal-article","created":{"date-parts":[[2023,10,19]],"date-time":"2023-10-19T18:16:54Z","timestamp":1697739414000},"page":"116638-116649","source":"Crossref","is-referenced-by-count":39,"title":["Speech Emotion Recognition and Deep Learning: An Extensive Validation Using Convolutional Neural Networks"],"prefix":"10.1109","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-1806-2459","authenticated-orcid":false,"given":"Francesco Ardan Dal","family":"R\u00ed","sequence":"first","affiliation":[{"name":"Department of Information Engineering and Computer Science (DISI), University of Trento, Povo, Trento, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Fabio Cifariello","family":"Ciardi","sequence":"additional","affiliation":[{"name":"Department of Electronic Music, Conservatory of Music F. A. Bonporti, Trento, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7858-0928","authenticated-orcid":false,"given":"Nicola","family":"Conci","sequence":"additional","affiliation":[{"name":"Department of Information Engineering and Computer Science (DISI), University of Trento, Povo, Trento, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2005-446"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.3389\/frobt.2020.532279"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2019.104886"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1002\/j.1538-7305.1931.tb02334.x"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2016.2515617"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3136251"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/s10579-008-9076-6"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1733"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1177\/0022022101032001009"},{"key":"ref52","article-title":"Adversarial auto-encoders for speech based emotion recognition","author":"sahu","year":"2018","journal-title":"arXiv 1806 02146"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.3390\/electronics11233935"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.5220\/0011314900003266"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-753"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1016\/j.apacoust.2019.107020"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6289068"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2014.2336244"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3043201"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2010.09.020"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1016\/0092-6566(77)90037-X"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2021.103107"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-022-13725-y"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/RADIOELEK.2019.8733432"},{"key":"ref48","author":"pichora-fuller","year":"2020","journal-title":"Toronto Emotional Speech Set (TESS)"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/SPIN52536.2021.9566046"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ECTI-CON49241.2020.9158221"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2076804"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(03)00099-2"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3194452.3194460"},{"key":"ref49","article-title":"Design and implementation of butterworth, Chebyshev-I and elliptic filter for speech signal analysis","author":"podder","year":"2020","journal-title":"arXiv 2002 03130"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCMC51019.2021.9418357"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/PlatCon.2017.7883728"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2293"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096808"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2019.12.001"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.7717\/peerj-cs.751"},{"key":"ref5","first-page":"867","article-title":"Speech emotion recognition&#x2014;A deep learning approach","author":"a","year":"2021","journal-title":"Proc 5th Int Conf I-SMAC (IoT Social Mobile Analytics Cloud) (I-SMAC)"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1016\/j.procs.2023.01.163"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-1520"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.3390\/app12199518"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0196391"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053192"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/FIT.2018.00023"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1145\/3388790"},{"key":"ref30","article-title":"Adam: A Method for Stochastic Optimization","author":"kingma","year":"2015","journal-title":"Proc 3rd Int Conf Learn Represent"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICCCNT49239.2020.9225614"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1037\/a0036048"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-3190"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.3390\/electronics11223831"},{"key":"ref2","article-title":"An ensemble 1D-CNN-LSTM-GRU model with data augmentation for speech emotion recognition","volume":"218","author":"ahmed","year":"2023","journal-title":"Expert Syst Appl"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2022.3172954"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCE53296.2022.9730534"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICACITE53722.2022.9823781"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3068045"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3067460"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683163"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2014-57"},{"key":"ref68","first-page":"1","article-title":"Visualizing data using t-SNE","volume":"9","author":"van der maaten","year":"2008","journal-title":"J Mach Learn Res"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CICN49253.2020.9242635"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICIT56493.2022.9989197"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2017.2672829"},{"key":"ref25","article-title":"Gaussian error linear units (GELUs)","author":"hendrycks","year":"2016","journal-title":"arXiv 1606 08415"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414314"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462685"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472669"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2018.01.006"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2021.102946"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.3390\/electronics10232950"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/2502081.2502224"},{"key":"ref65","article-title":"Focal loss based residual convolutional neural network for speech emotion recognition","author":"tripathi","year":"2019","journal-title":"arXiv 1906 05682"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2020.101894"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.366937"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2936124"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0250173"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1121\/1.4799597"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.3390\/electronics9101725"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/10005208\/10287976.pdf?arnumber=10287976","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,13]],"date-time":"2023-11-13T19:35:41Z","timestamp":1699904141000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10287976\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":76,"URL":"https:\/\/doi.org\/10.1109\/access.2023.3326071","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023]]}}}