{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T06:44:42Z","timestamp":1776840282901,"version":"3.51.2"},"reference-count":68,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"name":"NSF","award":["CNS-2016719"],"award-info":[{"award-number":["CNS-2016719"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Affective Comput."],"published-print":{"date-parts":[[2025,1]]},"DOI":"10.1109\/taffc.2024.3433386","type":"journal-article","created":{"date-parts":[[2024,7,25]],"date-time":"2024-07-25T17:28:48Z","timestamp":1721928528000},"page":"306-318","source":"Crossref","is-referenced-by-count":23,"title":["Versatile Audio-Visual Learning for Emotion Recognition"],"prefix":"10.1109","volume":"16","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9613-1002","authenticated-orcid":false,"given":"Lucas","family":"Goncalves","sequence":"first","affiliation":[{"name":"Erik Jonsson School of Engineering &#x0026; Computer Science, The University of Texas at Dallas, Richardson, TX, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1175-1577","authenticated-orcid":false,"given":"Seong-Gyun","family":"Leem","sequence":"additional","affiliation":[{"name":"Erik Jonsson School of Engineering &#x0026; Computer Science, The University of Texas at Dallas, Richardson, TX, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1933-1590","authenticated-orcid":false,"given":"Wei-Cheng","family":"Lin","sequence":"additional","affiliation":[{"name":"Erik Jonsson School of Engineering &#x0026; Computer Science, The University of Texas at Dallas, Richardson, TX, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8078-3305","authenticated-orcid":false,"given":"Berrak","family":"Sisman","sequence":"additional","affiliation":[{"name":"Erik Jonsson School of Engineering &#x0026; Computer Science, The University of Texas at Dallas, Richardson, TX, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4075-4072","authenticated-orcid":false,"given":"Carlos","family":"Busso","sequence":"additional","affiliation":[{"name":"Erik Jonsson School of Engineering &#x0026; Computer Science, The University of Texas at Dallas, Richardson, TX, USA"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3129340"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/34.908962"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2015.2490070"},{"key":"ref4","first-page":"549","article-title":"Interplay between linguistic and affective goals in facial expression during emotional utterances","volume-title":"Proc. 7th Int. Seminar Speech Prod.","author":"Busso"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/1027933.1027968"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2682899"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/SLT48900.2021.9383618"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ATSIP55956.2022.9805959"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747278"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-021-1293-0"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3395035.3425202"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2022.3216993"},{"key":"ref13","first-page":"689","article-title":"Multimodal deep learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Ngiam"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.73"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW54120.2021.00407"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.01.048"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref18","first-page":"24206","article-title":"VATT: Transformers for multimodal self-supervised learning from raw video, audio and text","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Akbari"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2022.3224688"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2798607"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2010.09.020"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12024"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D16-1203"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3656580"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2014.2336244"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2016.2515617"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953107"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-2464"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2022.3188390"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3577190.3614110"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00620"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00617"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096138"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1037\/h0030377"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-11012"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/MMUL.2019.2960219"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2017.2740923"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/MMUL.2012.26"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/0005-7916(94)90063-9"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/s10579-008-9076-6"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2021.03.007"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9052916"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2023.3258900"},{"key":"ref44","article-title":"ARBEx: Attentive feature extraction with reliability balancing for robust facial expression learning","author":"Wasi","year":"2023"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2023.3263585"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ACII59096.2023.10388175"},{"key":"ref47","first-page":"4651","article-title":"Perceiver: General perception with iterative attention","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Jaegle"},{"key":"ref48","first-page":"1298","article-title":"Data2vec: A general framework for self-supervised learning in speech, vision and language","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Baevski"},{"key":"ref49","article-title":"One model, multiple modalities: A sparsely activated approach for text, sound, image, video and code","author":"Dai","year":"2022"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01939"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747157"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/3242969.3264990"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3242969.3264987"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2020-3015"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-236"},{"key":"ref56","first-page":"12449","article-title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Baevski"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-demos.6"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2017.2736999"},{"key":"ref59","first-page":"1","article-title":"Adam: A method for stochastic optimization","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kingma"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2016.2603342"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1656"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR56361.2022.9956592"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053762"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053174"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9415085"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01216-8_16"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096889"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2015.09.015"}],"container-title":["IEEE Transactions on Affective Computing"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/5165369\/10908445\/10609546-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/5165369\/10908445\/10609546.pdf?arnumber=10609546","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,3]],"date-time":"2025-03-03T18:34:56Z","timestamp":1741026896000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10609546\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,1]]},"references-count":68,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/taffc.2024.3433386","relation":{},"ISSN":["1949-3045","2371-9850"],"issn-type":[{"value":"1949-3045","type":"electronic"},{"value":"2371-9850","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,1]]}}}