{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,18]],"date-time":"2026-03-18T10:27:55Z","timestamp":1773829675182,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":36,"publisher":"ACM","funder":[{"name":"Chongqing Talent Plan Project","award":["CSTC2024YCJH-BGZXM0022"],"award-info":[{"award-number":["CSTC2024YCJH-BGZXM0022"]}]},{"name":"Major Project of Science and Technology Research Program of Chongqing Education Commission of China","award":["KJZD-M202201102"],"award-info":[{"award-number":["KJZD-M202201102"]}]},{"name":"Open Research Fund of Key Laboratory of Cyberspace Big Data Intelligent Security, Ministry of Education","award":["CBDIS202403"],"award-info":[{"award-number":["CBDIS202403"]}]},{"DOI":"10.13039\/501100006374","name":"Natural Science Foundation of Chongqing","doi-asserted-by":"publisher","award":["CSTB2022NSCQ-MSX1672"],"award-info":[{"award-number":["CSTB2022NSCQ-MSX1672"]}],"id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100006374","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62472059"],"award-info":[{"award-number":["62472059"]}],"id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1145\/3731715.3733447","type":"proceedings-article","created":{"date-parts":[[2025,6,25]],"date-time":"2025-06-25T18:29:43Z","timestamp":1750876183000},"page":"126-134","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["TF-MERC: Integrating Time-Frequency Information for Multimodal Emotion Recognition in Conversation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-6993-7182","authenticated-orcid":false,"given":"Jiawei","family":"Cheng","sequence":"first","affiliation":[{"name":"Chongqing University of Technology, Chongqing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8239-7176","authenticated-orcid":false,"given":"Xiaofei","family":"Zhu","sequence":"additional","affiliation":[{"name":"Chongqing University of Technology, Chongqing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-3741-0649","authenticated-orcid":false,"given":"Zhou","family":"Yang","sequence":"additional","affiliation":[{"name":"Fuzhou University, Fuzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,6,30]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"IEMOCAP: Interactive emotional dyadic motion capture database. Language resources and evaluation","author":"Busso Carlos","year":"2008","unstructured":"Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. 2008. IEMOCAP: Interactive emotional dyadic motion capture database. Language resources and evaluation, Vol. 42 (2008), 335--359."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2020.3014594"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2024\/81"},{"key":"e_1_3_2_1_4_1","volume-title":"Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation. arXiv preprint arXiv:1908.11540","author":"Ghosal Deepanway","year":"2019","unstructured":"Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, and Alexander Gelbukh. 2019. Dialoguegcn: A graph convolutional neural network for emotion recognition in conversation. arXiv preprint arXiv:1908.11540 (2019)."},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1145\/3625156.3625173"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747397"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.440"},{"key":"e_1_3_2_1_8_1","volume-title":"Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI. AAAI Press, 12892--12900","author":"Jiang Kui","unstructured":"Kui Jiang, Junjun Jiang, Xianming Liu, Xin Xu, and Xianzheng Ma. [n.,d.]. FMRNet: Image Deraining via Frequency Mutual Revision. In Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI. AAAI Press, 12892--12900."},{"key":"e_1_3_2_1_9_1","volume-title":"Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980","author":"Kingma Diederik P","year":"2014","unstructured":"Diederik P Kingma. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1037\/a0025453"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i16.29803"},{"key":"e_1_3_2_1_12_1","volume-title":"Fnet: Mixing tokens with fourier transforms. arXiv preprint arXiv:2105.03824","author":"Lee-Thorp James","year":"2021","unstructured":"James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, and Santiago Ontanon. 2021. Fnet: Mixing tokens with fourier transforms. arXiv preprint arXiv:2105.03824 (2021)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2023.3261279"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3260635"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-acl.126"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3049898"},{"key":"e_1_3_2_1_17_1","volume-title":"Speech Emotion Recognition Based on Low-Level Auto-Extracted Time-Frequency Features. In IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023","author":"Liu Ke","year":"2023","unstructured":"Ke Liu, Jingzhao Hu, and Jun Feng. 2023. Speech Emotion Recognition Based on Low-Level Auto-Extracted Time-Frequency Features. In IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4--10, 2023. IEEE, 1--5."},{"key":"e_1_3_2_1_18_1","volume-title":"TFDNet: Time-Frequency Enhanced Decomposed Network for Long-term Time Series Forecasting. arXiv preprint arXiv:2308.13386","author":"Luo Yuxiao","year":"2023","unstructured":"Yuxiao Luo, Ziyu Lyu, and Xingyu Huang. 2023. TFDNet: Time-Frequency Enhanced Decomposed Network for Long-term Time Series Forecasting. arXiv preprint arXiv:2308.13386 (2023)."},{"key":"e_1_3_2_1_19_1","volume-title":"DialogueRNN: An Attentive RNN for Emotion Detection in Conversations. In The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI. AAAI Press, 6818--6825","author":"Majumder Navonil","year":"2019","unstructured":"Navonil Majumder, Soujanya Poria, Devamanyu Hazarika, Rada Mihalcea, Alexander F. Gelbukh, and Erik Cambria. 2019. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations. In The Thirty-Third AAAI Conference on Artificial Intelligence, AAAI. AAAI Press, 6818--6825."},{"key":"e_1_3_2_1_20_1","volume-title":"Dialoguetrm: Exploring the intra-and inter-modal emotional behaviors in the conversation. arXiv preprint arXiv:2010.07637","author":"Mao Yuzhao","year":"2020","unstructured":"Yuzhao Mao, Qi Sun, Guang Liu, Xiaojie Wang, Weiguo Gao, Xuan Li, and Jianping Shen. 2020. Dialoguetrm: Exploring the intra-and inter-modal emotional behaviors in the conversation. arXiv preprint arXiv:2010.07637 (2020)."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2024.3434495"},{"key":"e_1_3_2_1_22_1","volume-title":"Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition. arXiv preprint arXiv:2402.17269","author":"Thi Nguyen Cam-Van","year":"2024","unstructured":"Cam-Van Thi Nguyen, Cao-Bach Nguyen, Quang-Thuy Ha, and Duc-Trong Le. 2024. Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition. arXiv preprint arXiv:2402.17269 (2024)."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.5555\/556016"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1050"},{"key":"e_1_3_2_1_25_1","volume-title":"Digital signal processing: Theory and practice","author":"Deergha Rao K","unstructured":"K Deergha Rao and Madisetti NS Swamy. 2018. Digital signal processing: Theory and practice. Springer."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i8.28747"},{"key":"e_1_3_2_1_27_1","volume-title":"Adaptive Graph Learning for Multimodal Conversational Emotion Detection. In Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI. AAAI Press","author":"Tu Geng","year":"2024","unstructured":"Geng Tu, Tian Xie, Bin Liang, Hongpeng Wang, and Ruifeng Xu. 2024. Adaptive Graph Learning for Multimodal Conversational Emotion Detection. In Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI. AAAI Press, 19089--19097."},{"key":"e_1_3_2_1_28_1","volume-title":"Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation. 5711--5722","author":"Wang Yan","year":"2024","unstructured":"Yan Wang, Bo Wang, Yachao Zhao, Dongming Zhao, Xiaojia Jin, Jijun Zhang, Ruifang He, and Yuexian Hou. 2024. Emotion Recognition in Conversation via Dynamic Personality. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation. 5711--5722."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2024.103154"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-acl.390"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.170"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681633"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.maiworkshop-1.3"},{"key":"e_1_3_2_1_34_1","volume-title":"Lightweight Fusion Model with Time-Frequency Features for Speech Emotion Recognition. In 27th International Conference on Computer Supported Cooperative Work in Design, CSCWD 2024","author":"Zhang Peng","year":"2024","unstructured":"Peng Zhang, Meijuan Li, Hui Zhao, Yida Chen, Fuqiang Wang, Ye Li, and Wei Zhao. 2024. Lightweight Fusion Model with Time-Frequency Features for Speech Emotion Recognition. In 27th International Conference on Computer Supported Cooperative Work in Design, CSCWD 2024, Tianjin, China, May 8--10, 2024. IEEE, 3017--3022."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.732"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1145\/3485447.3512111"}],"event":{"name":"ICMR '25: International Conference on Multimedia Retrieval","location":"Chicago IL USA","acronym":"ICMR '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2025 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3731715.3733447","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T04:10:07Z","timestamp":1755749407000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3731715.3733447"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":36,"alternative-id":["10.1145\/3731715.3733447","10.1145\/3731715"],"URL":"https:\/\/doi.org\/10.1145\/3731715.3733447","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]},"assertion":[{"value":"2025-06-30","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}