{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,21]],"date-time":"2026-01-21T22:50:15Z","timestamp":1769035815223,"version":"3.49.0"},"reference-count":21,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T00:00:00Z","timestamp":1763078400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T00:00:00Z","timestamp":1763078400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,11,14]]},"DOI":"10.1109\/cloudcom67567.2025.11331522","type":"proceedings-article","created":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T20:37:16Z","timestamp":1768941436000},"page":"1-8","source":"Crossref","is-referenced-by-count":0,"title":["Edge-Cloud Audio-Visual Emotion Recognition with Transformer Fusion and ELM Classification"],"prefix":"10.1109","author":[{"given":"Yidan","family":"Ni","sequence":"first","affiliation":[{"name":"Shenzhen MSU-BIT University,Department of Engineering,Shenzhen,China"}]},{"given":"Zaixu","family":"Yuan","sequence":"additional","affiliation":[{"name":"Shenzhen MSU-BIT University,Department of Engineering,Shenzhen,China"}]},{"given":"Hairui","family":"Wang","sequence":"additional","affiliation":[{"name":"Shenzhen MSU-BIT University,Department of Engineering,Shenzhen,China"}]},{"given":"Yuzhe","family":"Cheng","sequence":"additional","affiliation":[{"name":"Shenzhen MSU-BIT University,Department of Engineering,Shenzhen,China"}]},{"given":"Jiran","family":"Wang","sequence":"additional","affiliation":[{"name":"Shenzhen MSU-BIT University,Department of Engineering,Shenzhen,China"}]},{"given":"Jianbo","family":"Zheng","sequence":"additional","affiliation":[{"name":"Artifcial Intelligence Research Institute, Shenzhen MSU-BIT University,Shenzhen,China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/1140.001.0001"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3129340"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2017.02.003"},{"issue":"11","key":"ref4","first-page":"1664","article-title":"Emotion modeling for social robots","volume-title":"Proc. IEEE","volume":"92","author":"Paiva","year":"2017"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/s11257-009-9062-8"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2005.848368"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.3390\/biomimetics10070418"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2008.52"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2019.12.001"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2002.1017623"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-025-89202-x"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1656"},{"key":"ref13","first-page":"456","article-title":"Multi-label multimodal emotion recognition with transformer-based fusion and emotion-level representation learning","volume":"25","author":"Mao","year":"2023","journal-title":"IEEE Trans. Multimedia"},{"key":"ref14","article-title":"Multimodal emotion recognition using audio-video transformer fusion with cross attention","author":"Dhanith P. R.","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/BF00994018"},{"key":"ref16","first-page":"11341","article-title":"Multimodal emotion recognition based on feature selection and extreme learning machine in video clips","volume":"84","author":"Wang","year":"2025","journal-title":"Multimed. Tools Appl."},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00716"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2005.12.126"},{"key":"ref19","article-title":"MobileNets: Efficient convo-lutional neural networks for mobile vision applications","author":"Howard","year":"2017","journal-title":"ar Xiv preprint arXiv"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICDEW.2006.145"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2014.2336244"}],"event":{"name":"2025 lEEE International Conference on Cloud Computing Technology and Science (CloudCom)","location":"Shenzhen, China","start":{"date-parts":[[2025,11,14]]},"end":{"date-parts":[[2025,11,16]]}},"container-title":["2025 lEEE International Conference on Cloud Computing Technology and Science (CloudCom)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11330195\/11331311\/11331522.pdf?arnumber=11331522","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,21]],"date-time":"2026-01-21T07:47:17Z","timestamp":1768981637000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11331522\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,14]]},"references-count":21,"URL":"https:\/\/doi.org\/10.1109\/cloudcom67567.2025.11331522","relation":{},"subject":[],"published":{"date-parts":[[2025,11,14]]}}}