{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T04:47:08Z","timestamp":1772772428634,"version":"3.50.1"},"reference-count":28,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,12,11]],"date-time":"2022-12-11T00:00:00Z","timestamp":1670716800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,12,11]],"date-time":"2022-12-11T00:00:00Z","timestamp":1670716800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,12,11]]},"DOI":"10.1109\/iscslp57327.2022.10038206","type":"proceedings-article","created":{"date-parts":[[2023,2,8]],"date-time":"2023-02-08T18:53:24Z","timestamp":1675882404000},"page":"453-457","source":"Crossref","is-referenced-by-count":4,"title":["A Study on Joint Modeling and Data Augmentation of Multi-Modalities for Audio-Visual Scene Classification"],"prefix":"10.1109","author":[{"given":"Qing","family":"Wang","sequence":"first","affiliation":[{"name":"University of Science and Technology of China,NELSLIP,Hefei,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jun","family":"Du","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China,NELSLIP,Hefei,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Siyuan","family":"Zheng","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China,NELSLIP,Hefei,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunqing","family":"Li","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China,NELSLIP,Hefei,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yajian","family":"Wang","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China,NELSLIP,Hefei,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuzhong","family":"Wu","sequence":"additional","affiliation":[{"name":"Tencent Ethereal Audio Lab, Tencent Corporation,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hu","family":"Hu","sequence":"additional","affiliation":[{"name":"Georgia Institute of Technology,School of Electrical and Computer Engineering,GA,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chao-Han Huck","family":"Yang","sequence":"additional","affiliation":[{"name":"Georgia Institute of Technology,School of Electrical and Computer Engineering,GA,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sabato Marco","family":"Siniscalchi","sequence":"additional","affiliation":[{"name":"Georgia Institute of Technology,School of Electrical and Computer Engineering,GA,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yannan","family":"Wang","sequence":"additional","affiliation":[{"name":"Tencent Ethereal Audio Lab, Tencent Corporation,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chin-Hui","family":"Lee","sequence":"additional","affiliation":[{"name":"Georgia Institute of Technology,School of Electrical and Computer Engineering,GA,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Dcase 2017 challenge setup: Tasks, datasets and baseline system","volume-title":"DCASE 2017-Workshop on Detection and Classification of Acoustic Scenes and Events","author":"Mesaros"},{"key":"ref2","article-title":"A multi-device dataset for urban acoustic scene classification","author":"Mesaros","year":"2018","journal-title":"arXiv preprint arXiv:1807.09840"},{"key":"ref3","article-title":"Acoustic scene classification in dcase 2020 challenge: generalization across devices and low complexity solutions","author":"Heittola","year":"2020","journal-title":"arXiv preprint arXiv:2005.14623"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9415085"},{"key":"ref5","article-title":"Acoustic scene classification using convolutional neural networks","author":"Battaglino","year":"2016","journal-title":"IEEE AASP Challenge on Detec"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414835"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4899-7687-1_79"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2680"},{"key":"ref9","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014","journal-title":"arXiv preprint arXiv:1409.1556"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5539970"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2723009"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2599292"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12312"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-85099-1_8"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-24571-8_51"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-013-1391-2"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2975718"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952132"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952261"},{"key":"ref22","article-title":"Audio-visual scene classification using transfer learning and hybrid fusion strategy","volume-title":"DCASE2021 Challenge, Tech. Rep, Tech. Rep.","author":"Wang","year":"2021"},{"key":"ref23","article-title":"Ldslvision submissions to dcase\u201921: A multi-modal fusion approach for audio-visual scene classification enhanced by clip variants","volume-title":"DCASE2021 Challenge, Tech. Rep, Tech. Rep.","author":"Okazaki","year":"2021"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW50498.2020.00359"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.25080\/Majora-7b98e3ed-003"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref27","article-title":"Scene classification using acoustic and visual feature","volume-title":"DCASE2021 Challenge, Tech. Rep.","author":"Yang","year":"2021"},{"key":"ref28","article-title":"DCASE 2021 task 1B: Technique report","volume-title":"DCASE2021 Challenge, Tech. Rep.","author":"Pham","year":"2021"}],"event":{"name":"2022 13th International Symposium on Chinese Spoken Language Processing (ISCSLP)","location":"Singapore, Singapore","start":{"date-parts":[[2022,12,11]]},"end":{"date-parts":[[2022,12,14]]}},"container-title":["2022 13th International Symposium on Chinese Spoken Language Processing (ISCSLP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10037756\/10037573\/10038206.pdf?arnumber=10038206","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,13]],"date-time":"2024-02-13T14:10:06Z","timestamp":1707833406000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10038206\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,12,11]]},"references-count":28,"URL":"https:\/\/doi.org\/10.1109\/iscslp57327.2022.10038206","relation":{},"subject":[],"published":{"date-parts":[[2022,12,11]]}}}