{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,18]],"date-time":"2026-07-18T17:06:39Z","timestamp":1784394399943,"version":"3.55.0"},"reference-count":122,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100018537","name":"National Science and Technology Major Project","doi-asserted-by":"publisher","award":["2021ZD0112001"],"award-info":[{"award-number":["2021ZD0112001"]}],"id":[{"id":"10.13039\/501100018537","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U23A20286"],"award-info":[{"award-number":["U23A20286"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Independent Research Project of Civil Aviation Flight Technology and Flight Safety Key Laboratory","award":["FZ2022ZZ06"],"award-info":[{"award-number":["FZ2022ZZ06"]}]},{"DOI":"10.13039\/501100018542","name":"Natural Science Foundation of Sichuan Province","doi-asserted-by":"publisher","award":["2023NSFSC1972"],"award-info":[{"award-number":["2023NSFSC1972"]}],"id":[{"id":"10.13039\/501100018542","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tmm.2024.3521746","type":"journal-article","created":{"date-parts":[[2024,12,23]],"date-time":"2024-12-23T19:23:06Z","timestamp":1734981786000},"page":"209-223","source":"Crossref","is-referenced-by-count":7,"title":["Cross-Modal Cognitive Consensus Guided Audio\u2013Visual Segmentation"],"prefix":"10.1109","volume":"27","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6313-8670","authenticated-orcid":false,"given":"Zhaofeng","family":"Shi","sequence":"first","affiliation":[{"name":"School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2936-6340","authenticated-orcid":false,"given":"Qingbo","family":"Wu","sequence":"additional","affiliation":[{"name":"School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3016-2567","authenticated-orcid":false,"given":"Fanman","family":"Meng","sequence":"additional","affiliation":[{"name":"School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9934-0958","authenticated-orcid":false,"given":"Linfeng","family":"Xu","sequence":"additional","affiliation":[{"name":"School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7481-095X","authenticated-orcid":false,"given":"Hongliang","family":"Li","sequence":"additional","affiliation":[{"name":"School of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3157995"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3205441"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10584-0_20"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3114541"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3054526"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00963"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00028"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.02000"},{"key":"ref10","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01762"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00695"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02022"},{"key":"ref14","first-page":"386","article-title":"Audiovisual segmentation","volume-title":"Proc. 17th Eur. Conf. Comput. Vis.","author":"Zhou","year":"2022"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00337"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19790-1_3"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01026"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.compeleceng.2020.106606"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.17743\/jaes.2022.0048"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/s10846-008-9297-3"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197008"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3234766"},{"key":"ref23","article-title":"Contrastive conditional latent diffusion for audio-visual segmentation","author":"Mao","year":"2023"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i3.27978"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00094"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612373"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3405622"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-54427-4_19"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612132"},{"key":"ref30","article-title":"Audio-visual synchronisation in the wild","volume-title":"Proc. 32nd Brit. Mach. Vis. Conf.","author":"Chen","year":"2021"},{"key":"ref31","first-page":"25","article-title":"On attention modules for audio-visual synchronization","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. Workshops","author":"Khosravan","year":"2019"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093345"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2699184"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.660"},{"key":"ref35","first-page":"12077","article-title":"Segformer: Simple and efficient design for semantic segmentation with transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Xie","year":"2021"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00681"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01634"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00913"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00440"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00902"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.565"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00770"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00971"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58558-7_20"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.3026913"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00585"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.372"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01237-3_4"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00916"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2481711"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_48"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00318"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00374"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01520"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00683"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00624"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58555-6_13"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00996"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00404"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547761"},{"key":"ref62","article-title":"Progressive multimodal interaction network for referring video object segmentation","volume-title":"Proc. 3rd Large-Scale Video Object Segmentation Challenge","author":"Ding","year":"2021"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00491"},{"key":"ref64","article-title":"Deeply interleaved two-stream encoder for referring video segmentation","author":"Feng","year":"2022"},{"key":"ref65","article-title":"Hierarchical interaction network for video object segmentation from referring expressions","volume-title":"Proc. Brit. Mach. Vis. Conf. (BMVC)","author":"Yang","year":"2021"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00493"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00492"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2024.110535"},{"key":"ref69","first-page":"26425","article-title":"Soc: Semantic-assisted object cluster for referring video object segmentation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Luo","year":"2024"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00091"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.73"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00458"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_27"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00947"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58565-5_18"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01659"},{"key":"ref77","first-page":"3222","article-title":"Self-supervised predictive learning: A negative-free method for sound source localization in visual scenes","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit.","author":"Song","year":"2022"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01032"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2022.103602"},{"key":"ref80","first-page":"10077","article-title":"Discriminative sounding objects localization via self-supervised audiovisual matching","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Hu","year":"2020"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58523-5_13"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413869"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00277"},{"key":"ref84","article-title":"Efficient estimation of word representations in vector space","volume-title":"Proc. 1st Int. Conf. Learning Representations","author":"Mikolov","year":"2013"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-1202"},{"key":"ref87","article-title":"Improving language understanding by generative pre-training","author":"Radford","year":"2018","journal-title":"OpenAI blog"},{"key":"ref88","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"NAACL","author":"Devlin","year":"2019"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-2048"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1484"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P18-1216"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00259"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33016359"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.152"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.3003779"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1145\/3357384.3357885"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3017382"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICTAI56018.2022.00041"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.3390\/app12199874"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-33709-3_35"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2015.2487986"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952261"},{"key":"ref104","first-page":"9446","article-title":"Deep image prior","volume-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","author":"Ulyanov","year":"2018"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00559"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.74"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2018.00097"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00813"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053174"},{"key":"ref110","first-page":"8026","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Paszke","year":"2019"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1007\/s41095-022-0274-8"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952132"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2020.3030497"},{"key":"ref115","first-page":"5178","article-title":"Beats: Audio pre-training with acoustic tokenizers","volume-title":"Proc. 40th Int. Conf. Mach. Learn.","author":"Chen","year":"2023"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1406.3269"},{"key":"ref117","article-title":"Making a case for 3D convolutions for object segmentation in videos","volume-title":"Proc. BMVC","author":"Mahadevan","year":"2020"},{"key":"ref118","article-title":"Transformer transforms salient object detection and camouflaged object detection","author":"Mao","year":"2021"},{"key":"ref119","first-page":"15448","article-title":"Learning generative vision transformer with energy-based latent space for saliency prediction","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Zhang","year":"2021"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02502"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i11.29104"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02562"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6046\/10844992\/10812843.pdf?arnumber=10812843","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,20]],"date-time":"2025-01-20T18:58:23Z","timestamp":1737399503000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10812843\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":122,"URL":"https:\/\/doi.org\/10.1109\/tmm.2024.3521746","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}