{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,3]],"date-time":"2026-03-03T07:00:38Z","timestamp":1772521238301,"version":"3.50.1"},"reference-count":73,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100003052","name":"Ministry of Trade, Industry and Energy","doi-asserted-by":"publisher","award":["RS-2024-0043226"],"award-info":[{"award-number":["RS-2024-0043226"]}],"id":[{"id":"10.13039\/501100003052","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/access.2026.3667444","type":"journal-article","created":{"date-parts":[[2026,2,23]],"date-time":"2026-02-23T20:48:59Z","timestamp":1771879739000},"page":"30812-30829","source":"Crossref","is-referenced-by-count":0,"title":["CGSeg: Cross-Aggregation and Gated Fusion for Open-Vocabulary Semantic Segmentation"],"prefix":"10.1109","volume":"14","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5225-5580","authenticated-orcid":false,"given":"Zhengyu","family":"Xia","sequence":"first","affiliation":[{"name":"Illinois Institute of Technology (Illinois Tech), Chicago, IL, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8833-0319","authenticated-orcid":false,"given":"Joohee","family":"Kim","sequence":"additional","affiliation":[{"name":"Illinois Institute of Technology (Illinois Tech), Chicago, IL, USA"}]}],"member":"263","reference":[{"key":"ref1","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref2","first-page":"4904","article-title":"Scaling up visual and vision-language representation learning with noisy text supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Jia"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19818-2_42"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20059-5_31"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01129"},{"key":"ref6","article-title":"ZegCLIP: Towards adapting CLIP for zero-shot semantic segmentation","author":"Zhou","year":"2022","journal-title":"arXiv:2212.03588"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00288"},{"key":"ref8","article-title":"Convolutions die hard: Open vocabulary segmentation with single frozen convolutional clip","author":"Yu","year":"2023","journal-title":"arXiv:2308.02487"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00394"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00329"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.544"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.119"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-009-0275-4"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref15","article-title":"Zero-shot semantic segmentation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Bucher"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00845"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.221"},{"key":"ref18","article-title":"Rethinking Atrous convolution for semantic image segmentation","author":"Chen","year":"2017","journal-title":"arXiv:1706.05587"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1802.02611"},{"key":"ref20","article-title":"Efficient estimation of word representations in vector space","author":"Mikolov","year":"2013","journal-title":"arXiv:1301.3781"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/7287.001.0001"},{"key":"ref22","article-title":"Open-vocabulary semantic segmentation with mask-adapted clip","author":"Liang","year":"2022","journal-title":"arXiv:2210.04150"},{"key":"ref23","article-title":"Open vocabulary panoptic segmentation with maskclip","author":"Ding","year":"2022","journal-title":"arXiv:2208.08984"},{"key":"ref24","article-title":"High-quality mask tuning matters for open-vocabulary segmentation","author":"Zeng","year":"2024","journal-title":"arXiv:2412.11464"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01397"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i6.32669"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP51287.2024.10647459"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01838"},{"key":"ref30","article-title":"FGAseg: Fine-grained pixel-text alignment for open-vocabulary semantic segmentation","author":"Li","year":"2025","journal-title":"arXiv:2501.00877"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00567"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.17"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01019"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19815-1_40"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref36","article-title":"Attention is all you need","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Vaswani"},{"key":"ref37","article-title":"Layer normalization","author":"Ba","year":"2016","journal-title":"arXiv:1607.06450"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20077-9_17"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01261-8_1"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00132"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.52202\/075280-3205"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00271"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00747"},{"key":"ref45","article-title":"Multiple-human parsing in the wild","author":"Li","year":"2017","journal-title":"arXiv:1705.07206"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475201"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1016\/j.envsoft.2022.105333"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1111\/cgf.14473"},{"key":"ref49","first-page":"28","article-title":"ISAID: A large-scale dataset for instance segmentation in aerial images","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. Workshops","author":"Zamir"},{"key":"ref50","volume-title":"ISPRS Potsdam Dataset Within the ISPRS Test Project on Urban Classification, 3D Building Reconstruction and Semantic Labeling","year":"2012"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-021-86650-z"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3090981"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2020.05.009"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-67835-7_19"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/TBME.2012.2205687"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1016\/j.compbiomed.2021.104349"},{"key":"ref57","article-title":"Detailed annotations of chest X-rays via ct projection for report understanding","volume-title":"arXiv:2210.03416","author":"Seibold","year":"2022"},{"key":"ref58","article-title":"Corrosion condition state semantic segmentation dataset","author":"Bianchi","year":"2021"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2019.01.036"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196831"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.02047"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9340821"},{"key":"ref63","article-title":"Caltech-UCSD birds 200","author":"Welinder","year":"2010"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-16220-1_8"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00845"},{"key":"ref66","article-title":"Language-driven semantic sSegmentation","author":"Li","year":"2022","journal-title":"arXiv:2201.03546"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00080"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00289"},{"key":"ref69","first-page":"8026","article-title":"PyTorch: An imperative style, high-performance deep learning library","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Paszke"},{"key":"ref70","volume-title":"Detectron2","author":"Wu","year":"2019"},{"key":"ref71","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2017","journal-title":"arXiv:1711.05101"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01451"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00100"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/11323511\/11408198.pdf?arnumber=11408198","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,3]],"date-time":"2026-03-03T06:23:10Z","timestamp":1772518990000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11408198\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":73,"URL":"https:\/\/doi.org\/10.1109\/access.2026.3667444","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}