{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T07:03:53Z","timestamp":1775027033957,"version":"3.50.1"},"reference-count":85,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2024,8,16]],"date-time":"2024-08-16T00:00:00Z","timestamp":1723766400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,8,16]],"date-time":"2024-08-16T00:00:00Z","timestamp":1723766400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2025,2]]},"DOI":"10.1007\/s11263-024-02171-y","type":"journal-article","created":{"date-parts":[[2024,8,16]],"date-time":"2024-08-16T15:02:18Z","timestamp":1723820538000},"page":"742-759","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":76,"title":["LLMFormer: Large Language Model for Open-Vocabulary Semantic Segmentation"],"prefix":"10.1007","volume":"133","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1340-0009","authenticated-orcid":false,"given":"Hengcan","family":"Shi","sequence":"first","affiliation":[]},{"given":"Son Duy","family":"Dao","sequence":"additional","affiliation":[]},{"given":"Jianfei","family":"Cai","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,8,16]]},"reference":[{"key":"2171_CR1","doi-asserted-by":"crossref","unstructured":"Barsellotti, L., Amoroso, R., Baraldi, L., & Cucchiara, R. (2024). FOSSIL: free open-vocabulary semantic segmentation through synthetic references retrieval. In IEEE\/CVF Winter Conference on Applications of Computer Vision (pp. 1453\u20131462). IEEE","DOI":"10.1109\/WACV57701.2024.00149"},{"key":"2171_CR2","unstructured":"Bousselham, W., Thibault, G., Pagano, L., Machireddy, A., Gray, J., Chang, Y. H., & Song, X. (2022). Efficient self-ensemble for semantic segmentation. arXiv:2111.13280."},{"key":"2171_CR3","doi-asserted-by":"crossref","unstructured":"Caesar, H., Uijlings, J., & Ferrari, V. (2018). Coco-stuff: Thing and stuff classes in context. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1209\u20131218).","DOI":"10.1109\/CVPR.2018.00132"},{"key":"2171_CR4","unstructured":"Chen, Z., Duan, Y., Wang, W., He, J., Lu, T., Dai, J., & Qiao, Y. (2023). Vision transformer adapter for dense predictions. in International Conference on Learning Representations"},{"key":"2171_CR5","doi-asserted-by":"crossref","unstructured":"Chen,L.-C., Yang,Y., Wang,J., Xu,W. & Yuille,A. L.(2016). Attention to scale: Scale-aware semantic image segmentation. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 3640\u20133649).","DOI":"10.1109\/CVPR.2016.396"},{"key":"2171_CR6","doi-asserted-by":"crossref","unstructured":"Chen, L.-C., Zhu, Y., Papandreou, G., Schroff, F., & Adam, H. (2018). Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European Conference on Computer Vision (pp. 801\u2013818).","DOI":"10.1007\/978-3-030-01234-2_49"},{"key":"2171_CR7","doi-asserted-by":"crossref","unstructured":"Cheng, B., Misra, I., Schwing, A. G., Kirillov, A., Girdhar, R.(2022). Masked-attention mask transformer for universal image segmentation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 1290\u20131299).","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"2171_CR8","first-page":"17864","volume":"34","author":"B Cheng","year":"2021","unstructured":"Cheng, B., Schwing, A., & Kirillov, A. (2021). Per-pixel classification is not all you need for semantic segmentation. Advances in Neural Information Processing Systems, 34, 17864\u201317875.","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"4","key":"2171_CR9","doi-asserted-by":"publisher","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","volume":"40","author":"L-C Chen","year":"2018","unstructured":"Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2018). Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834\u2013848.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2171_CR10","unstructured":"Dai, W., Li, J., Li, D., Tiong, A. M. H., Zhao, J., Wang, W., Li, B., Fung, P., & Hoi, S. (2023). Instructblip: Towards general-purpose vision-language models with instruction tuning. arXiv:2305.06500"},{"key":"2171_CR11","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3330102","author":"SD Dao","year":"2023","unstructured":"Dao, S. D., Shi, H., Phung, D., & Cai, J. (2023). Class enhancement losses with pseudo labels for open-vocabulary semantic segmentation. IEEE Transactions on Multimedia. https:\/\/doi.org\/10.1109\/TMM.2023.3330102","journal-title":"IEEE Transactions on Multimedia"},{"key":"2171_CR12","doi-asserted-by":"crossref","unstructured":"Ding, H., Jiang, X., Shuai, B., Liu, A. Q., & Wang, G. (2018). Context contrasted feature and gated multi-scale aggregation for scene segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2393\u20132402).","DOI":"10.1109\/CVPR.2018.00254"},{"key":"2171_CR13","unstructured":"Ding, Z., Wang, J., & Tu, Z.(2023). Open-vocabulary panoptic segmentation with maskclip. arXiv:2208.08984"},{"key":"2171_CR14","doi-asserted-by":"crossref","unstructured":"Ding, J., Xue, N., Xia, G.-S., & Dai, D. (2022). Decoupling zero-shot semantic segmentation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 11583\u201311592).","DOI":"10.1109\/CVPR52688.2022.01129"},{"issue":"2","key":"2171_CR15","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2010). The pascal visual object classes (voc) challenge. International Journal of Computer Vision, 88(2), 303\u2013338.","journal-title":"International Journal of Computer Vision"},{"issue":"12","key":"2171_CR16","doi-asserted-by":"publisher","first-page":"3252","DOI":"10.1007\/s11263-023-01862-2","volume":"131","author":"J Fan","year":"2023","unstructured":"Fan, J., & Zhang, Z. (2023). Toward practical weakly supervised semantic segmentation via point-level supervision. International Journal of Computer Vision, 131(12), 3252\u20133271.","journal-title":"International Journal of Computer Vision"},{"key":"2171_CR17","doi-asserted-by":"crossref","unstructured":"Ghiasi,G., Gu,X., Cui,Y., & Lin,T.-Y.(2022). Scaling open-vocabulary image segmentation with image-level labels. In European Conference on Computer Vision (pp. 540\u2013557). Springer.","DOI":"10.1007\/978-3-031-20059-5_31"},{"key":"2171_CR18","doi-asserted-by":"crossref","unstructured":"Han, C., Zhong, Y., Li, D., Han, K., & Ma, L. (2023). Open-vocabulary semantic segmentation with decoupled one-pass network. Proceedings of the IEEE\/CVF International Conference on Computer Vision (pp. 1086\u20131096).","DOI":"10.1109\/ICCV51070.2023.00106"},{"issue":"02","key":"2171_CR19","doi-asserted-by":"publisher","first-page":"386","DOI":"10.1109\/TPAMI.2018.2844175","volume":"42","author":"K He","year":"2020","unstructured":"He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2020). Mask r-cnn. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(02), 386\u2013397.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"2","key":"2171_CR20","first-page":"872","volume":"132","author":"S Hu","year":"2023","unstructured":"Hu, S., Zhao, X., & Huang, K. (2023). SOTVerse: A user-defined task space of single object tracking. International Journal of Computer Vision, 132(2), 872\u2013930.","journal-title":"International Journal of Computer Vision"},{"key":"2171_CR21","doi-asserted-by":"crossref","unstructured":"Jain, J., Li, J., Chiu, M. T., Hassani, A., Orlov, N., & Shi, H. (2023). Oneformer: One transformer to rule universal image segmentation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 2989\u20132998).","DOI":"10.1109\/CVPR52729.2023.00292"},{"issue":"4","key":"2171_CR22","doi-asserted-by":"publisher","first-page":"4438","DOI":"10.1109\/TITS.2022.3232897","volume":"24","author":"A Jaus","year":"2023","unstructured":"Jaus, A., Yang, K., & Stiefelhagen, R. (2023). Panoramic panoptic segmentation: Insights into surrounding parsing for mobile agents via unsupervised contrastive learning. IEEE Transactions on Intelligent Transportation Systems, 24(4), 4438\u20134453.","journal-title":"IEEE Transactions on Intelligent Transportation Systems"},{"key":"2171_CR23","doi-asserted-by":"crossref","unstructured":"Lai, X., Tian, Z., Chen, Y., Li, Y., Yuan, Y., Liu, S., & Jia, J. (2023). Lisa: Reasoning segmentation via large language model. arXiv:2308.00692.","DOI":"10.1109\/CVPR52733.2024.00915"},{"key":"2171_CR24","doi-asserted-by":"crossref","unstructured":"Li, Y., Qi, H., Dai, J., Ji, X., & Wei, Y. (2017). Fully convolutional instance-aware semantic segmentation. In 2017 IEEE Conference on Computer Vision and Pattern Recognition. (pp. 4438\u20134446).","DOI":"10.1109\/CVPR.2017.472"},{"key":"2171_CR25","unstructured":"Li, B., Weinberger, K. Q., Belongie, S., Koltun, V., & Ranftl, R. (2022). Language-driven semantic segmentation. In The International Conference on Learning Representations"},{"key":"2171_CR26","doi-asserted-by":"crossref","unstructured":"Li,X., Zhao,H., Han,L., & Tong,Y.(2020). Gated fully fusion for semantic segmentation. In Proceedings of the AAAI conference on artificial intelligence (pp. 11418\u201311425)","DOI":"10.1609\/aaai.v34i07.6805"},{"key":"2171_CR27","doi-asserted-by":"crossref","unstructured":"Liang, F., Wu, B., Dai, X., Li, K., Zhao, Y., Zhang, H., Zhang, P., Vajda, P., & Marculescu, D. (2023). Open-vocabulary semantic segmentation with mask-adapted clip. In The IEEE \/ CVF Conference on Computer Vision and Pattern Recognition. (pp. 7061\u20137070).","DOI":"10.1109\/CVPR52729.2023.00682"},{"key":"2171_CR28","doi-asserted-by":"crossref","unstructured":"Lin, G., Milan, A., Shen, C., & Reid, I. (2017). Refinenet: Multi-path refinement networks for high-resolution semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1925\u20131934).","DOI":"10.1109\/CVPR.2017.549"},{"issue":"4","key":"2171_CR29","doi-asserted-by":"publisher","first-page":"1258","DOI":"10.1007\/s11263-023-01929-0","volume":"132","author":"F Lin","year":"2023","unstructured":"Lin, F., Hu, W., Wang, Y., Tian, Y., Lu, G., Chen, F., Xu, Y., & Wang, X. (2023). Universal object detection with large vision model. International Journal of Computer Vision, 132(4), 1258\u20131276.","journal-title":"International Journal of Computer Vision"},{"issue":"6","key":"2171_CR30","doi-asserted-by":"publisher","first-page":"1352","DOI":"10.1109\/TPAMI.2017.2708714","volume":"40","author":"G Lin","year":"2018","unstructured":"Lin, G., Shen, C., Van Den Hengel, A., & Reid, I. (2018). Exploring context with deep structured models for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(6), 1352\u20131366.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2171_CR31","doi-asserted-by":"crossref","unstructured":"Liu, H., Li, C., Li, Y., & Lee, Y. J.(2023). Improved baselines with visual instruction tuning. InNeurIPS 2023 Workshop on Instruction Tuning and Instruction Following","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"2171_CR32","unstructured":"Liu, H., Li, C., Wu, Q., & Lee, Y. J.(2023). Visual instruction tuning. arXiv:2304.08485."},{"key":"2171_CR33","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE\/CVF international conference on computer vision (pp. 10012-10022).","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"2171_CR34","unstructured":"Liu, W., Rabinovich, A., & Berg, A. C. (2015). Parsenet: Looking wider to see better. arvix:1506.04579"},{"issue":"2","key":"2171_CR35","doi-asserted-by":"publisher","first-page":"466","DOI":"10.1007\/s11263-023-01875-x","volume":"132","author":"X Li","year":"2023","unstructured":"Li, X., Zhang, J., Yang, Y., Cheng, G., Yang, K., Tong, Y., & Tao, D. (2023). Sfnet: Faster and accurate semantic segmentation via semantic flow. International Journal of Computer Vision, 132(2), 466\u2013489.","journal-title":"International Journal of Computer Vision"},{"key":"2171_CR36","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3431\u20133440).","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"2171_CR37","unstructured":"Ma, C., Yang, Y., Ju, C., Zhang, F., Zhang, Y., & Wang, Y. (2023). Open-vocabulary semantic segmentation via attribute decomposition-aggregation. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems"},{"key":"2171_CR38","doi-asserted-by":"publisher","first-page":"1578","DOI":"10.1007\/s11263-023-01954-z","volume":"132","author":"J Ma","year":"2023","unstructured":"Ma, J., Liu, J., Chai, Q., Wang, P., & Tao, J. (2023). Diagram perception networks for textbook question answering via joint optimization. International Journal of Computer Vision, 132, 1578\u20131591.","journal-title":"International Journal of Computer Vision"},{"key":"2171_CR39","doi-asserted-by":"crossref","unstructured":"Mottaghi, R., Chen, X., Liu,X., Cho, N.-G., Lee, S.-W., Fidler, S., Urtasun, R., & Yuille, A. (2014). The role of context for object detection and semantic segmentation in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 891\u2013898).","DOI":"10.1109\/CVPR.2014.119"},{"key":"2171_CR40","doi-asserted-by":"crossref","unstructured":"Noh, H., Hong, S., & Han, B.(2015). Learning deconvolution network for semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1520\u20131528).","DOI":"10.1109\/ICCV.2015.178"},{"key":"2171_CR41","unstructured":"OpenAI, (2023). Gpt-4 technical report."},{"key":"2171_CR42","unstructured":"Peng ,Z., Wang, W., Dong, L., Hao, Y., Huang, S., Ma, S., & Wei, F. (2023). Kosmos-2: Grounding multimodal large language models to the world. arXiv:2306.14824."},{"issue":"7","key":"2171_CR43","first-page":"8743","volume":"45","author":"L Qi","year":"2022","unstructured":"Qi, L., Kuen, J., Wang, Y., Gu, J., Zhao, H., Torr, P., Lin, Z., & Jia, J. (2022). Open world entity segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(7), 8743\u20138756.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2171_CR44","unstructured":"Qin, Z., Liu, J., Zhang, X., Tian, M., Zhou, A., Yi, S., & Li, H. (2022). Pyramid fusion transformer for semantic segmentation. arXiv:2201.04019."},{"key":"2171_CR45","unstructured":"Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., & Clark, J., et al., (2021). Learning transferable visual models from natural language supervision. arXiv:2103.00020."},{"key":"2171_CR46","doi-asserted-by":"crossref","unstructured":"Ranftl, R., Bochkovskiy, A., & Koltun,V. (2021). Vision transformers for dense prediction. In Proceedings of the IEEE\/CVF International Conference on Computer Vision (pp. 12179\u201312188).","DOI":"10.1109\/ICCV48922.2021.01196"},{"key":"2171_CR47","doi-asserted-by":"crossref","unstructured":"Schuster, S., Krishna, R., Chang, A., Fei-Fei, L., & Manning, C. D. (2015). Generating semantically precise scene graphs from textual descriptions for improved image retrieval. In Proceedings of the Fourth Workshop on Vision and Language (pp. 70\u201380). Citeseer","DOI":"10.18653\/v1\/W15-2812"},{"key":"2171_CR48","doi-asserted-by":"crossref","unstructured":"Shi, H., Hayat, M., & Cai, J.(2023). Open-vocabulary object detection via scene graph discovery. In Proceedings of the 31st ACM International Conference on Multimedia (pp. 4012\u20134021).","DOI":"10.1145\/3581783.3612407"},{"key":"2171_CR49","doi-asserted-by":"crossref","unstructured":"Shi, H., Hayat, M., & Cai, J.(2023). Transformer scale gate for semantic segmentation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 3051\u20133060).","DOI":"10.1109\/CVPR52729.2023.00298"},{"key":"2171_CR50","doi-asserted-by":"crossref","unstructured":"Shi,H., Hayat,M., & Cai,J.(2024) . Unified open-vocabulary dense visual prediction. IEEE Transactions on Multimedia","DOI":"10.1109\/TMM.2024.3381835"},{"key":"2171_CR51","doi-asserted-by":"crossref","unstructured":"Shi, H., Hayat, M., Wu, Y., & Cai, J. (2022). Proposalclip: Unsupervised open-category object proposal generation via exploiting clip cues. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 9611\u20139620).","DOI":"10.1109\/CVPR52688.2022.00939"},{"key":"2171_CR52","doi-asserted-by":"crossref","unstructured":"Shi, H., Li, H., Wu, Q. & Song, Z.(2019). Scene parsing via integrated classification model and variance-based regularization. In IEEE Conference on Computer Vision and Pattern Recognition (pp. 5307-5316).","DOI":"10.1109\/CVPR.2019.00545"},{"key":"2171_CR53","doi-asserted-by":"crossref","unstructured":"Shi, H., Li, H., Wu, Q., Meng, F., & Ngan, K. N. (2018). Boosting scene parsing performance via reliable scale prediction. In 2018 ACM Multimedia Conference on Multimedia Conference ACM (pp. 492\u2013500).","DOI":"10.1145\/3240508.3240657"},{"issue":"10","key":"2171_CR54","doi-asserted-by":"publisher","first-page":"2670","DOI":"10.1109\/TMM.2018.2812600","volume":"20","author":"H Shi","year":"2018","unstructured":"Shi, H., Li, H., Meng, F., Wu, Q., Xu, L., & Ngan, K. N. (2018). Hierarchical parsing net: Semantic scene parsing from global scene to objects. IEEE Transactions on Multimedia, 20(10), 2670\u20132682.","journal-title":"IEEE Transactions on Multimedia"},{"key":"2171_CR55","doi-asserted-by":"crossref","unstructured":"Strudel, R., Garcia, R., Laptev, I., & Schmid, C. (2021). Segmenter: Transformer for semantic segmentation. In Proceedings of the IEEE\/CVF International Conference on Computer Vision (pp. 7262\u20137272).","DOI":"10.1109\/ICCV48922.2021.00717"},{"key":"2171_CR56","doi-asserted-by":"crossref","unstructured":"Takagi, Y., & Nishimoto, S. (2023). High-resolution image reconstruction with latent diffusion models from human brain activity. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 14453\u201314463).","DOI":"10.1109\/CVPR52729.2023.01389"},{"key":"2171_CR57","unstructured":"Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Roziere, B., Goyal, N., Hambro, E., & Azhar, F., et al., (2023). Llama: Open and efficient foundation language models. arXiv:2302.13971."},{"key":"2171_CR58","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems[SPACE]arXiv:1706.03762."},{"key":"2171_CR59","unstructured":"Vicuna, (2023) Vicuna: An open-source chatbot impressing gpt-4 with 90 quality. [Online]. Available: https:\/\/vicuna.lmsys.org\/,"},{"key":"2171_CR60","unstructured":"Wang, X., Li, S., Kallidromitis, K., Kato, Y., Kozuka, K., & Darrell, T.(2023). Hierarchical open-vocabulary universal image segmentation. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems"},{"key":"2171_CR61","doi-asserted-by":"crossref","unstructured":"Wang, W., Xie, E., Li, X., Fan, D.-P., Song, K., Liang, D., Lu, T., Luo, P., & Shao, L. (2021). Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In Proceedings of the IEEE\/CVF International Conference on Computer Vision (pp. 568\u2013578).","DOI":"10.1109\/ICCV48922.2021.00061"},{"issue":"10","key":"2171_CR62","doi-asserted-by":"publisher","first-page":"2489","DOI":"10.1007\/s11263-023-01817-7","volume":"131","author":"W Wang","year":"2023","unstructured":"Wang, W., Wang, R., Shan, S., & Chen, X. (2023). Importance first: Generating scene graph of human interest. International Journal of Computer Vision, 131(10), 2489\u20132515.","journal-title":"International Journal of Computer Vision"},{"key":"2171_CR63","unstructured":"Wu, Y.-H., Liu, Y., Zhan, X., Cheng, M.-M.(2021). P2t: Pyramid pooling transformer for scene understanding. arXiv:2106.12011"},{"key":"2171_CR64","doi-asserted-by":"crossref","unstructured":"Wysoczanska, M., Ramamonjisoa, M., Trzcinski, T., & Sim\u00e9oni, O. (2024). CLIP-DIY: CLIP dense inference yields open-vocabulary semantic segmentation for-free. In IEEE\/CVF Winter Conference on Applications of Computer Vision (pp. 1392\u20131402). IEEE","DOI":"10.1109\/WACV57701.2024.00143"},{"key":"2171_CR65","first-page":"12077","volume":"34","author":"E Xie","year":"2021","unstructured":"Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., & Luo, P. (2021). Segformer: Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, 34, 12077\u201312090.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2171_CR66","doi-asserted-by":"crossref","unstructured":"Xu,J., De Mello, S., Liu, S., Byeon, W., Breuel, T., Kautz, J., & Wang, X. (2022). Groupvit: Semantic segmentation emerges from text supervision. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 18134\u201318144).","DOI":"10.1109\/CVPR52688.2022.01760"},{"key":"2171_CR67","doi-asserted-by":"crossref","unstructured":"Xu, J., Hou, J., Zhang, Y., Feng, R., Wang, Y., Qiao, Y., & Xie,W. (2023). Learning open-vocabulary semantic segmentation models from natural language supervision. Un  Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (pp. 2935\u20132944).","DOI":"10.1109\/CVPR52729.2023.00287"},{"key":"2171_CR68","doi-asserted-by":"crossref","unstructured":"Xu, J., Liu, S., Vahdat, A., Byeon, W., Wang, X., & De Mello, S. (2023). Open-vocabulary panoptic segmentation with text-to-image diffusion models. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","DOI":"10.1109\/CVPR52729.2023.00289"},{"key":"2171_CR69","doi-asserted-by":"crossref","unstructured":"Xu, M., Zhang, Z., Wei, F., Lin, Y., Cao, Y., Hu, H., & Bai, X. (2021). A simple baseline for zero-shot semantic segmentation with pre-trained vision-language model. arXiv:2112.14757 .","DOI":"10.1007\/978-3-031-19818-2_42"},{"key":"2171_CR70","doi-asserted-by":"crossref","unstructured":"Xu, M., Zhang, Z., Wei, F., Lin, Y., Cao, Y., Hu, H., & Bai, X. (2022). A simple baseline for open-vocabulary semantic segmentation with pre-trained vision-language model. In Computer Vision\u2013ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23\u201327, 2022, Proceedings, Part XXIX. (pp. 736\u2013753). Springer","DOI":"10.1007\/978-3-031-19818-2_42"},{"issue":"12","key":"2171_CR71","doi-asserted-by":"publisher","first-page":"15546","DOI":"10.1109\/TPAMI.2023.3311618","volume":"45","author":"M Xu","year":"2023","unstructured":"Xu, M., Zhang, Z., Wei, F., Hu, H., & Bai, X. (2023). SAN: Side adapter network for open-vocabulary semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(12), 15546\u201315561.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2171_CR72","unstructured":"Yang,J., Li,C., Zhang,P., Dai,X., Xiao,B., Yuan,L., Gao,J.(2021). Focal self-attention for local-global interactions in vision transformers. arXiv:2107.00641"},{"key":"2171_CR73","unstructured":"Yang, J., Zhang, H., Li, F., Zou, X., Li, C., & Gao, J. (2023). Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v. arXiv:2310.11441."},{"key":"2171_CR74","unstructured":"Yu, F., & Koltun, V. (2016). Multi-scale context aggregation by dilated convolutions. arXiv:1511.07122v3"},{"key":"2171_CR75","first-page":"32215","volume-title":"Advances in Neural Information Processing Systems","author":"Q Yu","year":"2023","unstructured":"Yu, Q., He, J., Deng, X., Shen, X., & Chen, L.-C. (2023). Convolutions die hard: Open-vocabulary segmentation with single frozen convolutional clip. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, & S. Levine (Eds.), Advances in Neural Information Processing Systems (pp. 32215\u201332234). Curran Associates."},{"key":"2171_CR76","doi-asserted-by":"crossref","unstructured":"Zhang, H., Li, F., Zou, X., Liu, S., Li, C., Yang, J., & Zhang, L. (2023). A simple framework for open-vocabulary segmentation and detection. In Proceedings of the IEEE\/CVF International Conference on Computer Vision (pp. 1020\u20131031).","DOI":"10.1109\/ICCV51070.2023.00100"},{"key":"2171_CR77","unstructured":"Zhang, S., Sun, P., Chen, S., Xiao, M., Shao, W., Zhang, W., Chen, K. & Luo, P. (2023). Gpt4roi: Instruction tuning large language model on region-of-interest. arXiv:2307.03601."},{"key":"2171_CR78","doi-asserted-by":"crossref","unstructured":"Zhang, H.,Dana, K., Shi, J., Zhang, Z., Wang, X., Tyagi, A., & Agrawal, A. (2018). Context encoding for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7151-7160).","DOI":"10.1109\/CVPR.2018.00747"},{"key":"2171_CR79","doi-asserted-by":"publisher","first-page":"1502","DOI":"10.1007\/s11263-023-01928-1","volume":"132","author":"D Zhang","year":"2023","unstructured":"Zhang, D., Lin, Y., Tang, J., & Cheng, K. T. (2023). CAE-GRreaT: Convolutional-auxiliary efficient graph reasoning transformer for dense image predictions. International Journal of Computer Vision, 132, 1502\u20131520.","journal-title":"International Journal of Computer Vision"},{"key":"2171_CR80","doi-asserted-by":"crossref","unstructured":"Zhao, H., Shi, J., Qi, X., Wang, X., & Jia, J. (2017). Pyramid scene parsing network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2881\u20132890).","DOI":"10.1109\/CVPR.2017.660"},{"key":"2171_CR81","doi-asserted-by":"crossref","unstructured":"Zheng, S., Lu, J., Zhao, H., Zhu, X., Luo, Z., Wang, Y., Fu, Y., Feng, J., Xiang, T., Torr, P. H., et al., (2021) Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 6881\u20136890).","DOI":"10.1109\/CVPR46437.2021.00681"},{"key":"2171_CR82","unstructured":"Zhou, H., Shen, T., Yang, X., Huang, H., Li, X., Qi, L., & Yang, M.-H. (2023). Rethinking evaluation metrics of open-vocabulary segmentaion. arXiv:2311.03352."},{"key":"2171_CR83","doi-asserted-by":"crossref","unstructured":"Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., & Torralba, A. (2017). Scene parsing through ade20k dataset. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","DOI":"10.1109\/CVPR.2017.544"},{"key":"2171_CR84","unstructured":"Zhu, D., Chen, J., Shen, X., Li, X., & Elhoseiny, M. (2023). Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv:2304.10592."},{"key":"2171_CR85","doi-asserted-by":"crossref","unstructured":"Zhu, Y. , Zhu, M., Liu, N., Ou, Z., Mou, X., & Tang, J. (2024). Llava-phi: Efficient multi-modal assistant with small language model. arXiv:2401.02330.","DOI":"10.1145\/3688863.3689575"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-024-02171-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-024-02171-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-024-02171-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,22]],"date-time":"2025-01-22T06:40:10Z","timestamp":1737528010000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-024-02171-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,8,16]]},"references-count":85,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2025,2]]}},"alternative-id":["2171"],"URL":"https:\/\/doi.org\/10.1007\/s11263-024-02171-y","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,8,16]]},"assertion":[{"value":"16 December 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 June 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 August 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}