{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,21]],"date-time":"2026-03-21T05:21:00Z","timestamp":1774070460201,"version":"3.50.1"},"reference-count":80,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2025,5,8]],"date-time":"2025-05-08T00:00:00Z","timestamp":1746662400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"},{"start":{"date-parts":[[2025,5,8]],"date-time":"2025-05-08T00:00:00Z","timestamp":1746662400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Complex Intell. Syst."],"published-print":{"date-parts":[[2025,6]]},"DOI":"10.1007\/s40747-025-01900-1","type":"journal-article","created":{"date-parts":[[2025,5,8]],"date-time":"2025-05-08T06:41:15Z","timestamp":1746686475000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["Parameter-efficient weakly supervised referring video object segmentation via chain-of-thought reasoning"],"prefix":"10.1007","volume":"11","author":[{"given":"Xing","family":"Wang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6898-3443","authenticated-orcid":false,"given":"Zhe","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Yuanshi","family":"Zheng","sequence":"additional","affiliation":[]},{"given":"Handing","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,5,8]]},"reference":[{"key":"1900_CR1","doi-asserted-by":"crossref","unstructured":"Hu R, Rohrbach M, Darrell T (2016) Segmentation from natural language expressions. In: Proc. Eur. Conf. Comput. Vis., pages 108\u2013124. Springer","DOI":"10.1007\/978-3-319-46448-0_7"},{"issue":"10","key":"1900_CR2","doi-asserted-by":"publisher","first-page":"2578","DOI":"10.1109\/TMM.2018.2855081","volume":"20","author":"W Jinzhuo","year":"2018","unstructured":"Jinzhuo W, Wenmin W, Wen G (2018) Multiscale deep alternative neural network for large-scale video classification. IEEE Trans Multimed 20(10):2578\u20132592","journal-title":"IEEE Trans Multimed"},{"issue":"4","key":"1900_CR3","first-page":"763","volume":"19","author":"D Xingping","year":"2016","unstructured":"Xingping D, Jianbing S, Yu D, Wenguan W, Jianhong L, Hua H (2016) Occlusion-aware real-time object tracking. IEEE Trans Multimed 19(4):763\u2013771","journal-title":"IEEE Trans Multimed"},{"issue":"12","key":"1900_CR4","doi-asserted-by":"publisher","first-page":"3428","DOI":"10.1109\/TMM.2018.2839534","volume":"20","author":"G Dashan","year":"2018","unstructured":"Dashan G, Wei L, Xiangzhong F (2018) Fully convolutional network for multiscale temporal action proposals. IEEE Trans Multimed 20(12):3428\u20133438","journal-title":"IEEE Trans Multimed"},{"key":"1900_CR5","doi-asserted-by":"publisher","first-page":"5178","DOI":"10.1109\/TIP.2022.3191841","volume":"31","author":"Z Xu","year":"2022","unstructured":"Xu Z, Da C, Kun W, Cheng D, Hui X (2022) Hisa: Hierarchically semantic associating for video temporal grounding. IEEE Trans Image Process 31:5178\u20135188","journal-title":"IEEE Trans Image Process"},{"key":"1900_CR6","doi-asserted-by":"crossref","unstructured":"Xu Z, Wei K, Xu Y, Deng C (2022) Point-supervised video temporal grounding. IEEE Trans Multimed","DOI":"10.1109\/TMM.2022.3205404"},{"key":"1900_CR7","doi-asserted-by":"crossref","unstructured":"Xu Z, Wei K, Yang E, Deng C, Liu W (2023) Bilateral relation distillation for weakly supervised temporal action localization. IEEE Trans Pattern Anal Mach Intell","DOI":"10.1109\/TPAMI.2023.3284853"},{"key":"1900_CR8","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2024.127905","volume":"596","author":"J Xiaolun","year":"2024","unstructured":"Xiaolun J, Genke Y, Jian C (2024) An empirical study of excitation and aggregation design adaptions in clip4clip for video-text retrieval. Neurocomputing 596:127905","journal-title":"Neurocomputing"},{"key":"1900_CR9","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2024.127494","volume":"582","author":"Q Shanshan","year":"2024","unstructured":"Shanshan Q, Luxi Y, Chunguo L (2024) Hierarchical synchronization with structured multi-granularity interaction for video question answering. Neurocomputing 582:127494","journal-title":"Neurocomputing"},{"key":"1900_CR10","doi-asserted-by":"crossref","unstructured":"Xu Z, Wei K, Yang X, Deng C (2024) Exploiting intrinsic multilateral logical rules for weakly supervised natural language video localization. In: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 4511\u20134521","DOI":"10.18653\/v1\/2024.acl-long.247"},{"key":"1900_CR11","doi-asserted-by":"crossref","unstructured":"Hu Y-T, Huang J-B, Schwing AG (2018) Videomatch: Matching based video object segmentation. In: Proc. Eur. Conf. Comput. Vis., pages 54\u201370","DOI":"10.1007\/978-3-030-01237-3_4"},{"key":"1900_CR12","doi-asserted-by":"crossref","unstructured":"Caelles S, Maninis K-K, Pont-Tuset J, Leal-Taix\u00e9 L, Cremers D, Van\u00a0Gool L (2017) One-shot video object segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. pages 221\u2013230","DOI":"10.1109\/CVPR.2017.565"},{"key":"1900_CR13","doi-asserted-by":"crossref","unstructured":"Ventura C, Bellver M, Girbau A, Salvador A, Marques F, Giro-i Nieto X (2019) Rvos: End-to-end recurrent network for video object segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. pages 5277\u20135286","DOI":"10.1109\/CVPR.2019.00542"},{"key":"1900_CR14","doi-asserted-by":"crossref","unstructured":"Tokmakov P, Alahari K, Schmid C (2017) Learning video object segmentation with visual memory. In: Proc. Int. Conf. Comput. Vis. pages 4481\u20134490","DOI":"10.1109\/ICCV.2017.480"},{"key":"1900_CR15","doi-asserted-by":"crossref","unstructured":"Oh SW, Lee J-Y, Xu N, Kim SJ (2019) Video object segmentation using space-time memory networks. In: Proc. Int. Conf. Comput. Vis. pages 9226\u20139235","DOI":"10.1109\/ICCV.2019.00932"},{"key":"1900_CR16","doi-asserted-by":"crossref","unstructured":"Ge W, Lu X, Shen J (2021) Video object segmentation using global and instance embedding learning. In: Proc. Conf. Comput. Vis. Pattern Recognit., pages 16836\u201316845","DOI":"10.1109\/CVPR46437.2021.01656"},{"key":"1900_CR17","doi-asserted-by":"crossref","unstructured":"Lu H, Tian Z, Wei P, Ren H, Zuo W (2024) Integrating instance-level knowledge to see the unseen: A two-stream network for video object segmentation. Neurocomputing, page 127878","DOI":"10.1016\/j.neucom.2024.127878"},{"key":"1900_CR18","doi-asserted-by":"crossref","unstructured":"Gavrilyuk K, Ghodrati A, Li Z, Snoek CGM (2018) Actor and action video segmentation from a sentence. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 5958\u20135966","DOI":"10.1109\/CVPR.2018.00624"},{"key":"1900_CR19","doi-asserted-by":"crossref","unstructured":"Wang H, Deng C, Yan J, Tao D (2019) Asymmetric cross-guided attention network for actor and action video segmentation from natural language query. In: Proc. Int. Conf. Comput. Vis. pages 3939\u20133948","DOI":"10.1109\/ICCV.2019.00404"},{"key":"1900_CR20","doi-asserted-by":"crossref","unstructured":"Botach A, Zheltonozhskii E, Baskin C (2022) End-to-end referring video object segmentation with multimodal transformers. In: Proc. Conf. Comput. Vis. Pattern Recognit. pages 4985\u20134995","DOI":"10.1109\/CVPR52688.2022.00493"},{"key":"1900_CR21","doi-asserted-by":"crossref","unstructured":"Ding Z, Hui T, Huang J, Wei X, Han J, Liu S (2022)Language-bridged spatial-temporal interaction for referring video object segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. pages 4964\u20134973","DOI":"10.1109\/CVPR52688.2022.00491"},{"key":"1900_CR22","doi-asserted-by":"crossref","unstructured":"Wu J, Jiang Y, Sun P, Yuan Z, Luo P (2022) Language as queries for referring video object segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. pages 4974\u20134984","DOI":"10.1109\/CVPR52688.2022.00492"},{"key":"1900_CR23","doi-asserted-by":"crossref","unstructured":"Hui T, Huang S, Liu S, Ding Z, Li G, Wang W, Han J, Wang F (2021) Collaborative spatial-temporal modeling for language-queried video actor segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 4187\u20134196","DOI":"10.1109\/CVPR46437.2021.00417"},{"key":"1900_CR24","doi-asserted-by":"crossref","unstructured":"McIntosh B, Duarte K, Rawat YS, Shah M (2020) Visual-textual capsule routing for text-based video segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 9942\u20139951","DOI":"10.1109\/CVPR42600.2020.00996"},{"key":"1900_CR25","doi-asserted-by":"crossref","unstructured":"Zhao W, Wang K, Chu X, Xue F, Wang X, You Y (2022) Modeling motion with multi-modal features for text-based video segmentation. In Proc. Conf. Comput. Vis. Pattern Recognit. Pages 11737\u201311746","DOI":"10.1109\/CVPR52688.2022.01144"},{"key":"1900_CR26","doi-asserted-by":"crossref","unstructured":"Liang C, Wang W, Zhou T, Miao J, Luo Y, Yang Y (2023) Local-global context aware transformer for language-guided video segmentation. IEEE Trans Pattern Anal Mach Intell","DOI":"10.1109\/TPAMI.2023.3262578"},{"key":"1900_CR27","doi-asserted-by":"crossref","unstructured":"Wu D, Wang T, Zhang Y, Zhang X, Shen J (2023) Onlinerefer: A simple online baseline for referring video object segmentation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pages 2761\u20132770","DOI":"10.1109\/ICCV51070.2023.00259"},{"key":"1900_CR28","doi-asserted-by":"crossref","unstructured":"Tang J, Zheng G, Yang S (2023) Temporal collection and distribution for referring video object segmentation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pages 15466\u201315476","DOI":"10.1109\/ICCV51070.2023.01418"},{"key":"1900_CR29","doi-asserted-by":"crossref","unstructured":"He S, Ding H (2024) Decoupling static and hierarchical motion perception for referring video segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 13332\u201313341","DOI":"10.1109\/CVPR52733.2024.01266"},{"key":"1900_CR30","doi-asserted-by":"crossref","unstructured":"Zhu Z, Feng X, Chen D, Yuan J, Qiao C, Hua G (2024) Exploring pre-trained text-to-video diffusion models for referring video object segmentation. In: European Conference on Computer Vision, pages 452\u2013469. Springer","DOI":"10.1007\/978-3-031-73254-6_26"},{"key":"1900_CR31","doi-asserted-by":"crossref","unstructured":"Yuan L, Shi M, Yue Z, Chen Q (2024) Losh: Long-short text joint prediction network for referring video object segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, Pages 14001\u201314010","DOI":"10.1109\/CVPR52733.2024.01328"},{"key":"1900_CR32","doi-asserted-by":"crossref","unstructured":"Yan C, Wang H, Yan S, Jiang X, Hu Y, Kang G, Xie W, Gavves E (2024) Visa: Reasoning video object segmentation via large language models. In: European Conference on Computer Vision, Pages 98\u2013115. Springer","DOI":"10.1007\/978-3-031-72633-0_6"},{"key":"1900_CR33","first-page":"6833","volume":"37","author":"Z Bai","year":"2025","unstructured":"Bai Z, He T, Mei H, Wang P, Gao Z, Chen J, Zhang Z, Shou MZ (2025) Language instructed reasoning segmentation in videos. One token to seg them all. Adv Neural Inf Process Syst 37:6833\u20136859","journal-title":"Adv Neural Inf Process Syst"},{"key":"1900_CR34","doi-asserted-by":"crossref","unstructured":"Bearman A, Russakovsky O, Ferrari V, Fei-Fei L (2016) What\u2019s the point: Semantic segmentation with point supervision. In: Proc. Eur. Conf. Comput. Vis. Pages 549\u2013565. Springer","DOI":"10.1007\/978-3-319-46478-7_34"},{"key":"1900_CR35","doi-asserted-by":"crossref","unstructured":"Khoreva A, Benenson R, Hosang J, Hein M, Schiele B (2017) Simple does it: Weakly supervised instance and semantic segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 876\u2013885","DOI":"10.1109\/CVPR.2017.181"},{"key":"1900_CR36","doi-asserted-by":"crossref","unstructured":"Ahn J, Kwak S (2018) Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 4981\u20134990","DOI":"10.1109\/CVPR.2018.00523"},{"key":"1900_CR37","doi-asserted-by":"crossref","unstructured":"Chen W, Li G, Zhang X, Wang S, Li L, Huang Q (2022) Weakly supervised text-based actor-action video segmentation by clip-level multi-instance learning. ACM Trans Multimedia Comput Commun Appl","DOI":"10.1145\/3514250"},{"key":"1900_CR38","unstructured":"Zhou L, Louis N, Corso JJ (2018) Weakly-supervised video object grounding from text by loss weighting and object interaction. arXiv:1805.02834"},{"key":"1900_CR39","doi-asserted-by":"crossref","unstructured":"Shi J, Xu J, Gong B, Xu C (2019) Not all frames are equal: Weakly-supervised video grounding with contextual similarity and visual clustering losses. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 10444\u201310452","DOI":"10.1109\/CVPR.2019.01069"},{"key":"1900_CR40","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo vadis, action recognition? a new model and the kinetics dataset. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 6299\u20136308","DOI":"10.1109\/CVPR.2017.502"},{"key":"1900_CR41","doi-asserted-by":"crossref","unstructured":"Liu Z, Ning J, Cao Y, Wei Y, Zhang Z, Lin S, Hu H (2022) Video swin transformer. In: Proc. Conf. Comput. Vis. Pattern Recognit. Pages 3202\u20133211","DOI":"10.1109\/CVPR52688.2022.00320"},{"key":"1900_CR42","unstructured":"Zhao W, Nan K, Zhang S, Chen K, Lin D, You Y (2023) Learning referring video object segmentation from weak annotation. arXiv:2308.02162"},{"key":"1900_CR43","doi-asserted-by":"crossref","unstructured":"Petroni F, Rockt\u00e4schel T, Riedel S, Lewis P, Bakhtin A, Wu Y, Miller A (2019) Language models as knowledge bases? In: Proc. Conf. Empirical Methods Natural Lang. Process. pages 2463\u20132473","DOI":"10.18653\/v1\/D19-1250"},{"key":"1900_CR44","unstructured":"Liu P, Yuan W, Fu J, Jiang Z, Hayashi H, Neubig G (2021) Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. arXiv:2107.13586"},{"key":"1900_CR45","doi-asserted-by":"crossref","unstructured":"Schick T, Sch\u00fctze H (2021) Exploiting cloze-questions for few-shot text classification and natural language inference. In: Proc. 59th Annu. Meeting Assoc. Comput. Linguistics, pages 255\u2013269, Online. Association for Computational Linguistics","DOI":"10.18653\/v1\/2021.eacl-main.20"},{"key":"1900_CR46","doi-asserted-by":"crossref","unstructured":"Gao T, Fisch A, Chen D (2021) Making pre-trained language models better few-shot learners. In: Proc. 59th Annu. Meeting Assoc. Comput. Linguistics, pages 3816\u20133830, Online. Association for Computational Linguistics","DOI":"10.18653\/v1\/2021.acl-long.295"},{"key":"1900_CR47","doi-asserted-by":"crossref","unstructured":"Zhong Z, Friedman D, Chen D (2021) Factual probing is [mask]: Learning vs. learning to recall. In: Proc. 59th Annu. Meeting Assoc. Comput. Linguistics, pages 5017\u20135033","DOI":"10.18653\/v1\/2021.naacl-main.398"},{"key":"1900_CR48","doi-asserted-by":"crossref","unstructured":"Lester B, Al-Rfou R, Constant N (2021) The power of scale for parameter-efficient prompt tuning. arXiv:2104.08691","DOI":"10.18653\/v1\/2021.emnlp-main.243"},{"issue":"9","key":"1900_CR49","doi-asserted-by":"publisher","first-page":"2337","DOI":"10.1007\/s11263-022-01653-1","volume":"130","author":"K Zhou","year":"2022","unstructured":"Zhou K, Yang J, Loy CC, Liu Z (2022) Learning to prompt for vision-language models. Int J Compute Vis 130(9):2337\u20132348","journal-title":"Int J Compute Vis"},{"key":"1900_CR50","doi-asserted-by":"crossref","unstructured":"Zhou K, Yang J, Loy CC, Ziwei L (2022) Conditional prompt learning for vision-language models. Proc Conf Comput Vis Pattern Recognit. Pages 16816\u201316825","DOI":"10.1109\/CVPR52688.2022.01631"},{"key":"1900_CR51","doi-asserted-by":"crossref","unstructured":"Jia M, Tang L, Chen B-C, Cardie C, Belongie S, Hariharan B, Lim S-N (2022) Visual prompt tuning. arXiv:2203.12119","DOI":"10.1007\/978-3-031-19827-4_41"},{"key":"1900_CR52","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.102043","volume":"102","author":"T Chunwei","year":"2024","unstructured":"Chunwei T, Menghua Z, Wangmeng Z, Shichao Z, Yanning Z, Chia-Wen L (2024) A cross transformer for image denoising. Inf Fusion 102:102043","journal-title":"Inf Fusion"},{"key":"1900_CR53","doi-asserted-by":"crossref","unstructured":"Tian C, Zheng M, Lin C-W, Li Z, Zhang D (2024) Heterogeneous window transformer for image denoising. IEEE Trans Syst Man Cybernet Syst","DOI":"10.1109\/TSMC.2024.3429345"},{"issue":"8","key":"1900_CR54","doi-asserted-by":"publisher","first-page":"7069","DOI":"10.1109\/TCSVT.2024.3349678","volume":"34","author":"T Chunwei","year":"2024","unstructured":"Chunwei T, Menghua Z, Bo L, Yanning Z, Shichao Z, David Z (2024) Perceptive self-supervised learning network for noisy image watermark removal. IEEE Trans Circuits Syst Video Technol 34(8):7069\u20137079","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"1900_CR55","unstructured":"Rebuffi S-A, Bilen H, Vedaldi A (2017) Learning multiple visual domains with residual adapters. Proc Adv Neural Inf Process Syst, p 30"},{"key":"1900_CR56","doi-asserted-by":"crossref","unstructured":"Rebuffi S-A, Bilen\u00a0H, Vedaldi A (2018) Efficient parametrization of multi-domain deep neural networks. Proc Conf Comput Vis Pattern Recognit 8119\u20138127","DOI":"10.1109\/CVPR.2018.00847"},{"key":"1900_CR57","doi-asserted-by":"crossref","unstructured":"Karimi\u00a0Mahabadi R, Ruder S, Dehghani M, Henderson J (2021) Parameter-efficient multi-task fine-tuning for transformers via shared hypernetworks. In: Proc. 59th Annu. Meeting Assoc. Comput. Linguistics, Pages 565\u2013576. Association for Computational Linguistics","DOI":"10.18653\/v1\/2021.acl-long.47"},{"key":"1900_CR58","first-page":"1022","volume":"34","author":"RK Mahabadi","year":"2021","unstructured":"Mahabadi RK, Henderson J, Ruder S (2021) Efficient low-rank hypercomplex adapter layers. Compacter. Proc Adv Neural Inf Process Syst 34:1022\u20131035","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"1900_CR59","unstructured":"Houlsby N, Giurgiu A, Jastrzebski S, Morrone B, De\u00a0Laroussilhe Q, Gesmundo A, Attariyan M, Gelly S (2019) Parameter-efficient transfer learning for nlp. Proc Int Conf Mach Learn 2790\u20132799"},{"key":"1900_CR60","doi-asserted-by":"crossref","unstructured":"Sung Y-L, Cho J, Bansal M (2022) Vl-adapter: Parameter-efficient transfer learning for vision-and-language tasks. Proc Conf Comput Vis Pattern Recognit 5227\u20135237","DOI":"10.1109\/CVPR52688.2022.00516"},{"key":"1900_CR61","unstructured":"Wei J, Wang X, Schuurmans D, Bosma M, Xia F, Chi EDH, Le QV, Zhou D, et\u00a0al. Chain-of-thought prompting elicits reasoning in large language models. Proc Adv Neural Inf Process Syst"},{"key":"1900_CR62","first-page":"36366","volume":"35","author":"MS Yang","year":"2022","unstructured":"Yang MS, Schuurmans D, Abbeel P, Nachum O (2022) Chain of thought imitation with procedure cloning. Proc Adv Neural Inf Process Syst 35:36366\u201336381","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"1900_CR63","first-page":"2507","volume":"35","author":"P Lu","year":"2022","unstructured":"Lu P, Swaroop M, Tanglin X, Liang Q, Kai-Wei C, Song-Chun Z, Oyvind T, Peter C, Ashwin K (2022) Learn to explain: Multimodal reasoning via thought chains for science question answering. Proc Adv Neural Inf Process Syst 35:2507\u20132521","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"1900_CR64","unstructured":"Zhang Z, Zhang A, Li M, Zhao H, Karypis G, Smola A (2023) Multimodal chain-of-thought reasoning in language models. arXiv:2302.00923"},{"key":"1900_CR65","unstructured":"Shi F, Suzgun M, Freitag M, Wang X, Srivats S, Vosoughi S, Chung HW, Tay Y, Ruder S, Zhou D, et\u00a0al. (2022) Language models are multilingual chain-of-thought reasoners. arXiv:2210.03057"},{"key":"1900_CR66","unstructured":"Wang X, Wei J, Schuurmans D, Le Q, Chi E, Zhou D (2022) Self-consistency improves chain of thought reasoning in language models. arXiv:2203.11171"},{"key":"1900_CR67","unstructured":"Devlin J, Chang M-W, Lee K, Toutanova K (2018) Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805"},{"key":"1900_CR68","first-page":"17864","volume":"34","author":"C Bowen","year":"2021","unstructured":"Bowen C, Alex S, Alexander K (2021) Per-pixel classification is not all you need for semantic segmentation. Proc Adv Neural Inf Process Syst 34:17864\u201317875","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"1900_CR69","doi-asserted-by":"crossref","unstructured":"Cheng B, Misra I, Schwing AG, Kirillov A, Girdhar R (2022) Masked-attention mask transformer for universal image segmentation. Proc Conf Comput Vis Pattern Recognit 1290\u20131299","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"1900_CR70","first-page":"10326","volume":"34","author":"W Zhang","year":"2021","unstructured":"Zhang W, Pang J, Chen K, Loy CC (2021) Towards unified image segmentation. K-net. Proc Adv Neural Inf Process Syst 34:10326\u201310338","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"1900_CR71","doi-asserted-by":"crossref","unstructured":"Carion N, Massa F, Synnaeve G, Usunier N, Kirillov A, Zagoruyko S (2020) End-to-end object detection with transformers. In: Proc. Eur. Conf. Comput. Vis., pages 213\u2013229. Springer","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"1900_CR72","unstructured":"Maddison CJ, Mnih A, Teh YW (2016) The concrete distribution: A continuous relaxation of discrete random variables. arXiv:1611.00712"},{"key":"1900_CR73","unstructured":"Jang E, Gu S, Poole B (2016) Categorical reparameterization with gumbel-softmax. arXiv:1611.01144"},{"key":"1900_CR74","unstructured":"Chen T, Kornblith S, Norouzi M, Hinton G (2020) A simple framework for contrastive learning of visual representations. In: International conference on machine learning, pages 1597\u20131607. PMLR"},{"key":"1900_CR75","doi-asserted-by":"crossref","unstructured":"Burges C, Shaked T, Renshaw E, Lazier A, Deeds M, Hamilton N, Hullender G (2005) Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Machine learning, pages 89\u201396","DOI":"10.1145\/1102351.1102363"},{"key":"1900_CR76","doi-asserted-by":"crossref","unstructured":"Jhuang H, Gall J, Zuffi S, Schmid C, Black MJ (2013) Towards understanding action recognition. In: Proc. Int. Conf. Comput. Vis. Pages 3192\u20133199","DOI":"10.1109\/ICCV.2013.396"},{"key":"1900_CR77","unstructured":"Paszke A, Gross S, Massa F, Lerer A, Bradbury J, Chanan G, Killeen T, Lin Z, Gimelshein N, Antiga L et\u00a0al.(2019) Pytorch: An imperative style, high-performance deep learning library. Proc Adv Neural Inf Process Syst 8026\u20138037"},{"key":"1900_CR78","unstructured":"Kingma DP, Ba J (2014) Adam: A method for stochastic optimization. arXiv:1412.6980"},{"key":"1900_CR79","doi-asserted-by":"crossref","unstructured":"Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Z, Lin S, Guo B (2021) Swin transformer: Hierarchical vision transformer using shifted windows. In: Proc. Conf. Comput. Vis. Pattern Recognit. 10012\u201310022","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1900_CR80","unstructured":"Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, et\u00a0al. (2021) Learning transferable visual models from natural language supervision. Proc Int Conf Mach Learn 8748\u20138763"}],"container-title":["Complex &amp; Intelligent Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-025-01900-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s40747-025-01900-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-025-01900-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,17]],"date-time":"2025-05-17T11:23:50Z","timestamp":1747481030000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s40747-025-01900-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,8]]},"references-count":80,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2025,6]]}},"alternative-id":["1900"],"URL":"https:\/\/doi.org\/10.1007\/s40747-025-01900-1","relation":{},"ISSN":["2199-4536","2198-6053"],"issn-type":[{"value":"2199-4536","type":"print"},{"value":"2198-6053","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,5,8]]},"assertion":[{"value":"11 December 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"4 April 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"8 May 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"273"}}