{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,30]],"date-time":"2025-03-30T13:40:25Z","timestamp":1743342025492,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":28,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819626434","type":"print"},{"value":"9789819626441","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-2644-1_12","type":"book-chapter","created":{"date-parts":[[2025,3,30]],"date-time":"2025-03-30T13:20:43Z","timestamp":1743340843000},"page":"163-176","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["LViTES: Leveraging Vision and\u00a0Text for\u00a0Enhancing Segmentation of\u00a0Endoscopic Images"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-1917-2953","authenticated-orcid":false,"given":"Thang","family":"La","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0000-1505-5758","authenticated-orcid":false,"given":"Minh-Hanh","family":"Tran","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3685-9496","authenticated-orcid":false,"given":"Viet-Hang","family":"Dao","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3133-3361","authenticated-orcid":false,"given":"Thanh-Hai","family":"Tran","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,3,28]]},"reference":[{"issue":"4","key":"12_CR1","doi-asserted-by":"publisher","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","volume":"40","author":"LC Chen","year":"2017","unstructured":"Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE TPAMI 40(4), 834\u2013848 (2017)","journal-title":"IEEE TPAMI"},{"key":"12_CR2","doi-asserted-by":"crossref","unstructured":"Deng, J., et al.: TransVG++: end-to-end visual grounding with language conditioned vision transformer. IEEE Trans. Pattern Anal. Mach. Intell. (2023)","DOI":"10.1109\/TPAMI.2023.3296823"},{"key":"12_CR3","unstructured":"Devlin, J.: BERT: pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018)"},{"key":"12_CR4","doi-asserted-by":"crossref","unstructured":"Ding, H., Liu, C., Wang, S., Jiang, X.: Vision-language transformer and query generation for referring segmentation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 16321\u201316330 (2021)","DOI":"10.1109\/ICCV48922.2021.01601"},{"key":"12_CR5","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"451","DOI":"10.1007\/978-3-030-37734-2_37","volume-title":"MultiMedia Modeling","author":"D Jha","year":"2020","unstructured":"Jha, D., et al.: Kvasir-SEG: a segmented polyp dataset. In: Ro, Y.M., et al. (eds.) MMM 2020. LNCS, vol. 11962, pp. 451\u2013462. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-37734-2_37"},{"key":"12_CR6","doi-asserted-by":"crossref","unstructured":"Kirillov, A., et\u00a0al.: Segment anything. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4015\u20134026 (2023)","DOI":"10.1109\/ICCV51070.2023.00371"},{"issue":"12","key":"12_CR7","doi-asserted-by":"publisher","first-page":"2663","DOI":"10.1109\/TMI.2018.2845918","volume":"37","author":"X Li","year":"2018","unstructured":"Li, X., Chen, H., Qi, X., Dou, Q., Fu, C.W., Heng, P.A.: H-DenseUNet: hybrid densely connected UNet for liver and tumor segmentation from CT volumes. IEEE Trans. Med. Imaging 37(12), 2663\u20132674 (2018)","journal-title":"IEEE Trans. Med. Imaging"},{"key":"12_CR8","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"386","DOI":"10.1007\/978-3-030-87589-3_40","volume-title":"Machine Learning in Medical Imaging","author":"Y Li","year":"2021","unstructured":"Li, Y., et al.: GT U-net: a U-Net like group transformer network for tooth root segmentation. In: Lian, C., Cao, X., Rekik, I., Xu, X., Yan, P. (eds.) MLMI 2021. LNCS, vol. 12966, pp. 386\u2013395. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-030-87589-3_40"},{"key":"12_CR9","doi-asserted-by":"crossref","unstructured":"Li, Z., et al.: LViT: language meets vision transformer in medical image segmentation. IEEE Trans. Med. Imaging (2023)","DOI":"10.1109\/TMI.2023.3291719"},{"key":"12_CR10","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: CVPR, pp. 3431\u20133440 (2015)","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"12_CR11","doi-asserted-by":"crossref","unstructured":"Luo, X., Chen, J., Song, T., Wang, G.: Semi-supervised medical image segmentation through dual-task consistency. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a035, pp. 8801\u20138809 (2021)","DOI":"10.1609\/aaai.v35i10.17066"},{"key":"12_CR12","unstructured":"Luo, X., Hu, M., Song, T., Wang, G., Zhang, S.: Semi-supervised medical image segmentation via cross teaching between CNN and transformer. In: International Conference on Medical Imaging with Deep Learning, pp. 820\u2013833. PMLR (2022)"},{"key":"12_CR13","doi-asserted-by":"crossref","unstructured":"Malaviya, N., Rahevar, M., Virani, A., Ganatra, A., Bhuva, K.: LViT: vision transformer for lung cancer detection. In: 2023 International Conference on Artificial Intelligence and Smart Communication (AISC), pp. 93\u201398. IEEE (2023)","DOI":"10.1109\/AISC56616.2023.10085230"},{"key":"12_CR14","unstructured":"Nguyen, T.H., et al.: A Vietnamese-English neural machine translation system. In: Annual Conference of the International Speech Communication Association (was Eurospeech) 2022, pp. 5543\u20135544. International Speech Communication Association (ISCA) (2022)"},{"key":"12_CR15","unstructured":"Oktay, O., et\u00a0al.: Attention U-Net: learning where to look for the pancreas. arXiv preprint arXiv:1804.03999 (2018)"},{"key":"12_CR16","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"12_CR17","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"234","DOI":"10.1007\/978-3-319-24574-4_28","volume-title":"Medical Image Computing and Computer-Assisted Intervention \u2013 MICCAI 2015","author":"O Ronneberger","year":"2015","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-Net: convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W.M., Frangi, A.F. (eds.) MICCAI 2015. LNCS, vol. 9351, pp. 234\u2013241. Springer, Cham (2015). https:\/\/doi.org\/10.1007\/978-3-319-24574-4_28"},{"key":"12_CR18","unstructured":"Shen, S., et al.: How much can clip benefit vision-and-language tasks? arXiv preprint arXiv:2107.06383 (2021)"},{"key":"12_CR19","doi-asserted-by":"publisher","DOI":"10.1016\/j.compbiomed.2023.106723","volume":"157","author":"S Tang","year":"2023","unstructured":"Tang, S., et al.: Transformer-based multi-task learning for classification and segmentation of gastrointestinal tract endoscopic images. Comput. Biol. Med. 157, 106723 (2023)","journal-title":"Comput. Biol. Med."},{"issue":"02","key":"12_CR20","doi-asserted-by":"publisher","first-page":"217","DOI":"10.1142\/S2196888822500385","volume":"10","author":"TH Tran","year":"2023","unstructured":"Tran, T.H., et al.: DCS-UNet: dual-path framework for segmentation of reflux esophagitis lesions from endoscopic images with U-Net-based segmentation and color\/texture analysis. Vietnam J. Comput. Sci. 10(02), 217\u2013242 (2023)","journal-title":"Vietnam J. Comput. Sci."},{"issue":"2","key":"12_CR21","doi-asserted-by":"publisher","first-page":"514","DOI":"10.1109\/JBHI.2020.2997760","volume":"25","author":"S Wang","year":"2020","unstructured":"Wang, S., et al.: Multi-scale context-guided deep network for automated lesion segmentation with endoscopy images of gastrointestinal tract. IEEE J. Biomed. Health Inform. 25(2), 514\u2013525 (2020)","journal-title":"IEEE J. Biomed. Health Inform."},{"issue":"3","key":"12_CR22","doi-asserted-by":"publisher","first-page":"773","DOI":"10.1053\/j.gastro.2023.05.050","volume":"165","author":"Y Wang","year":"2023","unstructured":"Wang, Y., et al.: Global burden of digestive diseases: a systematic analysis of the global burden of diseases study, 1990 to 2019. Gastroenterology 165(3), 773\u2013783 (2023)","journal-title":"Gastroenterology"},{"key":"12_CR23","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2022.102530","volume":"81","author":"Y Wu","year":"2022","unstructured":"Wu, Y., et al.: Mutual consistency learning for semi-supervised medical image segmentation. Med. Image Anal. 81, 102530 (2022)","journal-title":"Med. Image Anal."},{"key":"12_CR24","doi-asserted-by":"crossref","unstructured":"Xu, F., et al.: A multi-resolution deep forest framework with hybrid feature fusion for CT whole heart segmentation. In: International Conference on Bioinformatics and Biomedicine (BIBM), pp. 1119\u20131124. IEEE (2021)","DOI":"10.1109\/BIBM52615.2021.9669868"},{"key":"12_CR25","doi-asserted-by":"publisher","first-page":"48","DOI":"10.1016\/j.ymeth.2022.10.005","volume":"208","author":"F Xu","year":"2022","unstructured":"Xu, F., et al.: MRDFF: a deep forest based framework for CT whole heart segmentation. Methods 208, 48\u201358 (2022)","journal-title":"Methods"},{"key":"12_CR26","doi-asserted-by":"crossref","unstructured":"Yang, Z., Wang, J., Tang, Y., Chen, K., Zhao, H., Torr, P.H.: LAVT: language-aware vision transformer for referring image segmentation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18155\u201318165 (2022)","DOI":"10.1109\/CVPR52688.2022.01762"},{"key":"12_CR27","doi-asserted-by":"crossref","unstructured":"Zhang, J., Huang, J., Jin, S., Lu, S.: Vision-language models for vision tasks: a survey. IEEE Trans. Pattern Anal. Mach. Intell. (2024)","DOI":"10.1109\/TPAMI.2024.3369699"},{"key":"12_CR28","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1007\/978-3-030-00889-5_1","volume-title":"Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support","author":"Z Zhou","year":"2018","unstructured":"Zhou, Z., Rahman Siddiquee, M.M., Tajbakhsh, N., Liang, J.: UNet++: a nested U-Net architecture for medical image segmentation. In: Stoyanov, D., et al. (eds.) DLMIA\/ML-CDS -2018. LNCS, vol. 11045, pp. 3\u201311. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-00889-5_1"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ACCV 2024 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-2644-1_12","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,30]],"date-time":"2025-03-30T13:20:47Z","timestamp":1743340847000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-2644-1_12"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9789819626434","9789819626441"],"references-count":28,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-2644-1_12","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"28 March 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ACCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Asian Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Hanoi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Vietnam","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"12 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"accv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}