{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,27]],"date-time":"2026-02-27T02:34:52Z","timestamp":1772159692147,"version":"3.50.1"},"reference-count":148,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Frontier Technologies R&D Program of Jiangsu","award":["BF2024027"],"award-info":[{"award-number":["BF2024027"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Geosci. Remote Sensing"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tgrs.2025.3532349","type":"journal-article","created":{"date-parts":[[2025,1,21]],"date-time":"2025-01-21T13:26:05Z","timestamp":1737465965000},"page":"1-33","source":"Crossref","is-referenced-by-count":0,"title":["View-Based Knowledge-Augmented Multimodal Semantic Understanding for Optical Remote Sensing Images"],"prefix":"10.1109","volume":"63","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2681-9116","authenticated-orcid":false,"given":"Lilu","family":"Zhu","sequence":"first","affiliation":[{"name":"Suzhou Aerospace Information Research Institute, Suzhou, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3534-6891","authenticated-orcid":false,"given":"Xiaolu","family":"Su","sequence":"additional","affiliation":[{"name":"Suzhou Aerospace Information Research Institute, Suzhou, China"}]},{"given":"Jiaxuan","family":"Tang","sequence":"additional","affiliation":[{"name":"Suzhou Aerospace Information Research Institute, Suzhou, China"}]},{"given":"Yanfeng","family":"Hu","sequence":"additional","affiliation":[{"name":"Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing, China"}]},{"given":"Yang","family":"Wang","sequence":"additional","affiliation":[{"name":"Suzhou Aerospace Information Research Institute, Suzhou, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/JSTARS.2020.3005403"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1080\/20964471.2019.1657720"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1002\/widm.1264"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2020.01.013"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.114417"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2020.06.003"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.jag.2021.102348"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.3390\/rs14040871"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.3390\/rs14102385"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/MGRS.2023.3312347"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.3042276"},{"key":"ref12","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. 38th Int. Conf. Mach. learn.","author":"Radford"},{"key":"ref13","article-title":"UNIMO: Towards unified-modal understanding and generation via cross-modal contrastive learning","author":"Li","year":"2020","journal-title":"arXiv:2012.15409"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01522"},{"key":"ref15","first-page":"19730","article-title":"BLIP-2: Bootstrapping language image pre-training with frozen image encoders and large language models","volume-title":"Proc. 40th Int. Conf. Mach. learn.","author":"Li"},{"key":"ref16","article-title":"InstructBLIP: Towards general-purpose vision-language models with instruction tuning","author":"Dai","year":"2023","journal-title":"arXiv:2305.06500"},{"key":"ref17","article-title":"MiniGPT-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023","journal-title":"arXiv:2304.10592"},{"key":"ref18","first-page":"34892","article-title":"Visual instruction tuning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref19","article-title":"Qwen-VL: A versatile vision-language model for understanding, localization, text reading, and beyond","author":"Bai","year":"2023","journal-title":"arXiv:2308.12966"},{"key":"ref20","article-title":"Gemini: A family of highly capable multimodal models","author":"Team","year":"2023","journal-title":"arXiv:2312.11805"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-022-1386-4"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20059-5_40"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/SPAC53836.2021.9539962"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-emnlp.495"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20218"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-short.29"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3332317"},{"key":"ref28","article-title":"RSGPT: A remote sensing vision language model and benchmark","author":"Hu","year":"2023","journal-title":"arXiv:2307.15266"},{"key":"ref29","first-page":"27831","article-title":"GeoChat: Grounded large vision-language model for remote sensing","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR)","author":"Kuckreja"},{"key":"ref30","article-title":"Large language models for captioning and retrieving remote sensing images","author":"Silva","year":"2024","journal-title":"arXiv:2402.06475"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/LGRS.2024.3374381"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3486977"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2021.08.001"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2022.02.013"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2020.11.007"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2021.3115569"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.3390\/rs13132511"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/JSTARS.2022.3146167"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1002\/widm.1371"},{"issue":"8","key":"ref40","first-page":"1176","article-title":"A new paradigm of remote sensing image interpretation by coupling knowledge graph and deep learning","volume":"47","author":"Li","year":"2022","journal-title":"Geomatics Inf. Sci. Wuhan Univ."},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.11164"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-11964-9_4"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.3233\/SW-140134"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2012.06.001"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018876"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/230"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107563"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/JSTARS.2022.3176612"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.11834\/jrs.20210382"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1080\/01431161.2023.2240032"},{"issue":"1","key":"ref51","first-page":"16","article-title":"Geographic knowledge graph for remote sensing big data","volume":"23","author":"Wang","year":"2021","journal-title":"J. Geo-Inf. Sci."},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1016\/j.jag.2022.103153"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.3390\/rs15082126"},{"issue":"2","key":"ref54","first-page":"455","article-title":"Geographic knowledge graph-guided remote sensing image semantic segmentation","volume":"28","author":"Li","year":"2024","journal-title":"Nat. Remote Sens. Bull."},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.11834\/jrs.20210469"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.121278"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2021.01.020"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2019.11.023"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/LGRS.2021.3051053"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3390838"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3031549"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.5555\/3524938.3525087"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"ref64","article-title":"Improved baselines with momentum contrastive learning","author":"Chen","year":"2020","journal-title":"arXiv:2003.04297"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01002"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2022.07.013"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/j.jag.2023.103497"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2022.3147513"},{"key":"ref69","article-title":"Extending global\u2013local view alignment for self-supervised learning with remote sensing imagery","author":"Wanyan","year":"2023","journal-title":"arXiv:2303.06670"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00928"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00509"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3260121"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1016\/j.jag.2022.103071"},{"key":"ref75","article-title":"Deep unsupervised contrastive hashing for large-scale cross-modal text-image retrieval in remote sensing","author":"Mikriukov","year":"2022","journal-title":"arXiv:2201.08125"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2022.3218921"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3321752"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/JSTARS.2023.3270498"},{"key":"ref79","first-page":"14","article-title":"Knowledge-aware cross-modal text-image retrieval for remote sensing image","volume-title":"Proc. 2nd Workshop Complex Data Challenges Earth Observ. (CDCEO)","author":"Mi"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1016\/j.rse.2021.112598"},{"key":"ref81","article-title":"PIR: Remote sensing image-text retrieval with prior instruction representation learning","author":"Pan","year":"2024","journal-title":"arXiv:2405.10160"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1016\/j.rse.2021.112615"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/LGRS.2015.2475299"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3312479"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28357"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2024.3352100"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1470"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/GUCON48875.2020.9231227"},{"issue":"48621","key":"ref89","article-title":"Grapher: Multi-stage knowledge graph construction using pretrained language models","volume-title":"Proc. NeurIPS Workshop Deep Generative Models Downstream Appl.","author":"Melnyk"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.400"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.548"},{"key":"ref92","article-title":"ChatIE: Zero-shot information extraction via chatting with ChatGPT","author":"Wei","year":"2023","journal-title":"arXiv:2302.10205"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1145\/3641850"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1016\/j.rse.2011.11.026"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v28i1.8870"},{"key":"ref96","first-page":"2787","article-title":"Translating embeddings for modeling multi-relational data","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Bordes"},{"key":"ref97","first-page":"1","article-title":"Neural machine translation with universal visual representation","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Zhang"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.480"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.438"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3275644"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i17.29844"},{"key":"ref102","volume-title":"Terracolor-Nextgen. TerraColor NextGen Imagery","year":"2024"},{"key":"ref103","volume-title":"Google. Google Earth","year":"2024"},{"key":"ref104","volume-title":"Esri World Imagery","year":"2024"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1016\/j.rse.2014.02.001"},{"key":"ref106","volume-title":"Maxar.Worldview-2","year":"2024"},{"key":"ref107","volume-title":"Maxar.Worldview-3","year":"2024"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-13618-4_27"},{"issue":"2","key":"ref109","first-page":"24","article-title":"SPOT-6 and SPOT-7 Satellites","volume":"18","author":"Cheng","year":"2015","journal-title":"GeoInformatics"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2017.2685945"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1145\/1869790.1869829"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3286826"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2017.2776321"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2021.3078451"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/CITS.2016.7546397"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548316"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3250471"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2020.2988782"},{"key":"ref119","volume-title":"Open AI. GPT-4o","year":"2024"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1145\/3394486.3406703"},{"key":"ref121","volume-title":"Meta. Llama 3.1","year":"2024"},{"key":"ref122","volume-title":"Alibaba, Qwen1.5","year":"2024"},{"key":"ref123","volume-title":"Google. Gemini","year":"2024"},{"key":"ref124","volume-title":"Nvidia. Nemotron-4-340B","year":"2024"},{"key":"ref125","volume-title":"Claude-3.5-Sonnet","year":"2024"},{"key":"ref126","article-title":"Yi: Open foundation models by 01.AI","author":"AI","year":"2024","journal-title":"arXiv:2403.04652"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/LGRS.2020.3011405"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3071369"},{"issue":"4","key":"ref129","article-title":"Remote sensing image scene classification based on multidimensional attention and feature enhancement","volume":"50","author":"Liu","year":"2023","journal-title":"IAENG Int. J. Comput. Sci."},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/NTCI60157.2023.10403750"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1109\/LGRS.2024.3432069"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095523"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3266838"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1016\/j.jag.2023.103301"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2023.01.011"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.3390\/rs15051187"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3250448"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/LGRS.2024.3360473"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1080\/01431161.2022.2091964"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/JSTARS.2022.3215803"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.1109\/IGARSS39084.2020.9323213"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3328181"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"ref144","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","author":"Lin","year":"2004","journal-title":"Text Summarization Branches Out"},{"key":"ref145","article-title":"SkyEyeGPT: Unifying remote sensing vision-language tasks via instruction tuning with large language model","author":"Zhan","year":"2024","journal-title":"arXiv:2401.09712"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3407598"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3423663"},{"key":"ref148","article-title":"MiniGPT-v2: Large language model as a unified interface for vision-language multi-task learning","author":"Chen","year":"2023","journal-title":"arXiv:2310.09478"}],"container-title":["IEEE Transactions on Geoscience and Remote Sensing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/36\/10807682\/10848141.pdf?arnumber=10848141","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,2,7]],"date-time":"2025-02-07T02:10:21Z","timestamp":1738894221000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10848141\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":148,"URL":"https:\/\/doi.org\/10.1109\/tgrs.2025.3532349","relation":{"has-review":[{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v1\/decision1","asserted-by":"object"},{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v1\/review2","asserted-by":"object"},{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v2\/decision1","asserted-by":"object"},{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v2\/response1","asserted-by":"object"},{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v1\/review1","asserted-by":"object"},{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v2\/review1","asserted-by":"object"},{"id-type":"doi","id":"10.1109\/TGRS.2025.3532349\/v2\/review2","asserted-by":"object"}]},"ISSN":["0196-2892","1558-0644"],"issn-type":[{"value":"0196-2892","type":"print"},{"value":"1558-0644","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}