{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T11:48:52Z","timestamp":1775216932907,"version":"3.50.1"},"reference-count":58,"publisher":"Springer Science and Business Media LLC","issue":"7","license":[{"start":{"date-parts":[[2025,3,17]],"date-time":"2025-03-17T00:00:00Z","timestamp":1742169600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,3,17]],"date-time":"2025-03-17T00:00:00Z","timestamp":1742169600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62401097"],"award-info":[{"award-number":["62401097"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100010018","name":"Doctoral Start-up Foundation of Liaoning Province","doi-asserted-by":"publisher","award":["2024-BS-028"],"award-info":[{"award-number":["2024-BS-028"]}],"id":[{"id":"10.13039\/501100010018","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Scientific Research Funding Program of Liaoning Provincial Department of Education","award":["LJKZ0024"],"award-info":[{"award-number":["LJKZ0024"]}]},{"name":"Fundamental Research Funds for the Central Universities, Dalian Minzu University","award":["0854-53"],"award-info":[{"award-number":["0854-53"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2025,7]]},"DOI":"10.1007\/s11263-025-02409-3","type":"journal-article","created":{"date-parts":[[2025,3,17]],"date-time":"2025-03-17T19:27:17Z","timestamp":1742239637000},"page":"4646-4668","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["Multi-Text Guidance Is Important: Multi-Modality Image Fusion via Large Generative Vision-Language Model"],"prefix":"10.1007","volume":"133","author":[{"given":"Zeyu","family":"Wang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-3979-8801","authenticated-orcid":false,"given":"Libo","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"Jizheng","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Rui","family":"Song","sequence":"additional","affiliation":[]},{"given":"Haiyu","family":"Song","sequence":"additional","affiliation":[]},{"given":"Jiana","family":"Meng","sequence":"additional","affiliation":[]},{"given":"Shidong","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,3,17]]},"reference":[{"key":"2409_CR1","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2023.126248","volume":"544","author":"Y Cao","year":"2023","unstructured":"Cao, Y., Luo, X., Tong, X., Yang, J., & Cao, Y. (2023). Infrared and visible image fusion based on a two-stage class conditioned auto-encoder network. Neurocomputing, 544, 126248.","journal-title":"Neurocomputing"},{"key":"2409_CR2","doi-asserted-by":"crossref","unstructured":"Chen, K., Choy, C.B., Savva, M., Chang, A.X., Funkhouser, T., & Savarese, S. (2019). Text2shape: Generating shapes from natural language by learning joint embeddings. In Computer vision\u2013ACCV 2018: 14th Asian conference on computer vision, Perth, Australia, December 2\u20136, 2018, Revised Selected Papers, Part III 14, pp. 100\u2013116. Springer","DOI":"10.1007\/978-3-030-20893-6_7"},{"key":"2409_CR3","unstructured":"Cheng, C., Xu, T., Wu, X.-J., Li, H., Li, X., Tang, Z., & Kittler, J. (2023). Textfusion: Unveiling the power of textual semantics for controllable image fusion. arXiv preprint arXiv:2312.14209"},{"issue":"4","key":"2409_CR4","doi-asserted-by":"publisher","first-page":"750","DOI":"10.1109\/TBDATA.2017.2717439","volume":"7","author":"M Chen","year":"2017","unstructured":"Chen, M., Shi, X., Zhang, Y., Wu, D., & Guizani, M. (2017). Deep feature learning for medical image analysis with convolutional autoencoder neural network. IEEE Transactions on Big Data, 7(4), 750\u2013758.","journal-title":"IEEE Transactions on Big Data"},{"key":"2409_CR5","doi-asserted-by":"crossref","unstructured":"Cho, W., Bahng, H., Park, D.K., Yoo, S., Wu, Z., Ma, X., & Choo, J. (2018). Text2colors: Guiding image colorization through text-driven palette generation. arXiv preprint arXiv:1804.04128","DOI":"10.1007\/978-3-030-01258-8_27"},{"issue":"10","key":"2409_CR6","doi-asserted-by":"publisher","first-page":"3333","DOI":"10.1109\/TPAMI.2020.2984244","volume":"43","author":"X Deng","year":"2020","unstructured":"Deng, X., & Dragotti, P. L. (2020). Deep convolutional neural network for multi-modal image restoration and fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(10), 3333\u20133348.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2409_CR7","doi-asserted-by":"crossref","unstructured":"Ding, Y., Yu, X., & Yang, Y. (2021). Rfnet: Region-aware fusion network for incomplete multi-modal brain tumor segmentation. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 3975\u20133984.","DOI":"10.1109\/ICCV48922.2021.00394"},{"key":"2409_CR8","unstructured":"Dinh, L., Sohl-Dickstein, J., & Bengio, S. (2016). Density estimation using real nvp. arXiv preprint arXiv:1605.08803"},{"key":"2409_CR9","doi-asserted-by":"crossref","unstructured":"Duffhauss, F., Vien, N.A., Ziesche, H., & Neumann, G. (2022). Fusionvae: A deep hierarchical variational autoencoder for rgb image fusion. In European conference on computer vision, pp. 674\u2013691. Springer","DOI":"10.1007\/978-3-031-19842-7_39"},{"key":"2409_CR10","doi-asserted-by":"publisher","first-page":"251","DOI":"10.1016\/j.inffus.2019.06.025","volume":"53","author":"Z Fu","year":"2020","unstructured":"Fu, Z., Zhao, Y., Xu, Y., Xu, L., & Xu, J. (2020). Gradient structural similarity based gradient filtering for multi-modal image fusion. Information Fusion, 53, 251\u2013268.","journal-title":"Information Fusion"},{"key":"2409_CR11","doi-asserted-by":"crossref","unstructured":"Gastal, E.S., & Oliveira, M.M. (2011). Domain transform for edge-aware image and video processing. In ACM SIGGRAPH 2011 papers, 1\u201312.","DOI":"10.1145\/1964921.1964964"},{"key":"2409_CR12","doi-asserted-by":"publisher","DOI":"10.1016\/j.sigpro.2021.108036","volume":"183","author":"H Hermessi","year":"2021","unstructured":"Hermessi, H., Mourali, O., & Zagrouba, E. (2021). Multimodal medical image fusion review: Theoretical background and recent advances. Signal Processing, 183, 108036.","journal-title":"Signal Processing"},{"key":"2409_CR13","doi-asserted-by":"crossref","unstructured":"Huang, Z., Liu, J., Fan, X., Liu, R., Zhong, W., & Luo, Z. (2022). Reconet: Recurrent correction network for fast and efficient multi-modality image fusion. In European conference on computer vision, pp. 539\u2013555. Springer","DOI":"10.1007\/978-3-031-19797-0_31"},{"key":"2409_CR14","doi-asserted-by":"crossref","unstructured":"Kimmel, R., Sochen, N., & Malladi, R. (1997). From high energy physics to low level vision. In Scale-space theory in computer vision: First international conference, Scale-Space\u201997 Utrecht, The Netherlands, July 2\u20134, 1997 Proceedings 1, pp. 236\u2013247. Springer","DOI":"10.1007\/3-540-63167-4_54"},{"key":"2409_CR15","unstructured":"Li, J., Li, D., Xiong, C., & Hoi, S. (2022). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning, pp. 12888\u201312900. PMLR"},{"key":"2409_CR16","doi-asserted-by":"crossref","unstructured":"Liang, P., Jiang, J., Liu, X., & Ma, J. (2022). Fusion from decomposition: A self-supervised decomposition approach for image fusion. In European conference on computer vision, pp. 719\u2013735. Springer","DOI":"10.1007\/978-3-031-19797-0_41"},{"issue":"4","key":"2409_CR17","doi-asserted-by":"publisher","first-page":"78","DOI":"10.1007\/s10462-023-10685-z","volume":"57","author":"Y Li","year":"2024","unstructured":"Li, Y., Ding, H., Lin, Y., Feng, X., & Chang, L. (2024). Multi-level textual-visual alignment and fusion network for multimodal aspect-based sentiment analysis. Artificial Intelligence Review, 57(4), 78.","journal-title":"Artificial Intelligence Review"},{"key":"2409_CR18","doi-asserted-by":"crossref","unstructured":"Liu, J., Fan, X., Huang, Z., Wu, G., Liu, R., Zhong, W., & Luo, Z. (2022). Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 5802\u20135811.","DOI":"10.1109\/CVPR52688.2022.00571"},{"issue":"9","key":"2409_CR19","doi-asserted-by":"publisher","first-page":"11040","DOI":"10.1109\/TPAMI.2023.3268209","volume":"45","author":"H Li","year":"2023","unstructured":"Li, H., Xu, T., Wu, X.-J., Lu, J., & Kittler, J. (2023). Lrrnet: A novel representation learning guided fusion network for infrared and visible images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(9), 11040\u201311052.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2409_CR20","doi-asserted-by":"publisher","first-page":"153","DOI":"10.1016\/j.inffus.2018.02.004","volume":"45","author":"J Ma","year":"2019","unstructured":"Ma, J., Ma, Y., & Li, C. (2019). Infrared and visible image fusion methods and applications: A survey. Information fusion, 45, 153\u2013178.","journal-title":"Information fusion"},{"key":"2409_CR21","doi-asserted-by":"publisher","first-page":"153","DOI":"10.1016\/j.inffus.2018.02.004","volume":"45","author":"J Ma","year":"2019","unstructured":"Ma, J., Ma, Y., & Li, C. (2019). Infrared and visible image fusion methods and applications: A survey. Information Fusion, 45, 153\u2013178.","journal-title":"Information Fusion"},{"key":"2409_CR22","first-page":"1","volume":"70","author":"J Ma","year":"2021","unstructured":"Ma, J., Tang, L., Xu, M., Zhang, H., & Xiao, G. (2021). Stdfusionnet: An infrared and visible image fusion network based on salient target detection. IEEE Transactions on Instrumentation and Measurement, 70, 1\u201313.","journal-title":"IEEE Transactions on Instrumentation and Measurement"},{"key":"2409_CR23","doi-asserted-by":"publisher","first-page":"11","DOI":"10.1016\/j.inffus.2018.09.004","volume":"48","author":"J Ma","year":"2019","unstructured":"Ma, J., Yu, W., Liang, P., Li, C., & Jiang, J. (2019). Fusiongan: A generative adversarial network for infrared and visible image fusion. Information Fusion, 48, 11\u201326.","journal-title":"Information Fusion"},{"key":"2409_CR24","doi-asserted-by":"crossref","unstructured":"Qu, L., Liu, S., Wang, M., & Song, Z. (2022). Transmef: A transformer-based multi-exposure image fusion framework using self-supervised multi-task learning. In Proceedings of the AAAI conference on artificial intelligence, 36, 2126\u20132134.","DOI":"10.1609\/aaai.v36i2.20109"},{"key":"2409_CR25","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et\u00a0al. (2021). Learning transferable visual models from natural language supervision. In International conference on machine learning, pp. 8748\u20138763. PMLR"},{"key":"2409_CR26","first-page":"8821","volume":"139","author":"A Ramesh","year":"2021","unstructured":"Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., & Sutskever, I. (2021). Zero-shot text-to-image generation. International Conference on Machine Learning, 139, 8821\u20138831.","journal-title":"International Conference on Machine Learning"},{"key":"2409_CR27","doi-asserted-by":"publisher","DOI":"10.1016\/j.infrared.2021.103839","volume":"117","author":"L Ren","year":"2021","unstructured":"Ren, L., Pan, Z., Cao, J., & Liao, J. (2021). Infrared and visible image fusion based on variational auto-encoder and infrared feature compensation. Infrared Physics & Technology, 117, 103839.","journal-title":"Infrared Physics & Technology"},{"key":"2409_CR28","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2024.3393619","author":"K Shi","year":"2024","unstructured":"Shi, K., Liu, A., Zhang, J., Liu, Y., & Chen, X. (2024). Medical image fusion based on multi-level bidirectional feature interaction network. IEEE Sensors Journal. https:\/\/doi.org\/10.1109\/JSEN.2024.3393619","journal-title":"IEEE Sensors Journal"},{"key":"2409_CR29","unstructured":"Sun, Y., Dong, L., Huang, S., Ma, S., Xia, Y., Xue, J., Wang, J., & Wei, F. (2023). Retentive network: A successor to transformer for large language models. arXiv preprint arXiv:2307.08621"},{"key":"2409_CR30","doi-asserted-by":"crossref","unstructured":"Takumi, K., Watanabe, K., Ha, Q., Tejero-De-Pablos, A., Ushiku, Y., & Harada, T. (2017). Multispectral object detection for autonomous vehicles. In Proceedings of the on thematic workshops of ACM multimedia 2017, pp. 35\u201343.","DOI":"10.1145\/3126686.3126727"},{"key":"2409_CR31","doi-asserted-by":"publisher","first-page":"5413","DOI":"10.1109\/TMM.2022.3192661","volume":"25","author":"W Tang","year":"2022","unstructured":"Tang, W., He, F., & Liu, Y. (2022). Ydtr: Infrared and visible image fusion via y-shape dynamic transformer. IEEE Transactions on Multimedia, 25, 5413\u20135428.","journal-title":"IEEE Transactions on Multimedia"},{"key":"2409_CR32","doi-asserted-by":"publisher","first-page":"5134","DOI":"10.1109\/TIP.2022.3193288","volume":"31","author":"W Tang","year":"2022","unstructured":"Tang, W., He, F., Liu, Y., & Duan, Y. (2022). Matr: Multimodal medical image fusion via multiscale adaptive transformer. IEEE Transactions on Image Processing, 31, 5134\u20135149.","journal-title":"IEEE Transactions on Image Processing"},{"issue":"1","key":"2409_CR33","doi-asserted-by":"publisher","first-page":"010901","DOI":"10.1117\/1.OE.51.1.010901","volume":"51","author":"A Toet","year":"2012","unstructured":"Toet, A., & Hogervorst, M. A. (2012). Progress in color night vision. Optical Engineering, 51(1), 010901\u2013010901.","journal-title":"Optical Engineering"},{"key":"2409_CR34","doi-asserted-by":"crossref","unstructured":"Valanarasu, J.M.J., & Patel, V.M. (2022). Unext: Mlp-based rapid medical image segmentation network. In International conference on medical image computing and computer-assisted intervention, pp. 23\u201333. Springer","DOI":"10.1007\/978-3-031-16443-9_3"},{"key":"2409_CR35","doi-asserted-by":"publisher","first-page":"4527","DOI":"10.1109\/TIP.2022.3184250","volume":"31","author":"Z Wang","year":"2022","unstructured":"Wang, Z., Li, X., Duan, H., & Zhang, X. (2022). A self-supervised residual feature learning model for multifocus image fusion. IEEE Transactions on Image Processing, 31, 4527\u20134542.","journal-title":"IEEE Transactions on Image Processing"},{"issue":"10","key":"2409_CR36","doi-asserted-by":"publisher","first-page":"2529","DOI":"10.1007\/s11263-023-01806-w","volume":"131","author":"Z Wang","year":"2023","unstructured":"Wang, Z., Li, X., Zhao, L., Duan, H., Wang, S., Liu, H., & Zhang, X. (2023). When multi-focus image fusion networks meet traditional edge-preservation technology. International Journal of Computer Vision, 131(10), 2529\u20132552.","journal-title":"International Journal of Computer Vision"},{"key":"2409_CR37","doi-asserted-by":"crossref","unstructured":"Xu, H., Ma, J., Le, Z., Jiang, J., & Guo, X. (2020). Fusiondn: A unified densely connected network for image fusion. In Proceedings of the AAAI conference on artificial intelligence, 34, 12484\u201312491.","DOI":"10.1609\/aaai.v34i07.6936"},{"key":"2409_CR38","doi-asserted-by":"crossref","unstructured":"Xu, H., Gong, M., Tian, X., Huang, J., & Ma, J. (2022). Cufd: An encoder-decoder network for visible and infrared image fusion based on common and unique feature decomposition. Computer Vision and Image Understanding, 218, 103407.","DOI":"10.1016\/j.cviu.2022.103407"},{"key":"2409_CR39","doi-asserted-by":"publisher","first-page":"177","DOI":"10.1016\/j.inffus.2021.06.001","volume":"76","author":"H Xu","year":"2021","unstructured":"Xu, H., & Ma, J. (2021). Emfusion: An unsupervised enhanced medical image fusion network. Information Fusion, 76, 177\u2013186.","journal-title":"Information Fusion"},{"issue":"1","key":"2409_CR40","doi-asserted-by":"publisher","first-page":"502","DOI":"10.1109\/TPAMI.2020.3012548","volume":"44","author":"H Xu","year":"2020","unstructured":"Xu, H., Ma, J., Jiang, J., Guo, X., & Ling, H. (2020). U2fusion: A unified unsupervised image fusion network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1), 502\u2013518.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"10","key":"2409_CR41","doi-asserted-by":"publisher","first-page":"12148","DOI":"10.1109\/TPAMI.2023.3283682","volume":"45","author":"H Xu","year":"2023","unstructured":"Xu, H., Yuan, J., & Ma, J. (2023). Murf: Mutually reinforcing multi-modal image registration and fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(10), 12148\u201312166.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2409_CR42","doi-asserted-by":"crossref","unstructured":"Yi, X., Xu, H., Zhang, H., Tang, L., & Ma, J. (2024). Text-if: Leveraging semantic text guidance for degradation-aware and interactive image fusion. arXiv preprint arXiv:2403.16387","DOI":"10.1109\/CVPR52733.2024.02552"},{"key":"2409_CR43","doi-asserted-by":"publisher","DOI":"10.1016\/j.infrared.2022.104405","volume":"127","author":"S Yi","year":"2022","unstructured":"Yi, S., Jiang, G., Liu, X., Li, J., & Chen, L. (2022). Tcpmfnet: An infrared and visible image fusion network with composite auto encoder and transformer-convolutional parallel mixed fusion strategy. Infrared Physics & Technology, 127, 104405.","journal-title":"Infrared Physics & Technology"},{"key":"2409_CR44","unstructured":"Zhang, Y., Gong, K., Zhang, K., Li, H., Qiao, Y., Ouyang, W., & Yue, X. (2023). Meta-transformer: A unified framework for multimodal learning. arXiv preprint arXiv:2307.10802"},{"key":"2409_CR45","doi-asserted-by":"crossref","unstructured":"Zhang, H., Xu, H., Xiao, Y., Guo, X., & Ma, J. (2020). Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity. In Proceedings of the AAAI conference on artificial intelligence34, 12797\u201312804.","DOI":"10.1609\/aaai.v34i07.6975"},{"key":"2409_CR46","doi-asserted-by":"crossref","unstructured":"Zhang, X., Ye, P., & Xiao, G. (2020). Vifb: A visible and infrared image fusion benchmark. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition workshops, pp. 104\u2013105.","DOI":"10.1109\/CVPRW50498.2020.00060"},{"issue":"8","key":"2409_CR47","doi-asserted-by":"publisher","first-page":"10535","DOI":"10.1109\/TPAMI.2023.3261282","volume":"45","author":"X Zhang","year":"2023","unstructured":"Zhang, X., & Demiris, Y. (2023). Visible and infrared image fusion using deep learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(8), 10535\u201310554.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"2023","key":"2409_CR48","doi-asserted-by":"publisher","first-page":"8988","DOI":"10.1109\/TMM.2023.3243659","volume":"25","author":"J Zhang","year":"2023","unstructured":"Zhang, J., Jiao, L., Ma, W., Liu, F., Liu, X., Li, L., Chen, P., & Yang, S. (2023). Transformer based conditional gan for multimodal image fusion. IEEE Transactions on Multimedia, 25(2023), 8988\u20139001.","journal-title":"IEEE Transactions on Multimedia"},{"issue":"10","key":"2409_CR49","doi-asserted-by":"publisher","first-page":"2761","DOI":"10.1007\/s11263-021-01501-8","volume":"129","author":"H Zhang","year":"2021","unstructured":"Zhang, H., & Ma, J. (2021). Sdnet: A versatile squeeze-and-decomposition network for real-time image fusion. International Journal of Computer Vision, 129(10), 2761\u20132785.","journal-title":"International Journal of Computer Vision"},{"key":"2409_CR50","doi-asserted-by":"publisher","first-page":"323","DOI":"10.1016\/j.inffus.2021.06.008","volume":"76","author":"H Zhang","year":"2021","unstructured":"Zhang, H., Xu, H., Tian, X., Jiang, J., & Ma, J. (2021). Image fusion meets deep learning: A survey and perspective. Information Fusion, 76, 323\u2013336.","journal-title":"Information Fusion"},{"key":"2409_CR51","doi-asserted-by":"publisher","first-page":"1134","DOI":"10.1109\/TCI.2021.3119954","volume":"7","author":"H Zhang","year":"2021","unstructured":"Zhang, H., Yuan, J., Tian, X., & Ma, J. (2021). Gan-fm: Infrared and visible image fusion using gan with full-scale skip connection and dual markovian discriminators. IEEE Transactions on Computational Imaging, 7, 1134\u20131147.","journal-title":"IEEE Transactions on Computational Imaging"},{"key":"2409_CR52","doi-asserted-by":"crossref","unstructured":"Zhao, Z., Bai, H., Zhang, J., Zhang, Y., Xu, S., Lin, Z., Timofte, R., & Van\u00a0Gool, L. (2023). Cddfuse: Correlation-driven dual-branch feature decomposition for multi-modality image fusion. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 5906\u20135916.","DOI":"10.1109\/CVPR52729.2023.00572"},{"key":"2409_CR53","doi-asserted-by":"crossref","unstructured":"Zhao, Z., Bai, H., Zhang, J., Zhang, Y., Zhang, K., Xu, S., Chen, D., Timofte, R., & Van\u00a0Gool, L. (2023). Equivariant multi-modality image fusion. arXiv preprint arXiv:2305.11443","DOI":"10.1109\/CVPR52733.2024.02448"},{"key":"2409_CR54","unstructured":"Zhao, Z., Deng, L., Bai, H., Cui, Y., Zhang, Z., Zhang, Y., Qin, H., Chen, D., Zhang, J., Wang, P., et al. (2024). Image fusion via vision-language model. In International conference on machine learning."},{"key":"2409_CR55","doi-asserted-by":"crossref","unstructured":"Zhao, Z., Xu, S., Zhang, C., Liu, J., Li, P., & Zhang, J. (2020). Didfuse: Deep image decomposition for infrared and visible image fusion. arXiv preprint arXiv:2003.09210","DOI":"10.24963\/ijcai.2020\/135"},{"key":"2409_CR56","doi-asserted-by":"crossref","unstructured":"Zhao, Z., Xu, S., Zhang, C., Liu, J., Zhang, J., & Li, P. (2021). Didfuse: deep image decomposition for infrared and visible image fusion. In Proceedings of the twenty-ninth international conference on international joint conferences on artificial intelligence, pp. 976\u2013976.","DOI":"10.24963\/ijcai.2020\/135"},{"key":"2409_CR57","doi-asserted-by":"crossref","unstructured":"Zhou, M., Huang, J., Fang, Y., Fu, X., & Liu, A. (2022). Pan-sharpening with customized transformer and invertible neural network. In Proceedings of the AAAI conference on artificial intelligence, 36, 3553\u20133561.","DOI":"10.1609\/aaai.v36i3.20267"},{"key":"2409_CR58","doi-asserted-by":"crossref","unstructured":"Zhou, H., Hou, J., Zhang, Y., Ma, J., & Ling, H. (2022). Unified gradient-and intensity-discriminator generative adversarial network for image fusion. Information Fusion, 88, 184\u2013201.","DOI":"10.1016\/j.inffus.2022.07.016"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02409-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-025-02409-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02409-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,7]],"date-time":"2025-06-07T06:00:13Z","timestamp":1749276013000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-025-02409-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,3,17]]},"references-count":58,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2025,7]]}},"alternative-id":["2409"],"URL":"https:\/\/doi.org\/10.1007\/s11263-025-02409-3","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,3,17]]},"assertion":[{"value":"29 July 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 February 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 March 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}