{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,10]],"date-time":"2026-07-10T17:47:19Z","timestamp":1783705639918,"version":"3.55.0"},"publisher-location":"New York, NY, USA","reference-count":43,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62173040,62471045,62071036"],"award-info":[{"award-number":["62173040,62471045,62071036"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755182","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:37:21Z","timestamp":1761377841000},"page":"1443-1451","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":7,"title":["Infrared and Visible Image Fusion with Language-Driven Loss in CLIP Embedding Space"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-5633-7927","authenticated-orcid":false,"given":"Yuhao","family":"Wang","sequence":"first","affiliation":[{"name":"School of Automation, Beijing Institute of Technology, Beijing, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1782-4535","authenticated-orcid":false,"given":"Lingjuan","family":"Miao","sequence":"additional","affiliation":[{"name":"School of Automation, Beijing Institute of Technology, Beijing, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6871-8236","authenticated-orcid":false,"given":"Zhiqiang","family":"Zhou","sequence":"additional","affiliation":[{"name":"School of Automation, Beijing Institute of Technology, Beijing, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-5858-6899","authenticated-orcid":false,"given":"Lei","family":"Zhang","sequence":"additional","affiliation":[{"name":"School of Automation, Beijing Institute of Technology, Beijing, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-8120-9146","authenticated-orcid":false,"given":"Qiao","family":"Yajun","sequence":"additional","affiliation":[{"name":"School of Automation, Beijing Institute of Technology, Beijing, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion. arXiv preprint arXiv:2312.14209","author":"Cheng Chunyang","year":"2023","unstructured":"Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, Zhangyong Tang, and Josef Kittler. 2023. TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion. arXiv preprint arXiv:2312.14209 (2023)."},{"key":"e_1_3_2_1_2_1","first-page":"484","article-title":"Image fusion and image quality assessment of fused images","volume":"4","author":"Deshmukh Manjusha","year":"2010","unstructured":"Manjusha Deshmukh, Udhav Bhosale, et al., 2010. Image fusion and image quality assessment of fused images. International Journal of Image Processing (IJIP), Vol. 4, 5 (2010), 484.","journal-title":"International Journal of Image Processing (IJIP)"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/3528223.3530164"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3206807"},{"key":"e_1_3_2_1_5_1","volume-title":"A new image fusion performance metric based on visual information fidelity. Information fusion","author":"Han Yu","year":"2013","unstructured":"Yu Han, Yunze Cai, Yin Cao, and Xiaoming Xu. 2013. A new image fusion performance metric based on visual information fidelity. Information fusion, Vol. 14, 2 (2013), 127-135."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.167"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01219-9_11"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19797-0_31"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01753"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2887342"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIM.2020.3005230"},{"key":"e_1_3_2_1_12_1","volume-title":"LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images","author":"Li Hui","year":"2023","unstructured":"Hui Li, Tianyang Xu, Xiao-Jun Wu, Jiwen Lu, and Josef Kittler. 2023. LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images. IEEE transactions on pattern analysis and machine intelligence (2023)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00571"},{"key":"e_1_3_2_1_14_1","volume-title":"DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion. arXiv preprint arXiv:2503.17673","author":"Liu Jinyuan","year":"2025","unstructured":"Jinyuan Liu, Bowei Zhang, Qingyun Mei, Xingyuan Li, Yang Zou, Zhiying Jiang, Long Ma, Risheng Liu, and Xin Fan. 2025. DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion. arXiv preprint arXiv:2503.17673 (2025)."},{"key":"e_1_3_2_1_15_1","volume-title":"A task-guided, implicitly-searched and metainitialized deep model for image fusion","author":"Liu Risheng","year":"2024","unstructured":"Risheng Liu, Zhu Liu, Jinyuan Liu, Xin Fan, and Zhongxuan Luo. 2024b. A task-guided, implicitly-searched and metainitialized deep model for image fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence (2024)."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102352"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2020.11.009"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/JAS.2022.105686"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2977573"},{"key":"e_1_3_2_1_20_1","volume-title":"FusionGAN: A generative adversarial network for infrared and visible image fusion. Information fusion","author":"Ma Jiayi","year":"2019","unstructured":"Jiayi Ma, Wei Yu, Pengwei Liang, Chang Li, and Junjun Jiang. 2019. FusionGAN: A generative adversarial network for infrared and visible image fusion. Information fusion, Vol. 48 (2019), 11-26."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2015.2442920"},{"key":"e_1_3_2_1_22_1","volume-title":"International conference on machine learning. PMLR, 8748-8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PMLR, 8748-8763."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2022.12.007"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1117\/1.2945910"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2022.03.007"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Linfeng Tang Hao Zhang Han Xu and Jiayi Ma. 2023. Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity. Information Fusion (2023) 101870.","DOI":"10.1016\/j.inffus.2023.101870"},{"key":"e_1_3_2_1_27_1","volume-title":"The TNO multiband image data collection. Data in brief","author":"Toet Alexander","year":"2017","unstructured":"Alexander Toet. 2017. The TNO multiband image data collection. Data in brief, Vol. 15 (2017), 249-251."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.101828"},{"key":"e_1_3_2_1_29_1","volume-title":"SPDFusion: A Semantic Prior Knowledge-Driven Method for Infrared and Visible Image Fusion","author":"Xiao Quanquan","year":"2024","unstructured":"Quanquan Xiao, Haiyan Jin, Haonan Su, Yuanlin Zhang, Zhaolin Xiao, and Bin Wang. 2024. SPDFusion: A Semantic Prior Knowledge-Driven Method for Infrared and Visible Image Fusion. IEEE Transactions on Multimedia (2024)."},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.101835"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2022.103407"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3012548"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00504"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02091"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02552"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2021.06.008"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3261282"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102655"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01341"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00572"},{"key":"e_1_3_2_1_41_1","volume-title":"Proceedings of the International Conference on Machine Learning.","author":"Zhao Zixiang","year":"2024","unstructured":"Zixiang Zhao, Lilun Deng, Haowen Bai, Yukun Cui, Zhipeng Zhang, Yulun Zhang, Haotong Qin, Dongdong Chen, Jiangshe Zhang, Peng Wang, et al., 2024. Image Fusion via Vision-Language Model. In Proceedings of the International Conference on Machine Learning."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3075745"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/TIM.2022.3216413","article-title":"CLF-Net: Contrastive learning for infrared and visible image fusion network","volume":"71","author":"Zhu Zhengjie","year":"2022","unstructured":"Zhengjie Zhu, Xiaogang Yang, Ruitao Lu, Tong Shen, Xueli Xie, and Tao Zhang. 2022. CLF-Net: Contrastive learning for infrared and visible image fusion network. IEEE Transactions on Instrumentation and Measurement, Vol. 71 (2022), 1-15.","journal-title":"IEEE Transactions on Instrumentation and Measurement"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","location":"Dublin Ireland","acronym":"MM '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755182","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:02:02Z","timestamp":1765342922000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755182"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":43,"alternative-id":["10.1145\/3746027.3755182","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755182","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}