{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,5]],"date-time":"2026-03-05T06:59:13Z","timestamp":1772693953830,"version":"3.50.1"},"publisher-location":"Cham","reference-count":48,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031727740","type":"print"},{"value":"9783031727757","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T00:00:00Z","timestamp":1727654400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T00:00:00Z","timestamp":1727654400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72775-7_18","type":"book-chapter","created":{"date-parts":[[2024,9,29]],"date-time":"2024-09-29T07:01:50Z","timestamp":1727593310000},"page":"311-328","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":11,"title":["Distractors-Immune Representation Learning with\u00a0Cross-Modal Contrastive Regularization for\u00a0Change Captioning"],"prefix":"10.1007","author":[{"given":"Yunbin","family":"Tu","sequence":"first","affiliation":[]},{"given":"Liang","family":"Li","sequence":"additional","affiliation":[]},{"given":"Li","family":"Su","sequence":"additional","affiliation":[]},{"given":"Chenggang","family":"Yan","sequence":"additional","affiliation":[]},{"given":"Qingming","family":"Huang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,9,30]]},"reference":[{"key":"18_CR1","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"382","DOI":"10.1007\/978-3-319-46454-1_24","volume-title":"Computer Vision \u2013 ECCV 2016","author":"P Anderson","year":"2016","unstructured":"Anderson, P., Fernando, B., Johnson, M., Gould, S.: SPICE: semantic propositional image caption evaluation. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9909, pp. 382\u2013398. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46454-1_24"},{"key":"18_CR2","unstructured":"Banerjee, S., Lavie, A.: METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. In: Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization, pp. 65\u201372 (2005)"},{"key":"18_CR3","doi-asserted-by":"crossref","unstructured":"Black, A., Shi, J., Fai, Y., Bui, T., Collomosse, J.: VIXEN: visual text comparison network for image difference captioning. In: AAAI (2024)","DOI":"10.1609\/aaai.v38i2.27843"},{"key":"18_CR4","doi-asserted-by":"crossref","unstructured":"Chen, J., Li, L., Su, L., Zha, Z.j., Huang, Q.: Prompt-enhanced multiple instance learning for weakly supervised video anomaly detection. In: CVPR, pp. 18319\u201318329 (2024)","DOI":"10.1109\/CVPR52733.2024.01734"},{"key":"18_CR5","unstructured":"Chen, X., et al.: Microsoft COCO captions: data collection and evaluation server. arXiv preprint arXiv:1504.00325 (2015)"},{"key":"18_CR6","doi-asserted-by":"crossref","unstructured":"Cho, J., Yoon, S., Kale, A., Dernoncourt, F., Bui, T., Bansal, M.: Fine-grained image captioning with clip reward. In: Findings of NAACL, pp. 517\u2013527 (2022)","DOI":"10.18653\/v1\/2022.findings-naacl.39"},{"key":"18_CR7","doi-asserted-by":"crossref","unstructured":"Guo, Z., Wang, T.J., Laaksonen, J.: CLIP4IDC: CLIP for image difference captioning. In: AACL, pp. 33\u201342 (2022)","DOI":"10.18653\/v1\/2022.aacl-short.5"},{"key":"18_CR8","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"18_CR9","doi-asserted-by":"crossref","unstructured":"Hosseinzadeh, M., Wang, Y.: Image change captioning by learning from an auxiliary task. In: CVPR, pp. 2725\u20132734 (2021)","DOI":"10.1109\/CVPR46437.2021.00275"},{"key":"18_CR10","first-page":"1","volume":"60","author":"G Hoxha","year":"2022","unstructured":"Hoxha, G., Chouaf, S., Melgani, F., Smara, Y.: Change captioning: a new paradigm for multitemporal remote sensing image analysis. IEEE Trans. Geosci. Remote Sens. 60, 1\u201314 (2022)","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"18_CR11","doi-asserted-by":"crossref","unstructured":"Huang, Q., et al.: Image difference captioning with instance-level fine-grained feature representation. IEEE Trans. Multimedia 24, 2004\u20132017 (2022)","DOI":"10.1109\/TMM.2021.3074803"},{"key":"18_CR12","doi-asserted-by":"crossref","unstructured":"Islam, M.M., Ho, N., Yang, X., Nagarajan, T., Torresani, L., Bertasius, G.: Video recap: recursive captioning of hour-long videos. In: CVPR (2024)","DOI":"10.1109\/CVPR52733.2024.01723"},{"key":"18_CR13","doi-asserted-by":"crossref","unstructured":"Jhamtani, H., Berg-Kirkpatrick, T.: Learning to describe differences between pairs of similar images. In: EMNLP, pp. 4024\u20134034 (2018)","DOI":"10.18653\/v1\/D18-1436"},{"key":"18_CR14","doi-asserted-by":"crossref","unstructured":"Kim, H., Kim, J., Lee, H., Park, H., Kim, G.: Agnostic change captioning with cycle consistency. In: ICCV, pp. 2095\u20132104 (2021)","DOI":"10.1109\/ICCV48922.2021.00210"},{"key":"18_CR15","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)"},{"key":"18_CR16","doi-asserted-by":"publisher","first-page":"2726","DOI":"10.1109\/TIP.2022.3158546","volume":"31","author":"L Li","year":"2022","unstructured":"Li, L., Gao, X., Deng, J., Tu, Y., Zha, Z.J., Huang, Q.: Long short-term relation transformer with global gating for video captioning. IEEE Trans. Image Process. 31, 2726\u20132738 (2022)","journal-title":"IEEE Trans. Image Process."},{"key":"18_CR17","doi-asserted-by":"crossref","unstructured":"Li, M., Lin, B., Chen, Z., Lin, H., Liang, X., Chang, X.: Dynamic graph enhanced contrastive learning for chest x-ray report generation. In: CVPR, pp. 3334\u20133343 (2023)","DOI":"10.1109\/CVPR52729.2023.00325"},{"key":"18_CR18","doi-asserted-by":"crossref","unstructured":"Liao, Z., Huang, Q., Liang, Y., Fu, M., Cai, Y., Li, Q.: Scene graph with 3d information for change captioning. In: ACM MM, pp. 5074\u20135082 (2021)","DOI":"10.1145\/3474085.3475712"},{"key":"18_CR19","unstructured":"Lin, C.Y.: Rouge: a package for automatic evaluation of summaries. In: Text Summarization Branches Out, pp. 74\u201381 (2004)"},{"key":"18_CR20","first-page":"1","volume":"60","author":"C Liu","year":"2022","unstructured":"Liu, C., Zhao, R., Chen, H., Zou, Z., Shi, Z.: Remote sensing image change captioning with dual-branch transformers: a new method and a large scale dataset. IEEE Trans. Geosci. Remote Sens. 60, 1\u201320 (2022)","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"issue":"3","key":"18_CR21","first-page":"3003","volume":"45","author":"X Liu","year":"2023","unstructured":"Liu, X., et al.: Entity-enhanced adaptive reconstruction network for weakly supervised referring expression grounding. IEEE Trans. Pattern Anal. Mach. Intell. 45(3), 3003\u20133018 (2023)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"18_CR22","unstructured":"Oord, A.v.d., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748 (2018)"},{"key":"18_CR23","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: BLEU: a method for automatic evaluation of machine translation. In: ACL, pp. 311\u2013318 (2002)","DOI":"10.3115\/1073083.1073135"},{"key":"18_CR24","doi-asserted-by":"crossref","unstructured":"Park, D.H., Darrell, T., Rohrbach, A.: Robust change captioning. In: ICCV, pp. 4624\u20134633 (2019)","DOI":"10.1109\/ICCV.2019.00472"},{"key":"18_CR25","doi-asserted-by":"crossref","unstructured":"Qiu, Y., et al.: Describing and localizing multiple changes with transformers. In: ICCV, pp. 1971\u20131980 (2021)","DOI":"10.1109\/ICCV48922.2021.00198"},{"key":"18_CR26","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"574","DOI":"10.1007\/978-3-030-58568-6_34","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Shi","year":"2020","unstructured":"Shi, X., Yang, X., Gu, J., Joty, S., Cai, J.: Finding it at another side: a viewpoint-adapted matching encoder for change captioning. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12359, pp. 574\u2013590. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58568-6_34"},{"key":"18_CR27","doi-asserted-by":"crossref","unstructured":"Sun, Y., Qiu, Y., Khan, M., Matsuzawa, F., Iwata, K.: The STVchrono dataset: towards continuous change recognition in time. In: CVPR, pp. 14111\u201314120 (2024)","DOI":"10.1109\/CVPR52733.2024.01338"},{"issue":"5","key":"18_CR28","doi-asserted-by":"publisher","first-page":"2969","DOI":"10.1002\/int.22821","volume":"37","author":"Y Sun","year":"2022","unstructured":"Sun, Y., et al.: Bidirectional difference locating and semantic consistency reasoning for change captioning. Int. J. Intell. Syst. 37(5), 2969\u20132987 (2022)","journal-title":"Int. J. Intell. Syst."},{"key":"18_CR29","doi-asserted-by":"crossref","unstructured":"Tan, H., Dernoncourt, F., Lin, Z., Bui, T., Bansal, M.: Expressing visual relationships via language. In: ACL, pp. 1873\u20131883 (2019)","DOI":"10.18653\/v1\/P19-1182"},{"issue":"5","key":"18_CR30","doi-asserted-by":"publisher","first-page":"3213","DOI":"10.1109\/TPAMI.2023.3339628","volume":"46","author":"W Tang","year":"2024","unstructured":"Tang, W., Li, L., Liu, X., Jin, L., Tang, J., Li, Z.: Context disentangling and prototype inheriting for robust visual grounding. IEEE Trans. Pattern Anal. Mach. Intell. 46(5), 3213\u20133229 (2024)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"18_CR31","doi-asserted-by":"publisher","first-page":"2620","DOI":"10.1109\/TIP.2023.3268004","volume":"32","author":"Y Tu","year":"2023","unstructured":"Tu, Y., Li, L., Su, L., Du, J., Lu, K., Huang, Q.: Viewpoint-adaptive representation disentanglement network for change captioning. IEEE Trans. Image Process. 32, 2620\u20132635 (2023)","journal-title":"IEEE Trans. Image Process."},{"key":"18_CR32","doi-asserted-by":"publisher","first-page":"3565","DOI":"10.1109\/TIP.2022.3159472","volume":"31","author":"Y Tu","year":"2022","unstructured":"Tu, Y., et al.: I$$^2$$transformer: intra-and inter-relation embedding transformer for TV show captioning. IEEE Trans. Image Process. 31, 3565\u20133577 (2022)","journal-title":"IEEE Trans. Image Process."},{"key":"18_CR33","doi-asserted-by":"publisher","first-page":"9518","DOI":"10.1109\/TMM.2023.3254162","volume":"25","author":"Y Tu","year":"2023","unstructured":"Tu, Y., Li, L., Su, L., Lu, K., Huang, Q.: Neighborhood contrastive transformer for change captioning. IEEE Trans. Multimedia 25, 9518\u20139529 (2023)","journal-title":"IEEE Trans. Multimedia"},{"issue":"7","key":"18_CR34","doi-asserted-by":"publisher","first-page":"4926","DOI":"10.1109\/TPAMI.2024.3365104","volume":"46","author":"Y Tu","year":"2024","unstructured":"Tu, Y., Li, L., Su, L., Zha, Z.J., Huang, Q.: Smart: syntax-calibrated multi-aspect relation transformer for change captioning. IEEE Trans. Pattern Anal. Mach. Intell. 46(7), 4926\u20134943 (2024)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"18_CR35","doi-asserted-by":"crossref","unstructured":"Tu, Y., Li, L., Su, L., Zha, Z.J., Yan, C., Huang, Q.: Self-supervised cross-view representation reconstruction for change captioning. In: ICCV, pp. 2805\u20132815 (2023)","DOI":"10.1109\/ICCV51070.2023.00263"},{"key":"18_CR36","doi-asserted-by":"crossref","unstructured":"Tu, Y., Li, L., Su, L., Zha, Z.J., Yan, C., Huang, Q.: Context-aware difference distilling for multi-change captioning. In: ACL (2024)","DOI":"10.18653\/v1\/2024.acl-long.430"},{"key":"18_CR37","doi-asserted-by":"crossref","unstructured":"Tu, Y., Li, L., Yan, C., Gao, S., Yu, Z.: R$${\\hat{\\,}}$$3Net:relation-embedded representation reconstruction network for change captioning. In: EMNLP, pp. 9319\u20139329 (2021)","DOI":"10.18653\/v1\/2021.emnlp-main.735"},{"key":"18_CR38","doi-asserted-by":"crossref","unstructured":"Tu, Y., et al.: Semantic relation-aware difference representation learning for change captioning. In: Findings of ACL, pp. 63\u201373 (2021)","DOI":"10.18653\/v1\/2021.findings-acl.6"},{"key":"18_CR39","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2022.109204","volume":"136","author":"Y Tu","year":"2023","unstructured":"Tu, Y., Zhou, C., Guo, J., Li, H., Gao, S., Yu, Z.: Relation-aware attention for video captioning via graph learning. Pattern Recogn. 136, 109204 (2023)","journal-title":"Pattern Recogn."},{"key":"18_CR40","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS, pp. 5998\u20136008 (2017)"},{"key":"18_CR41","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Lawrence\u00a0Zitnick, C., Parikh, D.: CIDEr: consensus-based image description evaluation. In: CVPR, pp. 4566\u20134575 (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"18_CR42","unstructured":"Wang, Q., Zhang, Y., Zheng, Y., Pan, P., Hua, X.S.: Disentangled representation learning for text-video retrieval. arXiv preprint arXiv:2203.07111 (2022)"},{"key":"18_CR43","unstructured":"Xiao, J., Li, L., Lv, H., Wang, S., Huang, Q.: R&B: region and boundary aware zero-shot grounded text-to-image generation. ICLR (2024)"},{"key":"18_CR44","unstructured":"Yang, C.F., Tsai, Y.H.H., Fan, W.C., Salakhutdinov, R.R., Morency, L.P., Wang, F.: Paraphrasing is all you need for novel object captioning. In: NeurIPS, vol. 35, pp. 6492\u20136504 (2022)"},{"key":"18_CR45","doi-asserted-by":"crossref","unstructured":"Yao, L., Wang, W., Jin, Q.: Image difference captioning with pre-training and contrastive learning. In: AAAI (2022)","DOI":"10.1609\/aaai.v36i3.20218"},{"key":"18_CR46","doi-asserted-by":"crossref","unstructured":"Yue, S., Tu, Y., Li, L., Gao, S., Yu, Z.: Multi-grained representation aggregating transformer with gating cycle for change captioning. ACM Trans. Multimedia Comput. Commun. Appl. (2024)","DOI":"10.1145\/3660346"},{"key":"18_CR47","doi-asserted-by":"publisher","first-page":"8828","DOI":"10.1109\/TMM.2023.3242142","volume":"25","author":"S Yue","year":"2023","unstructured":"Yue, S., Tu, Y., Li, L., Yang, Y., Gao, S., Yu, Z.: I3N: intra- and inter-representation interaction network for change captioning. IEEE Trans. Multimedia 25, 8828\u20138841 (2023)","journal-title":"IEEE Trans. Multimedia"},{"key":"18_CR48","unstructured":"Zbontar, J., Jing, L., Misra, I., LeCun, Y., Deny, S.: Barlow twins: self-supervised learning via redundancy reduction. In: ICML, pp. 12310\u201312320 (2021)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72775-7_18","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,28]],"date-time":"2024-11-28T21:21:26Z","timestamp":1732828886000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72775-7_18"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,30]]},"ISBN":["9783031727740","9783031727757"],"references-count":48,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72775-7_18","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,9,30]]},"assertion":[{"value":"30 September 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}